JP2020182445A - 単一生物単位の配列情報の新規処理法 - Google Patents

単一生物単位の配列情報の新規処理法 Download PDF

Info

Publication number
JP2020182445A
JP2020182445A JP2019167532A JP2019167532A JP2020182445A JP 2020182445 A JP2020182445 A JP 2020182445A JP 2019167532 A JP2019167532 A JP 2019167532A JP 2019167532 A JP2019167532 A JP 2019167532A JP 2020182445 A JP2020182445 A JP 2020182445A
Authority
JP
Japan
Prior art keywords
sequence information
draft
single biological
sequence
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019167532A
Other languages
English (en)
Other versions
JP6744642B1 (ja
Inventor
浩司 有川
Koji Arikawa
浩司 有川
正人 細川
Masato Hosokawa
正人 細川
春子 竹山
Haruko Takeyama
春子 竹山
小川 雅人
Masahito Ogawa
雅人 小川
圭吾 井手
Keigo IDE
圭吾 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BitBiome Inc
Original Assignee
BitBiome Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BitBiome Inc filed Critical BitBiome Inc
Priority to JP2019167532A priority Critical patent/JP6744642B1/ja
Application granted granted Critical
Publication of JP6744642B1 publication Critical patent/JP6744642B1/ja
Publication of JP2020182445A publication Critical patent/JP2020182445A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】微生物ゲノムデータ自動的構築・提供システムを提供する。【解決手段】単一生物単位の配列情報を処理する方法であって、該方法は:(A)複数の単一(single)生物単位(例えば、細胞)のゲノム(または同等の遺伝子集合)の部分配列情報(スライドでは、SAG)について、生物系統同定用配列(16S rRNAまたはマーカー遺伝子)に基づいて、同一系統ごとにクラスター化するステップと、(B)必要に応じて、データベース中の該単一生物単位のゲノムの情報と照合するステップとを含む方法。【選択図】なし

Description

本発明は、単一生物単位の配列情報の新規処理法、システムおよび関連技術を提供する。より特定すると、微生物ゲノムデータ自動的構築・提供システムを提供する。
微生物ゲノムデータの構築が進んでいるが、現在の技術は、メタ情報を基にしており、細菌叢を解析対象にした場合に情報として質、量とも不足する。
単一の生物単位ごとの遺伝情報(ゲノム情報など)の取得が一部されてきているが、その情報処理については十分な質のものが提供されていない。
本発明者らは、鋭意研究した結果、単一生物単位レベルでの単一生物単位の配列情報を蓄積し、そこから高精度の微生物ゲノムデータを自動的に構築・提供するシステムを完成するに至った。
本発明の実施形態の例として、以下のものが挙げられる。
(項目1)
単一(single)生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含む方法。
(項目2)
前記ステップ(B)を行う場合、データベースを利用することをさらに含む、項目1に記載の方法。
(項目3)
単一(single)生物単位の配列情報を処理する方法であって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとに対応しているドラフトの個数または割合を計算するステップと、
C)該対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含む方法。
(項目3A)
単一(single)生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップと
を含む方法。
(項目4)
単一生物単位の配列情報を処理する方法であって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含む方法。
(項目5)
項目4に記載の単一生物単位の配列情報を処理する方法であって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目4に記載のステップを繰り返すステップと
を含む、方法。
(項目6)
単一生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、方法。
(項目7)
前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、項目6に記載の方法。
(項目8)
単一生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップと
を含む、方法。
(項目9)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含むプログラム。
(項目10)
前記ステップ(B)を行う場合、データベースを利用することをさらに含む、項目9に記載のプログラム。
(項目11)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとに対応しているドラフトの個数または割合を計算するステップと、
C)該対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含むプログラム。
(項目11A)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップと
を含むプログラム。
(項目12)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含むプログラム。
(項目13)
項目12に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目12に記載のステップを繰り返すステップと
を含む、プログラム。
(項目14)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、プログラム。
(項目15)
前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、項目14に記載のプログラム。
(項目16)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップと
を含む、プログラム。
(項目17)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含む記録媒体。
(項目18)
前記ステップ(B)を行う場合、データベースを利用することをさらに含む、項目17に記載の記録媒体。
(項目19)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとに対応しているドラフトの個数または割合を計算するステップと、
C)該対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含む記録媒体。
(項目19A)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップと
を含む記録媒体。
(項目20)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含む記録媒体。
(項目21)
項目20に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目20に記載のステップを繰り返すステップと
を含む、記録媒体。
(項目22)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、記録媒体。
(項目23)
前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、項目22に記載の記録媒体。
(項目24)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップと
を含む、記録媒体。
(項目25)
単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する追加情報追加部と、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部とを含むシステム。
(項目26)
前記(B)追加情報追加部を含む場合、データベースを利用するデータベース利用部をさらに含む、項目25に記載のシステム。
(項目27)
単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
A)データベースから、ドラフト内で重複のない遺伝子を抽出する抽出部と、
B)前記遺伝子ごとに対応しているドラフトの個数または割合を計算する計算部と、
C)前記対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択する選択部と
を含むシステム。
(項目27A)
単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定する同定部と
を含むシステム。
(項目28)
単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するドラフト構築部と、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択する選択部と
を含むシステム。
(項目29)
項目28に記載の単一生物単位の配列情報を処理するためのシステムであって、該システムは、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択する選択部と、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するドラフト改善部と、
(G’)必要に応じて(G)に、該より長いドラフトが配列情報の完全長に達するまでドラフト生成を繰り返させるドラフト構築部と、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目28に記載の(D)、(E)および(E’)に順位付け、ドラフト構築および選択を繰り返させる手段と
を含む、システム。
(項目30)
単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録する登録部と
を含む、システム。
(項目31)
前記再クラスタリング部が、ネットワーク解析とコミュニティ検出によって再クラスター化を行う、項目30に記載のシステム。
(項目32)
単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するドラフト構築部、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すための手段と
を含む、システム。
本発明において、上記1又は複数の特徴は、明示された組み合わせに加え、さらに組み合わせて提供されうることが意図される。本発明のなおさらなる実施形態及び利点は、必要に応じて以下の詳細な説明を読んで理解すれば、当業者に認識される。
本発明により、単一生物単位レベルでの単一生物単位配列情報をより高精度に提供することができるようになった。本発明を用いることにより、培養不可能な微生物のほぼ完全なゲノム配列の解明や、同一株の微生物間における遺伝的異質性を解析可能となった。
図1は本発明の全体概要図である。本発明は、新しく得られた単一生物単位の部分配列情報を本システムに登録されている生物系統同定用配列を用いて同一系統にクラスター化し、クラスター化された複数の単一生物単位の部分配列情報を統合して最適なドラフトゲノム配列を構築するものである。微生物ゲノムデータベースに登録されているドラフトゲノム配列は、新規の単一生物単位が測定・登録されるたびに更新され、徐々に品質が向上していくものである。 図2は本システムで使用する微生物データベース構造である。微生物ゲノムデータベースは、単一生物単位ゲノム情報とそれを統合して作成するドラフトゲノム情報で構築される。ドラフトゲノム情報には、暫定系統分類、コンプリート率、コンタミ率、品質カテゴリー、コンティグ数、N50統計値、GC含量などのゲノム配列に付随するデータを記録する。1つのドラフトゲノム情報には複数のアセンブル塩基配列と遺伝子情報が対応付けられる。遺伝子情報には遺伝子名、遺伝子長さ、タンパク質ファミリー、GC含量、マーカータイプ、シングルコピーなどの遺伝子に付随するデータを記録する。1つの遺伝子情報には1つの遺伝子塩基配列が対応付けられる。単一生物単位ゲノム情報も、ドラフトゲノム情報と同等のデータが付随される。ドラフトゲノム情報と同様に、1つの単一生物単位ゲノム情報には複数のアセンブル塩基配列、遺伝子情報が対応付けられ、1つの遺伝子情報には1つの遺伝子塩基配列が対応付けられる。また、1つの単一生物単位ゲノム情報には複数の部分塩基配列が対応付けられる。 図3は微生物データベースにより新規測定された単一生物単位を同一系統にクラスター化する手法である。単一生物単位のゲノムDNAをDNAシーケンサーで測定し、部分塩基配列を取得する。部分塩基配列に対してアセンブルを行い、アセンブル塩基配列を取得する。アセンブル塩基配列に対し遺伝子同定を行い、遺伝子塩基配列を取得する。各遺伝子塩基配列に対してタンパク質データベース等を用いて機能推定を行い、遺伝子情報を取得する。同時にアセンブル塩基配列に対して系統分類を行い、暫定系統分類情報を取得する。また、アセンブル塩基配列の品質を評価し、ゲノム情報を取得する。単一生物単位を解析して得られた部分塩基配列、ゲノム情報、アセンブル塩基配列、系統分類情報、遺伝子情報、遺伝子塩基配列を単一生物単位ゲノムデータとする。微生物ゲノムデータベースから、系統分類情報を用いて同一系統のドラフトゲノム情報を検索する。さらにドラフトゲノム情報に対応する遺伝子情報をもとに、生物系統同定用配列とそのタンパク質ファミリーを取得する。取得したタンパク質ファミリーと同じタンパク質ファミリーをもつ遺伝子情報と遺伝子塩基配列を単一生物単位ゲノムデータから抽出し、ドラフトゲノムの生物系統同定用配列と単一生物単位ゲノムの対応遺伝子塩基配列の組み合わせで相同性を計算する。ある一定の相同性以下の組み合わせは後述の処理から除外する。生物系統同定用配列で最も相同性の高い遺伝子を単一生物単位の生物系統同定用配列として同定する。相同性とマッチした塩基配列長の加重平均などにより、ドラフトゲノムと単一生物単位の類似度を評価する。評価の最も高かったドラフトゲノムを単一生物単位が属するクラスターとする。万が一、複数の同一評価値のドラフトゲノムが場合は、生物系統同定用配列でなく全アセンブル塩基配列を用いて同様の評価を行い判定する。 図4は微生物データベースを使用せずに新規測定された単一生物単位を同一系統にクラスター化する手法である。微生物ゲノムデータベースに対応するドラフトゲノムがなかった単一生物単位ゲノムデータに関して、暫定系統分類により暫定的なクラスターを構築する。各暫定クラスターに所属する単一生物単位ゲノムデータは、微生物ゲノムデータベースの生物系統同定用配列を用いることで、さらに分割すべきかどうかの判断を行う。分割の方法は図6で示される。 図5は微生物データベースに登録されている遺伝子情報を用いて、新たに生物系統同定用配列を同定する手法である。微生物ゲノムデータベースは、データが蓄積されるに従い、徐々にドラフトゲノム情報や対応する遺伝子情報の品質が向上していく。そこで、本システムにおいては、高品質ドラフトゲノム情報と遺伝子情報から新たな生物系統同定用配列の再同定方法を実装する。微生物ゲノムデータベースから登録されているドラフトゲノムごとに対応するタンパク質ファミリーを抽出しその出現頻度を計算し、出現頻度行列を作成する。このとき、品質の悪いドラフトゲノムは除外してもよい。出現頻度行列において、1つのドラフトゲノムに対し複数の頻度で表れているタンパク質ファミリーは、コンタミの可能性があるため除外する。ただ1つのタンパク質ファミリーが対応している場合、そのタンパク質ファミリーはシングルコピー遺伝子として同定する。タンパク質ファミリーのシングルコピー遺伝子が全ドラフトゲノム内に一定以上の割合で存在する場合、そのタンパク質ファミリーが対応する遺伝子は生物系統同定用配列候補である。割合の多い順でソートして、ある基準値以上(例えば90%以上)または上位数件を新たな生物系統同定用配列として採用する。 図6は同一系統とされたクラスター内の新規測定単一生物単位を細分化する手法である。新規測定された単一生物単位で同一クラスターと判定されたものにおいて、微生物ゲノムデータベースから抽出した生物系統同定用配列により、総当たりで各単一生物単位の類似度(距離)評価を行う。類似度(距離)行列を用いてネットワーク解析やクラスタリング解析を行い、単一生物単位を細分化する。 図7は同一系統とされたクラスター内の単一生物単位により最適ドラフトゲノムを構築する手法である。同一系統とされる新規単一生物単位ゲノムデータと、存在するならば微生物ゲノムデータベースから同一系統の単位ゲノムデータを抽出し、クラスターとする。クラスター内の単一生物単位ゲノムデータは、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて並び替えられる。ある一定の水準に達しない単位ゲノムデータは以降の処理から除外される。並び替えられた単一生物単位ゲノムデータをランクの高い順に2つ選択し、暫定ドラフトゲノム構築用単一生物単位ゲノムデータセットとする。どうようにランクの高いほうから順次単一生物単位ゲノムデータを追加した暫定ドラフトゲノム構築用単一生物単位ゲノムデータセットを複数構築する。これらの暫定ドラフトゲノム構築用単一生物単位ゲノムデータセットに対し、ccSAG法を用いて暫定ドラフトゲノムを構築する。所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて最も基準の高い暫定ドラフトゲノムを最適ドラフトゲノムとして選択する。微生物ゲノムデータベースに存在する既存のドラフトゲノムよりも基準が高い場合は、新たに作成されたドラフトゲノムを微生物ゲノムデータベースに登録、更新する。また、暫定ドラフトゲノムを構築した単一生物単位ゲノムデータ数を説明変数、基準値(例えば、コンプリート率、コンタミ率)を目的変数として暫定ドラフトゲノムの評価データを作成する。これはドラフトゲノムの品質が収束していて、単一生物単位ゲノムデータを追加してもこれ以上の改善が見込めないなどの判断を行うときに役に立つ。 図8は微生物データベースに登録されているドラフトゲノムに関して、より高品質なドラフトゲノムを構築する手法である。微生物ゲノムデータベース内のドラフトゲノムにおいて、品質が収束していると推定されるドラフトゲノムをフィニッシング対象として抽出する。抽出された単一生物単位ゲノムデータは、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて並び替えられる。ある一定の水準に達しない単一生物単位ゲノムデータは以降の処理から除外される。これら抽出された単一生物単位に対し、通常行うドラフトゲノム構築よりも許容度の高いパラメータを設定してドラフトゲノムを構築する。一方で、ドラフトゲノム再構築用の単一生物単位ゲノムデータのアセンブル塩基配列とドラフトゲノムのアセンブル塩基配列を相同性検索し、ドラフトゲノムのアセンブル塩基配列を結合するためのブリッジアセンブル塩基配列を検出する。ブリッジアセンブル塩基配列が検出できた場合、それを用いてドラフトゲノムのアセンブル塩基配列を結合する。このようにして構築された2つのドラフトゲノムデータと微生物ゲノムデータベースに登録済みのドラフトゲノムデータを比較評価し、基準値の高い方を選択する。新たなドラフトゲノムデータが選択された場合、微生物ゲノムデータベースに登録し更新する。 図9は微生物データベースに登録されているドラフトゲノムに関して、より細分化するための手法である。微生物ゲノムデータベース内のドラフトゲノムにおいて、品質が収束していると推定されるドラフトゲノムを細分化対象として抽出する。抽出された単一生物単位ゲノムデータは、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて並び替えられる。ある一定の水準に達しない単一生物単位ゲノムデータは以降の処理から除外される。これら抽出された単一生物単位に対し、図6の細分化処理を実施する。細分化された各クラスターの単一生物単位ゲノムデータに対してそれぞれドラフトゲノムを構築する。細分化で構築されたドラフトゲノムデータと、微生物ゲノムデータベースに登録済みのドラフトゲノムデータを比較し、基準値の高い方を選択する。新たなドラフトゲノムデータが選択された場合、微生物ゲノムデータベースに登録し更新する。 図10は、スタンドアローンで解析を行う場合のシステム構成を示す図である。DNA塩基配列から出力された単一生物単位の部分塩基配列データは、ポータブルHDDなどの外部記憶装置を介して、解析用コンピュータの補助記憶装置に記録される。また、補助記憶装置には配列処理を行うためのプログラム群、微生物ゲノムデータベースが記録されている。プログラム及び部分塩基配列データは、補助記憶装置から主記憶装置にロードされ中央演算処理装置により処理が実行される。一連の処理はキーボード、マウスなどの入力装置によって行われ、処理の結果はモニターなどの出力装置および補助記憶装置に出力される。 図11は、クラウド解析などの、インターネットを介して処理を行うときのシステム構成を示す図である。DNA塩基配列から出力された単一生物単位の部分塩基配列データは、FTPサーバなどに記録されインターネットを介してダウンロードできるようになっている。部分塩基配列データをHPC(High−Performance Computing)システムにアップロードし、HPCシステム上で処理を行う。微生物ゲノムデータベースへはデータベースサーバを介してアクセスしてもよいし、データベース自体をHPCシステム上にダウンロードして使用してもよい。これら一連の処理は、インターネットに接続された解析用端末により行われる。
以下、本発明を最良の形態を示しながら説明する。本明細書の全体にわたり、単数形の表現は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。従って、単数形の冠詞(例えば、英語の場合は「a」、「an」、「the」など)は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。また、本明細書において使用される用語は、特に言及しない限り、当該分野で通常用いられる意味で用いられることが理解されるべきである。したがって、他に定義されない限り、本明細書中で使用される全ての専門用語及び科学技術用語は、本発明の属する分野の当業者によって一般的に理解されるのと同じ意味を有する。矛盾する場合、本明細書(定義を含めて)が優先する。
(定義等)
以下に本明細書において特に使用される用語の定義および/または基本的技術内容を適宜説明する。
本明細書において、「単一生物単位」とは、遺伝情報またはその他の生体分子の情報を有する単位を指す。単一生物単位には、細胞、細胞様構造物などを含み得るが、これらに限定されず、人工的に生産したもの(いわゆる人工細胞)やデジタル上の細胞(情報として提供される)なども含み得る。
本明細書において、「細胞」とは、遺伝情報を有する分子を内包する粒子であって、(単独で可能かどうかにかかわらず)複製されることが可能である任意の粒子を指す。本明細書における「細胞」としては、単細胞生物の細胞、細菌、多細胞生物由来の細胞、真菌などが包含される。
本明細書において、「細胞様構造物」とは、遺伝情報を有する分子を内包する任意の粒子を指す。本明細書における「細胞様構造物」としては、細胞内小器官、例えば、ミトコンドリア、細胞核、および葉緑体、ならびにウイルスなどが包含される。
本明細書において、「遺伝情報またはその他の生体分子の情報」とは、生体分子またはその類似体を規定する情報を指す。遺伝情報またはその他の生体分子の情報には、核酸、アミノ酸、脂質もしくは糖鎖またはそれらの類似体の構造情報などを含み得るが、これらに限定されず、代謝物質などの生体内分子またはその類似体の相互作用の多様性情報なども含み得る。「遺伝情報」は、「核酸情報」とも称され、両者は同義である。
本明細書において、「生体分子」とは、任意の生物またはウイルスが有する分子を指す。生体内分子には、核酸、タンパク質、糖鎖または脂質などを含み得る。本明細書において、「生体分子の類似体」とは、生体分子の天然または非天然の変種を指す。生体内分子の類似体には、修飾核酸、修飾アミノ酸、修飾脂質または修飾糖鎖などを含み得る。
本明細書において、「集合」とは、2つ以上の単一生物単位、細胞または細胞用構造物を含む集まりをいう。
本明細書において、「サブ集合」とは、「集合」と一緒に使用される場合、集合よりも少ない数の単一生物単位、細胞または細胞用構造を有する集合の一部分を指す。
本明細書において、「ゲル」とは、コロイド溶液(ゾル)において、高分子物質またはコロイド粒子がその相互作用により全体として網目構造をつくり、溶媒あるいは分散媒である液相を多量に含んだまま流動性を失った状態のことをいう。本明細書において、「ゲル化」とは、溶液を「ゲル」の状態に変化させることをいう。
本明細書において、「カプセル」とは、その中に細胞または細胞様構造物を保持することが可能な形状のものを指す。本明細書において、「ゲルカプセル」とは、その中に細胞または細胞様構造物を保持することが可能なゲル状の微粒子状構造体を指す。
本明細書において、「遺伝子分析」とは生体サンプル中の核酸(DNA、RNA等)の状態を調べることをいう。1つの実施形態では、遺伝子分析は、核酸増幅反応を利用するものを挙げることができる。これらを含め、遺伝子分析の例としては、配列決定、遺伝子型判定・多型分析(SNP分析、コピー数多型、制限酵素断片長多型、リピート数多型)、発現解析、蛍光消光プローブ(Quenching Probe:Q−Probe)、SYBR green法、融解曲線分析、リアルタイムPCR、定量RT−PCR、デジタルPCRなどを挙げることができる。
本明細書において「単一生物単位レベル」とは、1つの単一生物単位に含まれる遺伝情報またはその他の生体分子の情報に対して、他の単一生物単位に含まれる遺伝情報またはその他の生体分子の情報と区別し得る状態で処理を行うことをいう。
本明細書において、「シングルセルレベル」とは、1つの細胞または細胞様構造物に含まれる遺伝情報またはその他の生体分子の情報に対して、他の細胞または細胞様構造物に含まれる遺伝情報またはその他の生体分子の情報と区別した状態で処理を行うことをいう。例えば、「単一生物単位レベル」または「シングルセルレベル」でのポリヌクレオチドを増幅する場合、それぞれある単一生物単位、またはある細胞もしくは細胞様構造物中のポリヌクレオチドと、他の単一生物単位、または他の細胞もしくは細胞様構造物中のポリヌクレオチドが区別可能な状態でそれぞれの増幅が行われる。
本明細書において、「単一生物単位解析」とは、1つの単一生物単位(例えば、細胞または細胞様構造物)に含まれる遺伝情報またはその他の生体分子の情報を、他の単一生物単位(例えば、細胞または細胞様構造物)に含まれる遺伝情報またはその他の生体分子の情報と区別した状態で解析することを指す。
本明細書において、「シングルセル解析」とは、1つの細胞または細胞様構造物に含まれる遺伝情報またはその他の生体分子の情報を、他の細胞または細胞様構造物に含まれる遺伝情報またはその他の生体分子の情報と区別した状態で解析することを指す。
本明細書において、「遺伝情報」とは、1つの細胞または細胞様構造物に含まれる遺伝子その他情報をコードする核酸の情報を指し、特定の遺伝子配列の有無、特定の遺伝子の収量または全核酸収量を含む。
本明細書において、「生体分子の情報」とは、1つの細胞または細胞様構造物に含まれる生体分子(核酸の他、核酸以外には、タンパク質、糖、脂質なども含まれる。)またはその類似体の情報を指し、特定の生体分子の構造または配列の有無、構造または配列の同一性、特定の生体分子の収量および全生体分子の収量を含む。
本明細書において、「核酸情報」とは、1つの細胞または細胞様構造物に含まれる核酸の情報を指し、特定の遺伝子配列の有無、特定の遺伝子の収量または全核酸収量を含む。
本明細書において、「同一性」とは、2つの生体分子間の構造または配列の類似性を指す。対象が配列の場合、同一性は、比較のためにアライメントしうる各配列中の位置を比較することによって決定することもできる。
(好ましい実施形態)
以下に好ましい実施形態の説明を記載するが、この実施形態は本発明の例示であり、本発明の範囲はそのような好ましい実施形態に限定されないことが理解されるべきである。当業者はまた、以下のような好ましい実施例を参考にして、本発明の範囲内にある改変、変更などを容易に行うことができることが理解されるべきである。これらの実施形態について、当業者は適宜、任意の実施形態を組み合わせ得る。
(配列情報処理)
1つの局面において、本発明は、 単一(single)生物単位(例えば、細胞または細胞構造物)の配列情報を処理する方法を提供する。この方法は:(A)複数の単一生物単位の配列情報(例えば、ゲノム、トランスクリプトーム、プロテオーム、または同等の遺伝子等の集合)の部分配列情報について、生物系統同定用配列(例えば、16S rDNAまたはマーカー遺伝子)に基づいて、同一系統ごとにクラスター化するステップと、(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップとを含む。この局面の模式図は、図1に例示されている。ドラフトゲノムと本発明の単位生物単位ゲノムとの対応は図2に例示されている。
ステップ(B)は、任意工程であり、データベースを利用してもよく、しなくてもよい。このように、クラスター化の手法は、データベースを利用する方法と(図3)、データベースを利用しない方法(図4)がある。データベースを利用する場合は、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する。データベースを利用しない場合は、新たにクラスターを生成する。
分類後のデータベースから、生物系統同定用配列(マーカー)を新たに特定することも可能である。その局面では、本発明は、単一(single)生物単位(例えば、細胞)の配列情報を処理する方法を提供し、該方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップとを含む方法。この場合において、生物系統同定用配列は、いわゆるバイオマーカーとして使用することができる。この局面の模式図は、図5に例示されている。この局面では、登録されているドラフトゲノムに対するタンパク質ファミリーを抽出し、ドラフトゲノムとタンパク質ファミリーの対応行列を作成する。対応するタンパク質ファミリーが1であるシングルコピー遺伝子の割合を計算する。その中でドラフトゲノム全体に存在するようないタンパク質ファミリーをマーカー遺伝子として採用することができる。本発明は、単一(single)生物単位の配列情報を処理する方法であって、該方法は:A)データベースから、ドラフト内で重複のない遺伝子(シングルコピー遺伝子)候補を抽出するステップと、B)前記遺伝子ごとに対応しているドラフトの個数(または割合)を計算するステップと、C)前記対応ドラフトの個数(または割合)の多い順にソートし、所定値以上の遺伝子(または上位から任意数の遺伝子)をマーカー遺伝子候補として選択するステップとを含む方法を提供する。
1つの局面では、本発明は、単一生物単位の配列情報を処理する方法であって、該方法は:(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けするステップと、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(この長さは、一部であってもよく、全長であり得る。)のドラフトを構築するステップと、(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて選択するステップとを含む。(E’)を繰り返すことが好ましい。SAGの数を変更しながらドラフト作成を繰り返すことが好ましいからである。この局面の模式図は、図7に示されている。
1つの好ましい実施形態では、本発明の単一生物単位の配列情報を処理する方法は、(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、(G’)必要に応じて(G)を繰り返して、好ましくは該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、ステップ(D)、(E)および(E’)を繰り返すステップとを含む。より低い基準の判断基準として、例えば、より緩いパラメータを使用することができる。この局面の模式図は、図8に示されている。
1つの局面において、部分配列情報はSAGである。特定の局面において、本発明は、SAGが「同一」のクラスター(例えば、系統、種)であると判断した直後の段階に関する局面でのクラスターの精緻化をする方法を提供する。この局面において、本発明は、単一生物単位の配列情報を処理する方法であって、該方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップとを含む。
ここで、上記評価は、抽出された部分配列情報(例えば、SAGs)をマーカー遺伝子で総当たり評価することができ、例えば各SAG間の距離により評価することができる。
好ましい実施形態では、本発明において実施される再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる。
本発明はまた、部分配列情報(例えば、SAGs)の数を増加させてもドラフトのクオリティが向上しなくなった後の段階の局面における処理も提供する。この局面において、本発明は、単一生物単位の配列情報を処理する方法であって、該方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けするステップと、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(一部であり得、全長であり得る。)のドラフトを構築するステップと、(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて評価し、(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない(すなわち、一定の範囲に留まる場合)場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップとを含む。
本発明において、これらの方法の各ステップは、適宜組み合わせられることが理解される。
(プログラムおよび記録媒体)
1つの局面において、本発明は、 単一(single)生物単位(例えば、細胞または細胞構造物)の配列情報を処理する方法をコンピュータに実装することを指示するコンピュータプログラムおよびこのプログラムを格納する記録媒体(例えば、CD−R、フラッシュメモリ、ハードディスク、伝送媒体、クラウドなど)を提供する。このプログラムが実装するこの方法は:(A)複数の単一生物単位の配列情報(例えば、ゲノム、トランスクリプトーム、プロテオーム、または同等の遺伝子等の集合)の部分配列情報について、生物系統同定用配列(例えば、16S rDNAまたはマーカー遺伝子)に基づいて、同一系統ごとにクラスター化するステップと、(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップとを含む。この局面の模式図は、図1に例示されている。ドラフトゲノムと本発明の単位生物単位ゲノムとの対応は図2に例示されている。
ステップ(B)は、任意工程であり、データベースを利用してもよく、しなくてもよい。このように、クラスター化の手法は、データベースを利用する方法と(図3)、データベースを利用しない方法(図4)がある。データベースを利用する場合は、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する。データベースを利用しない場合は、新たにクラスターを生成する。
分類後のデータベースから、生物系統同定用配列(マーカー)を新たに特定することも可能である。その局面では、本発明は、単一(single)生物単位(例えば、細胞)の配列情報を処理する方法をコンピュータに実装することを指示するコンピュータプログラムおよびこのプログラムを格納する記録媒体(例えば、CD−R、フラッシュメモリ、ハードディスク、伝送媒体、クラウドなど)を提供する。このプログラムが実装するこの方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップとを含む方法。この場合において、生物系統同定用配列は、いわゆるバイオマーカーとして使用することができる。この局面の模式図は、図5に例示されている。この局面では、登録されているドラフトゲノムに対するタンパク質ファミリーを抽出し、ドラフトゲノムとタンパク質ファミリーの対応行列を作成する。対応するタンパク質ファミリーが1であるシングルコピー遺伝子の割合を計算する。その中でドラフトゲノム全体に存在するようないタンパク質ファミリーをマーカー遺伝子として採用することができる。本発明は、単一(single)生物単位の配列情報を処理する方法をコンピュータに実装することを指示するプログラムまたはプログラムを格納する記録媒体であって、該方法は:A)データベースから、ドラフト内で重複のない遺伝子(シングルコピー遺伝子)候補を抽出するステップと、B)前記遺伝子ごとに対応しているドラフトの個数(または割合)を計算するステップと、C)前記対応ドラフトの個数(または割合)の多い順にソートし、所定値以上の遺伝子(または上位から任意数の遺伝子)をマーカー遺伝子候補として選択するステップとを含むプログラムまたは記録媒体を提供する。
1つの局面では、本発明は、単一生物単位の配列情報を処理する方法をコンピュータに実装することを指示するコンピュータプログラムおよびこのプログラムを格納する記録媒体(例えば、CD−R、フラッシュメモリ、ハードディスク、伝送媒体、クラウドなど)を提供する。このプログラムが実装するこの方法は:(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けするステップと、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(この長さは、一部であってもよく、全長であり得る。)のドラフトを構築するステップと、(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて選択するステップとを含む。(E’)を繰り返すことが好ましい。SAGの数を変更しながらドラフト作成を繰り返すことが好ましいからである。この局面の模式図は、図7に示されている。
1つの好ましい実施形態では、本発明のプログラムが実装する単一生物単位の配列情報を処理する方法は、(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、(G’)必要に応じて(G)を繰り返して、好ましくは該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、ステップ(D)、(E)および(E’)を繰り返すステップとを含む。より低い基準の判断基準として、例えば、より緩いパラメータを使用することができる。この局面の模式図は、図8に示されている。
別の局面において、本発明のプログラムは、SAGが「同一」のクラスター(例えば、系統、種)であると判断した直後の段階に関する局面でのクラスターの精緻化をする方法をコードする。この局面において、本発明は、単一生物単位の配列情報を処理する方法をコンピュータの実装することを指示するコンピュータプログラムおよびこのプログラムを格納する記録媒体(例えば、CD−R、フラッシュメモリ、ハードディスク、伝送媒体、クラウドなど)を提供する。このプログラムが実装するこの方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップとを含む。
ここで、上記評価は、抽出された部分配列情報(例えば、SAGs)をマーカー遺伝子で総当たり評価することができ、例えば各SAG間の距離により評価することができる。好ましい実施形態では、本発明において実施される再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる。
本発明のプログラムはまた、部分配列情報(例えば、SAGs)の数を増加させてもドラフトのクオリティが向上しなくなった後の段階の局面における処理も提供する。この局面において、本発明は、単一生物単位の配列情報を処理する方法をコンピュータに実装することを指示するコンピュータプログラムおよびこのプログラムを格納する記録媒体(例えば、CD−R、フラッシュメモリ、ハードディスク、伝送媒体、クラウドなど)を提供する。このプログラムが実装するこの方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けするステップと、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(一部であり得、全長であり得る。)のドラフトを構築するステップと、(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて評価し、(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない(すなわち、一定の範囲に留まる場合)場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップとを含む。
(システム)
1つの局面において、本発明は、単一(single)生物単位(例えば、細胞または細胞構造物)の配列情報を処理するシステムを提供する。このシステムは:(A)複数の単一生物単位の配列情報(例えば、ゲノム、トランスクリプトーム、プロテオーム、または同等の遺伝子等の集合)の部分配列情報について、生物系統同定用配列(例えば、16S rDNAまたはマーカー遺伝子)に基づいて、同一系統ごとにクラスター化するクラスタリング部と、(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する追加情報追加部(これは、クラスタリング部と同じであっても別々であってもよい)と、(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部とを含む。この局面の模式図は、図1に例示されている。ドラフトゲノムと本発明の単位生物単位ゲノムとの対応は図2に例示されている。
B)に該当する追加情報追加部は、任意であり、データベースを利用してもよく、しなくてもよい。
このように、クラスタリング部が実現するクラスター化の手法は、データベースを利用する方法と(図3)、データベースを利用しない方法(図4)がある。データベースを利用する場合は、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する。データベースを利用しない場合は、新たにクラスターを生成する。
本発明のシステムについては、分類後のデータベースから、生物系統同定用配列(マーカー)を新たに特定することも可能である。その局面では、本発明は、単一(single)生物単位(例えば、細胞)の配列情報を処理するシステムを提供する。このシステムは:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定する同定部(マーカー同定部ともいう)とを含む方法。この場合において、生物系統同定用配列は、いわゆるバイオマーカーとして使用することができる。この局面の模式図は、図5に例示されている。この局面では、登録されているドラフトゲノムに対するタンパク質ファミリーを抽出し、ドラフトゲノムとタンパク質ファミリーの対応行列を作成する。対応するタンパク質ファミリーが1であるシングルコピー遺伝子の割合を計算する。その中でドラフトゲノム全体に存在するようないタンパク質ファミリーをマーカー遺伝子として採用することができる。本発明は、単一(single)生物単位の配列情報を処理するためのシステムであって、A)データベースから、ドラフト内で重複のない遺伝子を抽出する抽出部と、B)前記遺伝子ごとに対応しているドラフトの個数または割合を計算する計算部と、C)前記対応ドラフトの個数または割合が所定の値以上の遺伝子をマーカー遺伝子候補として選択する選択部とを含むシステムを提供する。
1つの局面では、本発明は、単一生物単位の配列情報を処理するシステムを提供する。このシステムは:(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けする順位付け部と、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(この長さは、一部であってもよく、全長であり得る。)のドラフトを構築し、該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて選択するドラフト構築部とを含む。ドラフト作製は複数回繰り返すことが好ましい。部分配列情報(例えば、SAGs)の数を変更しながらドラフト作成を繰り返すことが好ましいからである。この局面の模式図は、図7に示されている。
1つの好ましい実施形態では、本発明のシステムは、(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択する選択部(これは、ドラフト構築部の一部として構成されてもよい)と、((G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するドラフト改善部(これもまた、ドラフト構築部として構成されてもよい。)と、(G’)必要に応じて(G)を繰り返して、好ましくは該より長いドラフトが配列情報の完全長に達するまで繰り返させるドラフト構築部と、(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、(D)、(E)および(E’)に順位付け、ドラフト構築および選択を繰り返させる手段とを含む。この繰り返しはドラフト構築部などにおいて実現されることができる。より低い基準の判断基準として、例えば、より緩いパラメータを使用することができる。この局面の模式図は、図8に示されている。
別の局面において、本発明のシステムは、SAGが「同一」のクラスター(例えば、系統、種)であると判断した直後の段階に関する局面でのクラスターの精緻化をする方法をコードする。この局面において、本発明は、単一生物単位の配列情報を処理するシステムを提供する。このシステムは:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部(これは、クラスタリング部で実現されてもよい。)と(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部(こもまた、クラスタリング部で実現されてもよい。)と、(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録する登録部とを含む。
ここで、上記評価は、抽出された部分配列情報(例えば、SAGs)をマーカー遺伝子で総当たり評価することができ、例えば各SAG間の距離により評価することができる。
好ましい実施形態では、本発明において実施される再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる。
本発明のシステムはまた、部分配列情報(例えば、SAGs)の数を増加させてもドラフトのクオリティが向上しなくなった後の段階の局面における処理も提供する。この局面において、本発明は、単一生物単位の配列情報を処理するシステムを提供する。このシステムは:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けする順位付け部と、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(一部であり得、全長であり得る。)のドラフトを構築するステップと、該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて評価するステップとを行うドラフト構築部と、(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない(すなわち、一定の範囲に留まる場合)場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部(これはクラスタリング部で実現されてもよい。)と(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部(これもまた、クラスタリング部で達成されてもよい。)とを含み、(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断する判断部を含み、判断部では、その判断が妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)で実現されるステップが繰り返される。
以上、本発明の1つまたは複数の態様に係るシステム、プログラム、記録媒体、方法について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の1つまたは複数の態様の範囲内に含まれてもよい。
また、上記各実施の形態における快不快判定装置が備える構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。例えば、本発明の配列情報を処理するシステムは、必要に応じてデータベースと組みわせられてもよいし、バイオマーカー等の機能を有する配列を特定するシステムを内包または組み合わされてもよい(図10)。
システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)などを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、あるいはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
また、本発明の一局面は、このような配列情報処理装置やシステムだけではなく、機能特化したシステム(例えば、バイオマーカースクリーニング装置、薬効判定装置、診断装置など)であってもよい。また、本発明の実施形態は、配列情報処理に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本発明の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。
なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の痛み推定装置などを実現するソフトウェアは、本明細書において上述したプログラムであり得る。
(クラウド、IoTおよびAIを用いた実施形態)
本発明の配列情報処理技術は、1つのシステムまたは装置として、すべてを含む形で提供され得る。あるいは、配列情報処理装置として分析および結果の表示を主に行い、計算や判別モデルの計算は、サーバやクラウドで行う形態も想定され得る。これらの一部または全部は、IoT(Internet of Things)および/または人工知能(AI)を用いて実施され得る(図11)。
あるいは、配列情報処理装置が種々の計算に必要な手段も格納し、その場で分析を行うが、分析に必要な計算は、サーバやクラウドで行う形態である半スタンドアローン型の形態も想定され得る。病院等の一部の実施場所では、送受信が常にできると限らないことから、遮蔽した場合でも使えるモデルを想定したものである。
保存部は、例えば、CD−R、DVD、Blueray、USB、SSD、ハードディスクなどの記録媒体であってもよく、サーバに格納されてもよく、クラウド上に適宜記録される形式でもよい。
このようなクラウドサービスとしては、おおむね、「Software as service (SaaS)」が該当する。配列情報処理装置は、実験室環境でのデータから作られた判別アルゴリズムを搭載していると考えられることから、これらの実施形態の2つまたは3つの特徴を備えるシステムとして提供されてもよい。
データ保存も必要に応じてなされ得る。データ保存は通常サーバ側に備えられるが、全装備型の場合はもとより、クラウド型の場合でも端末側にあってもよい(任意である)。クラウドでサービスを提供する場合、データ保存は、標準(例えば、クラウドに10Gバイトまで)、オプション1(例えば、クラウドに10Tバイト増量)、オプション2(クラウドにパラメータ設定して分割保存)、オプション3(クラウドに分析オプション保存)のオプションを提供し得る。データを保存して、販売されたすべての装置からデータを吸い上げてビッグデータ(例えば、配列データベース)を作り、分析モデルを継時的に更新したり、新たなモデルを構築して、例えば、「疾患判定モデル」とかのように新たな判別モデルソフトウェアを提供することができる。
また、データ解析オプションを有していてもよい。ここでは、サービス提供受領者の要求などを提供することができる。すなわち、計算方法のオプションとして想定され得る。
本明細書において「または」は、文章中に列挙されている事項の「少なくとも1つ以上」を採用できるときに使用される。「もしくは」も同様である。本明細書において「2つの値の範囲内」と明記した場合、その範囲には2つの値自体も含む。
本明細書において引用された、科学文献、特許、特許出願などの参考文献は、その全体が、各々具体的に記載されたのと同じ程度に本明細書において参考として援用される。
以上、本発明を、理解の容易のために好ましい実施形態を示して説明してきた。以下に、実施例に基づいて本発明を説明するが、上述の説明および以下の実施例は、例示の目的のみに提供され、本発明を限定する目的で提供したのではない。従って、本発明の範囲は、本明細書に具体的に記載された実施形態にも実施例にも限定されず、特許請求の範囲によってのみ限定される。
以下に実施例を記載する。
試薬類は具体的には実施例中に記載した製品を使用したが、他メーカーの同等品でも代用可能である。
(実施例1)
(ドラフトゲノム作成法)
(方法)
(細胞株サンプル調製)
Hosokawaらから、E. coli K12(ATCC 10798)およびB. subtilis(ATCC 6633)のそれぞれについてそれぞれ12個のSAGデータを得た。Hosokawaらの論文では、これらの細胞はATCCから入手した。E. coli K12をルリア−ベルターニ(LB)培地(1.0%バクトトリプトン、0.5%酵母エキス、1.0%NaCl、pH7.0)中で培養した。B. subtilisをブレインハートインフュージョンブロス(ATCC培地44、Thermo
Fisher Scientific, San Jose, CA, USA)中で培養した。回収した細胞をUV処理したリン酸緩衝生理食塩水(−)(PBS、Thermo Fisher Scientific)で3回洗浄し、単一液滴MDAおよびシーケンシングに供した。
(マウス腸内微生物叢の調製)
7週齢のオスのICRマウス(Tokyo Laboratory Animals Science Co., Ltd., Tokyo, Japan)から糞便を回収し、PBS中でホモジナイズした。上清を2000×gで2秒間の遠心分離によって回収し、15000×gで3分間遠心分離した。得られた細胞ペレットをPBSで2回洗浄し、最後にPBSに再懸濁した。
(単一液滴MDA)
マイクロ流体液滴発生器およびMDA反応装置を製造し、Hosokawaらの報告に従って単一小滴MDAに使用した。分析前に、細胞懸濁液を0.1細胞/液滴となる濃度に調整して、単一の液滴中に複数の細胞が封入されるのを防いだ。液滴発生器を使用して、単一の微生物細胞を溶解緩衝液D2(QIAGEN、Hilden、Germany)中に封入し、そして65℃で10分間溶解した。次に細胞溶解物を液滴融合装置に注入し、Tween−20およびEvaGreenを加えたMDA反応混合液(REPLI−g
Single Cell Kit、QIAGEN)の液滴と混合した。 PCRチューブに回収した後、液滴を30℃で2時間、65℃で3分間インキュベートした。シングルセルシーケンシングについて、蛍光標識された液滴を個々にピックし、オープンクリーンベンチ(KOACH 500−F、KOKEN LTD、東京、日本)の下でマイクロピペットによって新鮮なMDA反応混合物に移した。30℃で2時間のインキュベーション後、酵素を65℃で3分間失活させた。
(16S rDNA配列決定)
単一細胞からの増幅を確認するために、16S rRNA遺伝子フラグメントV3−V4を増幅し、単一液滴MDAによって得られたSAGからのサンガーシーケンシングによってシーケンシングした。系統学的分布を比較するために、腸内細菌叢のメタゲノムサンプルから16S rRNAフラグメント(V3−V4)を増幅し、MiSeq(Illumina、San Diego、CA、USA)によってシーケンシングした。ペアエンドリードを連結させ、トリミングし、そしてUPARSEにより97%の同一性で分類単位にクラスター化した。分類はRDP分類子で決定された。
(ライブラリー調製と全ゲノムシーケンシング)
Nextera XT DNAサンプル調製キット(Illumina)とNextera XT Index Kitを使用して、単一細胞シーケンシング用のIlluminaライブラリーを単一液滴MDAの生成物から調製した。次いで、ライブラリーを2×300のペアエンドリードでIllumina MiSeqシステム上でシーケンシングした。
(SAG読み取りの品質管理および相互参照コンティグの構築(ccSAGのステップ1))
SAGを、99%以上の16S rRNA類似性および95%以上のANIに基づいて最初に分類した。ヌクレオチド同一性を、全長の生SAGコンティグ間のペアワイズBLASTによって推定し、500bp以上にわたって計算した。次に、グループ化したSAGリードを、FASTXツールキット(http://hannonlab.cshl.edu/fastx _toolkit /)およびPRINSEQを使用して事前にフィルター処理し、低品質のリード(50%以上の塩基が品質スコア<25のもの)を取り除き、低品質(品質スコア<20のもの)のリードの3末端をトリミングし、短い読み取り(<20bp)および1%の塩基が識別されていないリードを取り除き、事前フィルター処理後にペアを形成していないリードを破棄した。その後、options-care
ful-disable−rr-scでSPAdes−3.9.0を使用して、生のSAGリードからコンティグを新たに個別にアセンブルした。最後に、相互参照マッピングのために500 bp以上の生SAGコンティグを収集した。
(相互参照マッピングによるキメラリードの除去(ccSAGの工程2))
1つのSAGからの品質管理されたリードを、同じグループ内の他のSAGから構築された複数の生コンティグにBWAによってマッピングした。参照コンティグに対する完全アラインメントが部分アラインメント(ソフトクリッピング)と同等またはそれ以上の頻度である場合、リードはクリーンであると見なしたが、部分アラインメントが完全アラインメントより頻繁である場合は潜在的にキメラであると見なした。次いで、潜在的なキメラをアラインメントするフラグメントおよびアラインメントしないフラグメントに分割し、次いでそれらを複数の生のコンティグに再マッピングし、そして記載のように再分類した。最後に、完全にアラインメントしていないリードおよび20bpより短い断片化されたキメラを、マッピングされないものとして廃棄した。相互参照マッピングおよびキメラ分割のサイクルを、部分的にアラインメントした、潜在的にキメラなリードが検出されなくなるまで繰り返した。
(クリーンなSAGとコンティグエクステンションの共組み立て(ccSAGのステップ3))
各SAGからのクリーンなリードを、SPAdeを使用してクリーンな複合SAGコンティグに新規にコアセンブリした。同様に、生のSAGリードを生の複合SAGコンティグに新規にコアセンブリした。クリーンな複合体コンティグ間のギャップを、生の複合体コンティグに対するBLASTマッピングによって埋めた。簡潔に言うと、複合体コンティグをクリーンにするために、潜在的に使用可能な生の複合体コンティグとして、99%以上の同一性のものを識別した。このような生の複合体コンティグを次いで、データベースに回収し、BLASTによりクリーンな複合体コンティグをマッピングし、得られたアラインメントに基づいてギャップを埋めることにより、複合体の単一細胞ゲノムを本質的に含む、ギャップを埋められた複合体SAGコンティグを生成した。
SAGアセンブリの分析:アセンブリ品質をQUASTで評価した(Gurevich
A et al., Bioinformatics. 2013 Apr 15;29(8):1072−5.)。細胞株の分析について、fプラスミドおよびλファージ配列を伴うNC_00913 (E. coli substrain MG1655)のゲノム、または、NC_014479 (Bacillus subtilis subsp. spizizenii str. W23)ののゲノムのすべての配列データをNCBI参照ゲノムにマッピングした。この実施例によって得られた培養していない細胞ゲノムの分析のために、架橋した複合SAGコンティグを参照として用いて、潜在的なミスアセンブリを同定し、各々のSAGのゲノム部分を決定した。完全性(コンプリート)と汚染(コンタミ)をCheckMで評価した(Parks DH et al., Genome Res. 2015 Jul;25(7):1043−55.)。分類は、AMPHORA2またはRNAmmerにおける16S rDNA配列のBLAST検索によって行った(Lagesen K et al., Nucleic Acids Res. 2007;35(9):3100−8.)。遺伝子経路分析を、KAAS(Moriya Y et al., Nucleic Acids Res. 2007 Jul;35(Web Server issue):W182−5.)およびMAPLE(Takami H et al., DNA Res. 2016 Jul 3. pii: dsw030.)で行った。他方、アセンブリグラフは、Bandage(Wick RR et al., Bioinformatics. 2015 Oct 15;31(20):3350−2.)で生成した。SNPの分析について、各々のシングルセル増幅したゲノムを架橋複合SAGコンティグのコード配列に対してマッピングした。次いで、ヌクレオチドを少なくとも5つのリードのカバレッジ深さについてスクリーニングした。ここで、99.9%のリードは、参照とマッチせず、均質な塩基(核酸配列)を示した。その後、同じ系統において複数のマッチングしたSAGsおよびマッチングしないSAGsの両方を含んだヌクレオチド部位は、SNPsとして同定した。
(実施例2)微生物ゲノムデータベース構築
図2は本発明で使用するための微生物ゲノムデータベース構成である。ここでは、微生物ゲノムデータベースをリレーショナルデータベースシステムにて構築する場合の実施例を示す。主に、中央処理装置(CPU)、主記憶装置、補助記憶装置、入出力装置、その他周辺機器からなるコンピュータシステム上にオペレーティングシステムおよびリレーショナルデータベース管理システムをインストールする。図2に示すように、リレーショナルデータベース上に、ドラフトゲノム情報、それに対応するアセンブル塩基配列、遺伝子情報、遺伝子塩基配列、単一生物単位ゲノム情報、それに対応するアセンブル塩基配列、遺伝子情報、遺伝子塩基配列、および部分塩基配列情報を保存するためのテーブルを作成する。アセンブル塩基配列、遺伝子塩基配列、部分塩基配列に関しては、実データはリレーショナルデータベース外に保存し、実データへの参照をテーブルに保存する形態を取ることも可能である。ドラフトゲノム情報テーブルには、ドラフトゲノムに付随する情報を保存するための列を作成する。例えば、暫定系統分類、コンプリート率、コンタミ率、品質カテゴリー、ゲノムサイズ、コンティグ数、N50値、GC含量などが挙げられる。暫定系統分類は、アセンブル塩基配列を専用解析ツール(例えばcheckmなど)で解析して得られる生物系統分類の情報である。これによりドラフトゲノムの大まかな系統を同定することができる。品質カテゴリーはドラフトゲノムの状態を示すためのものである。これは国際規格などに準じたカテゴリーにするのが望ましい。ドラフトゲノムの遺伝子情報テーブルには、ドラフトゲノムの遺伝子に付随する情報を保存するための列を作成する。例えば、遺伝子名、遺伝子長さ、タンパク質ファミリー、GC含量、マーカータイプ、シングルコピーなどが挙げられる。タンパク質ファミリーは、タンパク質データベースとの相同性解析などにより得られる情報である。マーカータイプは、系統分類などで使用するためのマーカーかどうかを記すためのものである。シングルコピーは遺伝子がシングルコピー遺伝子であるかどうかを表すものである。図5の手法でシングルコピー遺伝子は同定できる。単一生物単位ゲノム情報テーブルには、単一生物単位ゲノムに付随する情報を保存するための列を作成する。例えば、暫定系統分類、コンプリート率、コンタミ率、ゲノムサイズ、コンティグ数、N50値、GC含量などが挙げられる。単一生物単位ゲノムの遺伝子情報テーブルには、単一生物単位ゲノムの遺伝子に付随する情報を保存するための列を作成する。例えば、遺伝子名、遺伝子長さ、タンパク質ファミリー、GC含量、シングルコピーなどが挙げられる。それ以外の各塩基配列テーブルは、塩基配列(外部ファイルとする場合はその参照)を保存するための列を作成する。それぞれのテーブルには、データを唯一に識別するためのID列を用意しておくことが好ましい。ドラフトゲノム情報と単一生物単位ゲノム情報は1対多の関係をもつ。ゲノム情報とアセンブル塩基配列は1対多の対応をもつ。ゲノム情報と遺伝子情報は1対多の関係をもつ。遺伝子情報と遺伝子塩基配列は1対1の対応をもつ。単一生物単位ゲノム情報と部分塩基配列は1対多の対応をもつ。
(実施例3)微生物ゲノムデータベースによる単一生物単位ゲノムのクラスター化
図3は複数の単一生物単位の部分塩基配列が得られたときに、それらを同一系統のクラスターとしてまとめる方法を示したものである。例えば、単一生物単位のゲノムDNAをIlluminaなどのDNAシーケンサーで解析し、fastqなどの塩基配列ファイルを取得できたとする。Fastqファイルには部分塩基配列が記述されている。取得したfastqファイルを解析用のコンピュータへ保存する。Fastqファイル内の部分塩基配列には、アダプター配列が混在したものや品質の低い部分塩基配列が存在する。これら低品質の部分塩基配列は、fastqcなどの品質管理ツールを用いて削除しておく。このfastqファイルをSpadesなどのアセンブルツールでアセンブルしアセンブル塩基配列を取得する。アセンブル塩基配列は、quastやcheckmなどの評価ツールを用いてコンティグ数やゲノムサイズ、コンプリート率、コンタミ率などの評価値を計算しておく。次にアセンブル塩基配列から遺伝子を同定する。遺伝子の同定にはProkkaやDFASTなどの遺伝子アノテーションツールを用いる。同定された遺伝子塩基配列は、Pfamなどのタンパク質データベースを検索することで、タンパク質ファミリーなどの機能情報を取得することができる。最後にcheckmなどの系統分類が可能なツールを使い、暫定的な系統分類情報を計算しておく。ここまでが単一生物単位の部分塩基配列に関して行う前処理となる。
単一生物単位ゲノム解析が完了したら、微生物ゲノムデータベースのドラフトゲノム情報テーブルの暫定系統分類を参照し、対応するドラフトゲノム情報と遺伝子情報を抽出する。遺伝子情報のマーカータイプを参照し、生物系統同定用配列を取得する。生物系統同定用配列のタンパク質ファミリーと同じタンパク質ファミリーをもつ遺伝子を単一生物単位ゲノムデータの遺伝子情報から抽出する。もし対応する遺伝子情報がなければこの処理は終了し次の処理へ移行する。対応する遺伝子情報があれば、単位ゲノムデータの遺伝子塩基配列と生物系統同定用配列を総当たりでBLASTなどの相同性解析ツールにより相同性検索を行う。ある一定の閾値以上の相同性をもつペアだけを対象とするため、一定の閾値以下(例えば相同性70%以下)のペアは除外する。各生物系統同定用配列において最も相同性の高い単位ゲノムデータの遺伝子塩基配列を検出し、マッチした塩基配列長と相同性の加重平均を求め2つのゲノム間の類似度(距離)とする。万が一、複数の同一類似度をもつドラフトゲノムが検出された場合、生物系統同定用配列ではなく、アセンブル塩基配列同士を総当たりで相同性検索し、生物系統同定用配列と同様の処理を行い、類似度を計算する。最も類似度の高いドラフトゲノムをクラスター化の基準とする。
(実施例4)単一生物単位ゲノムのクラスター化
図4は新規で測定した単一生物単位ゲノムデータにおいて、微生物ゲノムデータベースに対応するドラフトゲノムがなかった時に同一系統のクラスターを作成するための方法を示したものである。ここでは、実施例2で示した前処理により各単一生物単位ゲノムデータ(部分塩基配列、ゲノム情報、アセンブル塩基配列、暫定系統分類、遺伝子情報、遺伝子塩基破裂)がすでに得られているものとして実施例を進める。暫定系統分類により、同一系統の単一生物単位ゲノムデータをクラスター化する。暫定系統分類はcheckmなどのツールを使用してアセンブル塩基配列を処理することで決定されるが、単一生物単位のアセンブル塩基配列はゲノム全体をカバーしていないことも多いため、系統分類が大雑把であることも多く、いろいろな系統の生物が混在したクラスターを作り上げている可能性が高い。そこで、微生物ゲノムデータベースに登録されている生物系統同定用配列を用いてクラスター内の単一生物単位ゲノムデータが細分できないかどうかを評価する。図6は、同一系統のクラスターとされた単一生物単位ゲノムデータを細分化する方法を示したものである。微生物ゲノムデータベースに登録されている遺伝子情報テーブルのマーカータイプを参照し、生物系統同定用配列とそれに対応するタンパク質ファミリーを取得する。実施例2で示したゲノム間の類似度を求める方法と同様の方法で、生物系統同定用配列を使用してクラスター内の単一生物単位ゲノムデータに対し総当たりで類似度を計算する。ここで求められた類似度行列を統計処理ソフトウェアであるRなどにより読み込みネットワーク解析を行う。Rの場合はigraph関数がネットワーク解析関数として利用できる。次にネットワーク解析の出力からコミュニティを検出する。Rにおいてコミュニティ検出は、エッジ媒介中心性に基づく方法、ランダムウォークに基づく方法、貪欲アルゴリズムに基づく方法、固有ベクトルに基づく方法、多段階最適化に基づく方法、スピングラス法に基づく方法、ラベル伝搬法に基づく方法、Infomap法に基づく方法などが実装されている。検出されたコミュニティに基づき、単一生物単位ゲノムデータを細分化する。ここでは細分化にネットワーク解析とコミュニティ検出を用いた例を示したが、階層(非階層)クラスタリングを用いて細分化を行う方法も考えられる。ただしこの場合、類似度を計算するための共通した生物系統同定用配列が2つの単一生物単位ゲノムデータ間になかった場合、類似度が欠損値となってしまいクラスタリング解析を行うことができなくなってしまう。そのためどちらかと言えば、欠損値があった場合でも対応できるネットワーク解析とコミュニティ検出を用いることが好ましいと考えられる。
(実施例5)新規生物系統同定用配列の同定
図5は微生物ゲノムデータベースに登録されているドラフトゲノムの遺伝子情報から、系統分類を行うための新規生物系統同定用配列を同定する方法を示している。微生物ゲノムデータベースに登録されているドラフトゲノム情報とドラフトゲノム遺伝子情報を用いて、図5に示すようなドラフトゲノムに対応する遺伝子ファミリーの頻度表を作成する。頻度表の1を示すセルは、そのドラフトゲノム内においてシングルコピー遺伝子であることを示している。生物系統同定用配列はシングルコピー遺伝子であるべきなので、シングルコピー遺伝子以外のセルは無視する。各タンパク質ファミリーにおいて、ドラフトゲノム全体に存在するシングルコピー遺伝子の割合を計算する。シングルコピー遺伝子が多くのドラフトゲノムをカバーしているほど生物系統同定用配列として優秀であるため、タンパク質ファミリーをシングルコピー遺伝子の割合で降順ソートし、ある基準値以上(例えば90%以上のドラフトゲノムにシングルコピー遺伝子が存在する)を満たしたタンパク質ファミリーを生物系統同定用配列として再同定する。または、タンパク質ファミリーをシングルコピー遺伝子の割合で降順ソートし、上位から任意数のタンパク質ファミリーを生物系統同定用配列としてもよい。また、これまでの研究においてバクテリアなどで既知とされている生物系統同定用配列などは、上述で同定した生物系統同定用配列と併用してもよい。
また、上述とは別の生物系統同定用配列の作成方法として、D.H.Parks, et. al., 2015で提唱されている手法も適用することが可能と考えられる。これはドラフトゲノムの系統樹を作成し、各ノードに生物系統同定用配列を定義する手法で、checkmの入力データとして使用される。
(実施例6)最適ドラフトゲノム構築
図7は最適ドラフトゲノムを構築する方法を示したものである。実施例2および実施例3により、単一生物単位ゲノムデータは同一系統としてクラスター化されている。実施例2におけるクラスター化では、微生物ゲノムデータベースのドラフトゲノムに基づきクラスター化されているので、ドラフトゲノムに対応する単一生物単位ゲノムの部分塩基配列を微生物ゲノムデータベースから取得しクラスターに追加する。クラスター内の単一生物単位ゲノムデータはある基準値によりソートされる。ここではコンタミ率の低い順にソートしている。ただしある一定の水準に満たない単一生物単位ゲノムデータは除外している。ここでは、コンプリート率が10%に満たないような単一生物単位ゲノムデータを除外する。次にランクの高い方ら2つの単一生物単位ゲノムデータを抽出し、ドラフトゲノム構築用の暫定セットを作成する。次にランクの高い方ら3つの単一生物単位ゲノムデータを抽出し、同様にドラフトゲノム構築用の暫定セットを作成する。このようにしてランクの高い順に次々に単一生物単位ゲノムデータを追加していき、クラスター内の単一生物単位ゲノムデータ数より1少ない数だけ暫定ドラフトゲノム構築用セットを作成する。これらの暫定ドラフトゲノム構築用セットに対し、M. Kogawa, et. al.,
2018で提示されているCleaning and Co−assembly of
a Single−Cell Amplified Genome (ccSAG)法を適用し、暫定ドラフトゲノムを構築する。暫定ドラフトゲノムは構築するために用いた単一生物単位ゲノムデータ数を説明変数、コンプリート率やコンタミ率などのドラフトゲノム評価値を目的変数とした関数として表現できる。これにより、ドラフトゲノムが収束状態にありこれ以上単一生物単位ゲノムデータを追加しても品質の向上が見込めないかなどが判断できる。品質古城が見込めないドラフトゲノムは、最適ドラフトゲノムの構築を行わないなどすることにより、処理の高速化が期待できる。暫定ドラフトゲノムおよび既存ドラフトゲノムの中で最も高品質なものを選択し、それが既存ドラフトゲノムでない場合は微生物ゲノムデータベースのドラフトゲノムを更新する。クラスターとして新規に同定された単一生物単位ゲノムデータは、微生物ゲノムデータベースの単一生物単位ゲノムデータに登録する。
(実施例7)ドラフトゲノムのフィニッシング
図8は微生物ゲノムデータベースに登録されているドラフトゲノムのフィニッシング方法を示したものである。実施例5で作成したドラフトゲノムの収束状態を評価する関数により、微生物ゲノムデータベースから収束状態にあるドラフトゲノムを抽出することができる。この収束状態のドラフトゲノムをフィニッシング対象とする。フィニッシング方法は2とりのパターンがある。1つ目は、抽出されたドラフトゲノムに対応する単一生物単位ゲノムデータを用いる方法である。抽出された単一生物単位ゲノムデータをある基準値によりソートする。ここではコンタミ率の低い順にソートしている。ただしある一定の水準に満たない単一生物単位ゲノムデータは除外している。ここでは、コンプリート率が10%に満たないような単一生物単位ゲノムデータを除外する。基準を満たした全単一生物単位ゲノムデータを用いて、パラメータを変更したccSAGを実施する。パラメータは長めのアセンブル塩基配列が検出できるようなパラメータを設定する。ここで作成されたドラフトゲノムを1つ目のフィニッシングドラフトゲノムとする。2つ目は、基準を満たした全単一生物単位ゲノムデータのアセンブル塩基配列の中からドラフトゲノムのアセンブル塩基配列を結合するブリッジアセンブル塩基配列を検出することである。BLASTなどの相同性解析ツールにより、ドラフトゲノムのアセンブル塩基配列と基準を満たした全単一生物単位ゲノムデータのアセンブル塩基配列を総当たりで相同性解析する。ドラフトゲノムの2つのアセンブル塩基配列の片端と単一生物単位ゲノムデータの1つのアセンブル塩基配の両端がマッチするような結果が得られた場合、単一生物単位ゲノムデータのアセンブル塩基配列がドラフトゲノムアセンブル塩基配列を結合する役目を果たす。このようにブリッジとなるアセンブル塩基配列によってつながったドラフトゲノムを2つ目のフィニッシングドラフトゲノムとする。フィニッシングドラフトゲノム1つ目および2つ目と、登録済みのドラフトゲノムをある基準値によって比較し、最も品質の高いドラフトゲノムを選択する。選択されたドラフトゲノムが既存ドラフトゲノムでない場合は微生物ゲノムデータベースのドラフトゲノムを更新する。
(実施例8)ドラフトゲノムの細分化
図9は微生物ゲノムデータベースに登録されているドラフトゲノムを系統的に細分化する方法を示したものである。実施例5で作成したドラフトゲノムの収束状態を評価する関数により、微生物ゲノムデータベースから収束状態にあるドラフトゲノムを抽出することができる。この収束状態のドラフトゲノムを細分化対象とする。抽出されたドラフトゲノムに対応する単一生物単位ゲノムデータをある基準値によりソートする。ここではコンタミ率の低い順にソートしている。ただしある一定の水準に満たない単一生物単位ゲノムデータは除外している。ここでは、コンプリート率が10%に満たないような単一生物単位ゲノムデータを除外する。基準を満たした全単一生物単位ゲノムデータに対して、実施例3で行った図6の細分化を行う。細分化された各クラスターに対して図7の最適ドラフトゲノム構築を行い、各クラスターの最適ドラフトゲノムを取得する。この複数の最適ドラフトゲノムと登録済みのドラフトゲノムをある基準値によって比較し、両者のうちで品質の高い方のドラフトゲノムを選択する。選択されたドラフトゲノムが既存ドラフトゲノムでない場合は微生物ゲノムデータベースから既存ドラフトゲノムを削除し、細分化されたドラフトゲノムを新規に登録する。
(注記)
以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。本明細書において引用した特許、特許出願及び他の文献は、その内容自体が具体的に本明細書に記載されているのと同様にその内容が本明細書に対する参考として援用されるべきであることが理解される。
微生物等のシングルセルデータの処理の自動化が可能になった。

Claims (32)

  1. 単一(single)生物単位の配列情報を処理する方法であって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと
    (C)該単一生物単位の配列情報の部分配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
    を含む方法。
  2. 単一(single)生物単位の配列情報を処理する方法であって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (B)データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を該クラスターに追加するステップと、
    (C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
    を含む方法。
  3. 生物系統同定用配列候補をスクリーニングする方法であって、該方法は:
    A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
    B)該遺伝子ごとにシングルコピー遺伝子の個数または割合を計算するステップと、
    C)該シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
    を含む方法。
  4. 単一生物単位の配列情報を処理する方法であって、該方法は:
    (D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
    (E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
    (E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
    を含む方法。
  5. 請求項4に記載の単一生物単位の配列情報を処理する方法であって、該方法は、
    (F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
    (G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
    (G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
    (G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、請求項4に記載のステップを繰り返すステップと
    を含む、方法。
  6. 単一生物単位の配列情報を処理する方法であって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
    (H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
    (I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
    を含む、方法。
  7. 前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、請求項6に記載の方法。
  8. 単一生物単位の配列情報を処理する方法であって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
    (E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
    (E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、
    (H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
    (H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
    (J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップと
    を含む、方法。
  9. 単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと
    (C)該単一生物単位の配列情報の部分配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
    を含むプログラム。
  10. 単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (B)データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を該クラスターに追加するステップと、
    (C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
    を含むプログラム。
  11. 生物系統同定用配列候補をスクリーニングする方法をコンピュータに実装するプログラムであって、該方法は:
    A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
    B)該遺伝子ごとにシングルコピー遺伝子の個数または割合を計算するステップと、
    C)該シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
    を含むプログラム。
  12. 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
    (D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
    (E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
    (E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
    を含むプログラム。
  13. 請求項12に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は、
    (F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
    (G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
    (G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
    (G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、請求項12に記載のステップを繰り返すステップと
    を含む、プログラム。
  14. 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
    (H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
    (I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
    を含む、プログラム。
  15. 前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、請求項14に記載のプログラム。
  16. 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
    (E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
    (E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、、
    (H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
    (H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
    (J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップと
    を含む、プログラム。
  17. 単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと
    (C)該単一生物単位の配列情報の部分配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
    を含む記録媒体。
  18. 単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (B)データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を該クラスターに追加するステップと、
    (C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
    を含む記録媒体。
  19. 生物系統同定用配列候補をスクリーニングする方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
    A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
    B)該遺伝子ごとにシングルコピー遺伝子の個数または割合を計算するステップと、
    C)該シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
    を含む記録媒体。
  20. 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
    (D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
    (E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
    (E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
    を含む記録媒体。
  21. 請求項20に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は、
    (F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
    (G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
    (G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
    (G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、請求項20に記載のステップを繰り返すステップと
    を含む、記録媒体。
  22. 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
    (H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
    (I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
    を含む、記録媒体。
  23. 前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、請求項22に記載の記録媒体。
  24. 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
    (E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
    (E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、
    (H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
    (H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
    (J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップと
    を含む、記録媒体。
  25. 単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と
    (C)該単一生物単位の配列情報の部分配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部と
    を含むシステム。
  26. 単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
    (B)前記データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を該クラスターに追加する追加情報追加部と、
    (C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部とを含むシステム。
  27. 生物系統同定用配列候補をスクリーニングするためのシステムであって、該システムは:
    A)データベースから、ドラフト内で重複のない遺伝子を抽出する抽出部と、
    B)前記遺伝子ごとにシングルコピー遺伝子の個数または割合を計算する計算部と、
    C)前記シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択する選択部と
    を含むシステム。
  28. 単一生物単位の配列情報を処理するためのシステムであって、該システムは:
    (D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
    (E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するドラフト構築部と、
    (E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択する選択部と
    を含むシステム。
  29. 請求項28に記載の単一生物単位の配列情報を処理するためのシステムであって、該システムは、
    (F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択する選択部と、
    (G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するドラフト改善部と、
    (G’)必要に応じて(G)に、該より長いドラフトが配列情報の完全長に達するまでドラフト生成を繰り返させるドラフト構築部と、
    (G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、請求項28に記載の(D)、(E)および(E’)に順位付け、ドラフト構築および選択を繰り返させる手段と
    を含む、システム。
  30. 単一生物単位の配列情報を処理するためのシステムであって、該システムは:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
    (H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
    (H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
    (I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録する登録部と
    を含む、システム。
  31. 前記再クラスタリング部が、ネットワーク解析とコミュニティ検出によって再クラスター化を行う、請求項30に記載のシステム。
  32. 単一生物単位の配列情報を処理するためのシステムであって、該システムは:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
    (D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
    (E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、
    (E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するドラフト構築部、
    (H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
    (H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
    (J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すための手段と
    を含む、システム。

JP2019167532A 2019-09-13 2019-09-13 単一生物単位の配列情報の新規処理法 Active JP6744642B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019167532A JP6744642B1 (ja) 2019-09-13 2019-09-13 単一生物単位の配列情報の新規処理法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019167532A JP6744642B1 (ja) 2019-09-13 2019-09-13 単一生物単位の配列情報の新規処理法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019085839 Division 2019-04-26 2019-04-26

Publications (2)

Publication Number Publication Date
JP6744642B1 JP6744642B1 (ja) 2020-08-19
JP2020182445A true JP2020182445A (ja) 2020-11-12

Family

ID=72047882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019167532A Active JP6744642B1 (ja) 2019-09-13 2019-09-13 単一生物単位の配列情報の新規処理法

Country Status (1)

Country Link
JP (1) JP6744642B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023204008A1 (ja) * 2022-04-21 2023-10-26 株式会社島津製作所 微生物判別用のデータベースを構築する方法および装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023204008A1 (ja) * 2022-04-21 2023-10-26 株式会社島津製作所 微生物判別用のデータベースを構築する方法および装置

Also Published As

Publication number Publication date
JP6744642B1 (ja) 2020-08-19

Similar Documents

Publication Publication Date Title
CN114067911B (zh) 获取微生物物种及相关信息的方法和装置
KR20200027900A (ko) 시료 미생물의 동정 및 분류 방법
US20180137243A1 (en) Therapeutic Methods Using Metagenomic Data From Microbial Communities
Chang et al. Genome-scale phylogenetic analyses confirm Olpidium as the closest living zoosporic fungus to the non-flagellated, terrestrial fungi
WO2020218555A1 (ja) 単一生物単位の配列情報の新規処理法
Kim et al. Unraveling metagenomics through long-read sequencing: A comprehensive review
Suetsugu et al. Mycorrhizal communities of two closely related species, Pyrola subaphylla and P. japonica, with contrasting degrees of mycoheterotrophy in a sympatric habitat
Prudnikow et al. A primer on pollen assignment by nanopore-based DNA sequencing
JP6744642B1 (ja) 単一生物単位の配列情報の新規処理法
Carrieri et al. A fast machine learning workflow for rapid phenotype prediction from whole shotgun metagenomes
JP5825790B2 (ja) 核酸情報処理装置およびその処理方法
Mangericao et al. Computational prediction of CRISPR cassettes in gut metagenome samples from Chinese type-2 diabetic patients and healthy controls
JP6744648B1 (ja) 単一生物単位の配列情報の新規処理法
TWI582631B (zh) 用以分析細菌菌種之定序資料的系統及其方法
WO2012096016A1 (ja) 核酸情報処理装置およびその処理方法
Gupta et al. Collection of Mitochondrial tRNA Sequences and Anticodon Identification for Acheta domesticus
JP2022021661A (ja) シングルセルゲノム配列とメタゲノム配列を統合する新規処理法
Pandey et al. CANGS DB: a stand-alone web-based database tool for processing, managing and analyzing 454 data in biodiversity studies
Marić et al. Approaches to metagenomic classification and assembly
Zhao et al. Eukfinder: a pipeline to retrieve microbial eukaryote genomes from metagenomic sequencing data
Cabezas Rodriguez et al. MIMt: A curated 16S rRNA reference database with less redundancy and higher accuracy at species-level identification
Stukenbrock et al. Comparing fungal genomes: Insight into functional and evolutionary processes
JP7129015B2 (ja) 情報処理システム、変異検出システム、記憶媒体および情報処理方法
Sánchez-Reyes et al. Metagenomics-Based Phylogeny and Phylogenomic
Wang Introduction to Computational Metagenomics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190913

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190913

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200527

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200727

R150 Certificate of patent or registration of utility model

Ref document number: 6744642

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250