JP2020182445A - 単一生物単位の配列情報の新規処理法 - Google Patents
単一生物単位の配列情報の新規処理法 Download PDFInfo
- Publication number
- JP2020182445A JP2020182445A JP2019167532A JP2019167532A JP2020182445A JP 2020182445 A JP2020182445 A JP 2020182445A JP 2019167532 A JP2019167532 A JP 2019167532A JP 2019167532 A JP2019167532 A JP 2019167532A JP 2020182445 A JP2020182445 A JP 2020182445A
- Authority
- JP
- Japan
- Prior art keywords
- sequence information
- draft
- single biological
- sequence
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 167
- 238000012545 processing Methods 0.000 title claims abstract description 94
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 176
- 238000010276 construction Methods 0.000 claims description 26
- 238000011156 evaluation Methods 0.000 claims description 21
- 238000003012 network analysis Methods 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000006872 improvement Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 230000000813 microbial effect Effects 0.000 abstract description 50
- 239000003550 marker Substances 0.000 abstract description 23
- 108020004465 16S ribosomal RNA Proteins 0.000 abstract description 7
- 210000004027 cell Anatomy 0.000 description 52
- 102000004169 proteins and genes Human genes 0.000 description 39
- 239000002609 medium Substances 0.000 description 35
- 238000011109 contamination Methods 0.000 description 31
- 238000004458 analytical method Methods 0.000 description 30
- 230000002068 genetic effect Effects 0.000 description 26
- 108020004707 nucleic acids Proteins 0.000 description 15
- 102000039446 nucleic acids Human genes 0.000 description 15
- 150000007523 nucleic acids Chemical class 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 241000608282 Sagiyama virus Species 0.000 description 12
- 108020004414 DNA Proteins 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000003860 storage Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 230000010365 information processing Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 239000000090 biomarker Substances 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 239000002953 phosphate buffered saline Substances 0.000 description 5
- 238000002360 preparation method Methods 0.000 description 5
- 239000000523 sample Substances 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 4
- 150000002632 lipids Chemical class 0.000 description 4
- 239000002245 particle Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 235000000346 sugar Nutrition 0.000 description 4
- 108010026552 Proteome Proteins 0.000 description 3
- 230000003321 amplification Effects 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 3
- 239000002775 capsule Substances 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000001727 in vivo Methods 0.000 description 3
- 244000005700 microbiome Species 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 239000012071 phase Substances 0.000 description 3
- 108091033319 polynucleotide Proteins 0.000 description 3
- 102000040430 polynucleotide Human genes 0.000 description 3
- 239000002157 polynucleotide Substances 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000007670 refining Methods 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 2
- 241000588724 Escherichia coli Species 0.000 description 2
- 241001646716 Escherichia coli K-12 Species 0.000 description 2
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 150000001413 amino acids Chemical class 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000001553 co-assembly Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 238000010791 quenching Methods 0.000 description 2
- 230000000171 quenching effect Effects 0.000 description 2
- 239000011541 reaction mixture Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 241000208140 Acer Species 0.000 description 1
- 239000000592 Artificial Cell Substances 0.000 description 1
- 235000007839 Bacillus subtilis subsp spizizenii str W23 Nutrition 0.000 description 1
- 241000224976 Bacillus subtilis subsp. spizizenii str. W23 Species 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 241000701959 Escherichia virus Lambda Species 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 108700005081 Overlapping Genes Proteins 0.000 description 1
- 244000273256 Phragmites communis Species 0.000 description 1
- 235000014676 Phragmites communis Nutrition 0.000 description 1
- 229920001213 Polysorbate 20 Polymers 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 229940041514 candida albicans extract Drugs 0.000 description 1
- 239000013592 cell lysate Substances 0.000 description 1
- 210000003855 cell nucleus Anatomy 0.000 description 1
- 239000006285 cell suspension Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 210000003763 chloroplast Anatomy 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007847 digital PCR Methods 0.000 description 1
- LOKCTEFSRHRXRJ-UHFFFAOYSA-I dipotassium trisodium dihydrogen phosphate hydrogen phosphate dichloride Chemical compound P(=O)(O)(O)[O-].[K+].P(=O)(O)([O-])[O-].[Na+].[Na+].[Cl-].[K+].[Cl-].[Na+] LOKCTEFSRHRXRJ-UHFFFAOYSA-I 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000002612 dispersion medium Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000010419 fine particle Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003205 genotyping method Methods 0.000 description 1
- 244000005709 gut microbiome Species 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 238000001802 infusion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000007791 liquid phase Substances 0.000 description 1
- 239000012139 lysis buffer Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 238000011880 melting curve analysis Methods 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000003463 organelle Anatomy 0.000 description 1
- 238000003068 pathway analysis Methods 0.000 description 1
- 239000008188 pellet Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000013612 plasmid Substances 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 235000010486 polyoxyethylene sorbitan monolaurate Nutrition 0.000 description 1
- 239000000256 polyoxyethylene sorbitan monolaurate Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 238000003757 reverse transcription PCR Methods 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 239000011780 sodium chloride Substances 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 230000005328 spin glass Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 150000008163 sugars Chemical class 0.000 description 1
- 239000006228 supernatant Substances 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
- 239000012138 yeast extract Substances 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Description
本発明の実施形態の例として、以下のものが挙げられる。
(項目1)
単一(single)生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含む方法。
(項目2)
前記ステップ(B)を行う場合、データベースを利用することをさらに含む、項目1に記載の方法。
(項目3)
単一(single)生物単位の配列情報を処理する方法であって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとに対応しているドラフトの個数または割合を計算するステップと、
C)該対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含む方法。
(項目3A)
単一(single)生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップと
を含む方法。
(項目4)
単一生物単位の配列情報を処理する方法であって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含む方法。
(項目5)
項目4に記載の単一生物単位の配列情報を処理する方法であって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目4に記載のステップを繰り返すステップと
を含む、方法。
(項目6)
単一生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、方法。
(項目7)
前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、項目6に記載の方法。
(項目8)
単一生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップと
を含む、方法。
(項目9)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含むプログラム。
(項目10)
前記ステップ(B)を行う場合、データベースを利用することをさらに含む、項目9に記載のプログラム。
(項目11)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとに対応しているドラフトの個数または割合を計算するステップと、
C)該対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含むプログラム。
(項目11A)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップと
を含むプログラム。
(項目12)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含むプログラム。
(項目13)
項目12に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目12に記載のステップを繰り返すステップと
を含む、プログラム。
(項目14)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、プログラム。
(項目15)
前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、項目14に記載のプログラム。
(項目16)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップと
を含む、プログラム。
(項目17)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含む記録媒体。
(項目18)
前記ステップ(B)を行う場合、データベースを利用することをさらに含む、項目17に記載の記録媒体。
(項目19)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとに対応しているドラフトの個数または割合を計算するステップと、
C)該対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含む記録媒体。
(項目19A)
単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップと
を含む記録媒体。
(項目20)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含む記録媒体。
(項目21)
項目20に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目20に記載のステップを繰り返すステップと
を含む、記録媒体。
(項目22)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、記録媒体。
(項目23)
前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、項目22に記載の記録媒体。
(項目24)
単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップと
を含む、記録媒体。
(項目25)
単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する追加情報追加部と、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部とを含むシステム。
(項目26)
前記(B)追加情報追加部を含む場合、データベースを利用するデータベース利用部をさらに含む、項目25に記載のシステム。
(項目27)
単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
A)データベースから、ドラフト内で重複のない遺伝子を抽出する抽出部と、
B)前記遺伝子ごとに対応しているドラフトの個数または割合を計算する計算部と、
C)前記対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択する選択部と
を含むシステム。
(項目27A)
単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定する同定部と
を含むシステム。
(項目28)
単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するドラフト構築部と、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択する選択部と
を含むシステム。
(項目29)
項目28に記載の単一生物単位の配列情報を処理するためのシステムであって、該システムは、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択する選択部と、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するドラフト改善部と、
(G’)必要に応じて(G)に、該より長いドラフトが配列情報の完全長に達するまでドラフト生成を繰り返させるドラフト構築部と、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目28に記載の(D)、(E)および(E’)に順位付け、ドラフト構築および選択を繰り返させる手段と
を含む、システム。
(項目30)
単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録する登録部と
を含む、システム。
(項目31)
前記再クラスタリング部が、ネットワーク解析とコミュニティ検出によって再クラスター化を行う、項目30に記載のシステム。
(項目32)
単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するドラフト構築部、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すための手段と
を含む、システム。
以下に本明細書において特に使用される用語の定義および/または基本的技術内容を適宜説明する。
以下に好ましい実施形態の説明を記載するが、この実施形態は本発明の例示であり、本発明の範囲はそのような好ましい実施形態に限定されないことが理解されるべきである。当業者はまた、以下のような好ましい実施例を参考にして、本発明の範囲内にある改変、変更などを容易に行うことができることが理解されるべきである。これらの実施形態について、当業者は適宜、任意の実施形態を組み合わせ得る。
1つの局面において、本発明は、 単一(single)生物単位(例えば、細胞または細胞構造物)の配列情報を処理する方法を提供する。この方法は:(A)複数の単一生物単位の配列情報(例えば、ゲノム、トランスクリプトーム、プロテオーム、または同等の遺伝子等の集合)の部分配列情報について、生物系統同定用配列(例えば、16S rDNAまたはマーカー遺伝子)に基づいて、同一系統ごとにクラスター化するステップと、(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップとを含む。この局面の模式図は、図1に例示されている。ドラフトゲノムと本発明の単位生物単位ゲノムとの対応は図2に例示されている。
1つの局面において、本発明は、 単一(single)生物単位(例えば、細胞または細胞構造物)の配列情報を処理する方法をコンピュータに実装することを指示するコンピュータプログラムおよびこのプログラムを格納する記録媒体(例えば、CD−R、フラッシュメモリ、ハードディスク、伝送媒体、クラウドなど)を提供する。このプログラムが実装するこの方法は:(A)複数の単一生物単位の配列情報(例えば、ゲノム、トランスクリプトーム、プロテオーム、または同等の遺伝子等の集合)の部分配列情報について、生物系統同定用配列(例えば、16S rDNAまたはマーカー遺伝子)に基づいて、同一系統ごとにクラスター化するステップと、(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップとを含む。この局面の模式図は、図1に例示されている。ドラフトゲノムと本発明の単位生物単位ゲノムとの対応は図2に例示されている。
1つの局面において、本発明は、単一(single)生物単位(例えば、細胞または細胞構造物)の配列情報を処理するシステムを提供する。このシステムは:(A)複数の単一生物単位の配列情報(例えば、ゲノム、トランスクリプトーム、プロテオーム、または同等の遺伝子等の集合)の部分配列情報について、生物系統同定用配列(例えば、16S rDNAまたはマーカー遺伝子)に基づいて、同一系統ごとにクラスター化するクラスタリング部と、(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する追加情報追加部(これは、クラスタリング部と同じであっても別々であってもよい)と、(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部とを含む。この局面の模式図は、図1に例示されている。ドラフトゲノムと本発明の単位生物単位ゲノムとの対応は図2に例示されている。
本発明の配列情報処理技術は、1つのシステムまたは装置として、すべてを含む形で提供され得る。あるいは、配列情報処理装置として分析および結果の表示を主に行い、計算や判別モデルの計算は、サーバやクラウドで行う形態も想定され得る。これらの一部または全部は、IoT(Internet of Things)および/または人工知能(AI)を用いて実施され得る(図11)。
本明細書において「または」は、文章中に列挙されている事項の「少なくとも1つ以上」を採用できるときに使用される。「もしくは」も同様である。本明細書において「2つの値の範囲内」と明記した場合、その範囲には2つの値自体も含む。
試薬類は具体的には実施例中に記載した製品を使用したが、他メーカーの同等品でも代用可能である。
(ドラフトゲノム作成法)
(方法)
(細胞株サンプル調製)
Hosokawaらから、E. coli K12(ATCC 10798)およびB. subtilis(ATCC 6633)のそれぞれについてそれぞれ12個のSAGデータを得た。Hosokawaらの論文では、これらの細胞はATCCから入手した。E. coli K12をルリア−ベルターニ(LB)培地(1.0%バクトトリプトン、0.5%酵母エキス、1.0%NaCl、pH7.0)中で培養した。B. subtilisをブレインハートインフュージョンブロス(ATCC培地44、Thermo
Fisher Scientific, San Jose, CA, USA)中で培養した。回収した細胞をUV処理したリン酸緩衝生理食塩水(−)(PBS、Thermo Fisher Scientific)で3回洗浄し、単一液滴MDAおよびシーケンシングに供した。
7週齢のオスのICRマウス(Tokyo Laboratory Animals Science Co., Ltd., Tokyo, Japan)から糞便を回収し、PBS中でホモジナイズした。上清を2000×gで2秒間の遠心分離によって回収し、15000×gで3分間遠心分離した。得られた細胞ペレットをPBSで2回洗浄し、最後にPBSに再懸濁した。
マイクロ流体液滴発生器およびMDA反応装置を製造し、Hosokawaらの報告に従って単一小滴MDAに使用した。分析前に、細胞懸濁液を0.1細胞/液滴となる濃度に調整して、単一の液滴中に複数の細胞が封入されるのを防いだ。液滴発生器を使用して、単一の微生物細胞を溶解緩衝液D2(QIAGEN、Hilden、Germany)中に封入し、そして65℃で10分間溶解した。次に細胞溶解物を液滴融合装置に注入し、Tween−20およびEvaGreenを加えたMDA反応混合液(REPLI−g
Single Cell Kit、QIAGEN)の液滴と混合した。 PCRチューブに回収した後、液滴を30℃で2時間、65℃で3分間インキュベートした。シングルセルシーケンシングについて、蛍光標識された液滴を個々にピックし、オープンクリーンベンチ(KOACH 500−F、KOKEN LTD、東京、日本)の下でマイクロピペットによって新鮮なMDA反応混合物に移した。30℃で2時間のインキュベーション後、酵素を65℃で3分間失活させた。
単一細胞からの増幅を確認するために、16S rRNA遺伝子フラグメントV3−V4を増幅し、単一液滴MDAによって得られたSAGからのサンガーシーケンシングによってシーケンシングした。系統学的分布を比較するために、腸内細菌叢のメタゲノムサンプルから16S rRNAフラグメント(V3−V4)を増幅し、MiSeq(Illumina、San Diego、CA、USA)によってシーケンシングした。ペアエンドリードを連結させ、トリミングし、そしてUPARSEにより97%の同一性で分類単位にクラスター化した。分類はRDP分類子で決定された。
Nextera XT DNAサンプル調製キット(Illumina)とNextera XT Index Kitを使用して、単一細胞シーケンシング用のIlluminaライブラリーを単一液滴MDAの生成物から調製した。次いで、ライブラリーを2×300のペアエンドリードでIllumina MiSeqシステム上でシーケンシングした。
SAGを、99%以上の16S rRNA類似性および95%以上のANIに基づいて最初に分類した。ヌクレオチド同一性を、全長の生SAGコンティグ間のペアワイズBLASTによって推定し、500bp以上にわたって計算した。次に、グループ化したSAGリードを、FASTXツールキット(http://hannonlab.cshl.edu/fastx _toolkit /)およびPRINSEQを使用して事前にフィルター処理し、低品質のリード(50%以上の塩基が品質スコア<25のもの)を取り除き、低品質(品質スコア<20のもの)のリードの3末端をトリミングし、短い読み取り(<20bp)および1%の塩基が識別されていないリードを取り除き、事前フィルター処理後にペアを形成していないリードを破棄した。その後、options-care
ful-disable−rr-scでSPAdes−3.9.0を使用して、生のSAGリードからコンティグを新たに個別にアセンブルした。最後に、相互参照マッピングのために500 bp以上の生SAGコンティグを収集した。
1つのSAGからの品質管理されたリードを、同じグループ内の他のSAGから構築された複数の生コンティグにBWAによってマッピングした。参照コンティグに対する完全アラインメントが部分アラインメント(ソフトクリッピング)と同等またはそれ以上の頻度である場合、リードはクリーンであると見なしたが、部分アラインメントが完全アラインメントより頻繁である場合は潜在的にキメラであると見なした。次いで、潜在的なキメラをアラインメントするフラグメントおよびアラインメントしないフラグメントに分割し、次いでそれらを複数の生のコンティグに再マッピングし、そして記載のように再分類した。最後に、完全にアラインメントしていないリードおよび20bpより短い断片化されたキメラを、マッピングされないものとして廃棄した。相互参照マッピングおよびキメラ分割のサイクルを、部分的にアラインメントした、潜在的にキメラなリードが検出されなくなるまで繰り返した。
各SAGからのクリーンなリードを、SPAdeを使用してクリーンな複合SAGコンティグに新規にコアセンブリした。同様に、生のSAGリードを生の複合SAGコンティグに新規にコアセンブリした。クリーンな複合体コンティグ間のギャップを、生の複合体コンティグに対するBLASTマッピングによって埋めた。簡潔に言うと、複合体コンティグをクリーンにするために、潜在的に使用可能な生の複合体コンティグとして、99%以上の同一性のものを識別した。このような生の複合体コンティグを次いで、データベースに回収し、BLASTによりクリーンな複合体コンティグをマッピングし、得られたアラインメントに基づいてギャップを埋めることにより、複合体の単一細胞ゲノムを本質的に含む、ギャップを埋められた複合体SAGコンティグを生成した。
A et al., Bioinformatics. 2013 Apr 15;29(8):1072−5.)。細胞株の分析について、fプラスミドおよびλファージ配列を伴うNC_00913 (E. coli substrain MG1655)のゲノム、または、NC_014479 (Bacillus subtilis subsp. spizizenii str. W23)ののゲノムのすべての配列データをNCBI参照ゲノムにマッピングした。この実施例によって得られた培養していない細胞ゲノムの分析のために、架橋した複合SAGコンティグを参照として用いて、潜在的なミスアセンブリを同定し、各々のSAGのゲノム部分を決定した。完全性(コンプリート)と汚染(コンタミ)をCheckMで評価した(Parks DH et al., Genome Res. 2015 Jul;25(7):1043−55.)。分類は、AMPHORA2またはRNAmmerにおける16S rDNA配列のBLAST検索によって行った(Lagesen K et al., Nucleic Acids Res. 2007;35(9):3100−8.)。遺伝子経路分析を、KAAS(Moriya Y et al., Nucleic Acids Res. 2007 Jul;35(Web Server issue):W182−5.)およびMAPLE(Takami H et al., DNA Res. 2016 Jul 3. pii: dsw030.)で行った。他方、アセンブリグラフは、Bandage(Wick RR et al., Bioinformatics. 2015 Oct 15;31(20):3350−2.)で生成した。SNPの分析について、各々のシングルセル増幅したゲノムを架橋複合SAGコンティグのコード配列に対してマッピングした。次いで、ヌクレオチドを少なくとも5つのリードのカバレッジ深さについてスクリーニングした。ここで、99.9%のリードは、参照とマッチせず、均質な塩基(核酸配列)を示した。その後、同じ系統において複数のマッチングしたSAGsおよびマッチングしないSAGsの両方を含んだヌクレオチド部位は、SNPsとして同定した。
図2は本発明で使用するための微生物ゲノムデータベース構成である。ここでは、微生物ゲノムデータベースをリレーショナルデータベースシステムにて構築する場合の実施例を示す。主に、中央処理装置(CPU)、主記憶装置、補助記憶装置、入出力装置、その他周辺機器からなるコンピュータシステム上にオペレーティングシステムおよびリレーショナルデータベース管理システムをインストールする。図2に示すように、リレーショナルデータベース上に、ドラフトゲノム情報、それに対応するアセンブル塩基配列、遺伝子情報、遺伝子塩基配列、単一生物単位ゲノム情報、それに対応するアセンブル塩基配列、遺伝子情報、遺伝子塩基配列、および部分塩基配列情報を保存するためのテーブルを作成する。アセンブル塩基配列、遺伝子塩基配列、部分塩基配列に関しては、実データはリレーショナルデータベース外に保存し、実データへの参照をテーブルに保存する形態を取ることも可能である。ドラフトゲノム情報テーブルには、ドラフトゲノムに付随する情報を保存するための列を作成する。例えば、暫定系統分類、コンプリート率、コンタミ率、品質カテゴリー、ゲノムサイズ、コンティグ数、N50値、GC含量などが挙げられる。暫定系統分類は、アセンブル塩基配列を専用解析ツール(例えばcheckmなど)で解析して得られる生物系統分類の情報である。これによりドラフトゲノムの大まかな系統を同定することができる。品質カテゴリーはドラフトゲノムの状態を示すためのものである。これは国際規格などに準じたカテゴリーにするのが望ましい。ドラフトゲノムの遺伝子情報テーブルには、ドラフトゲノムの遺伝子に付随する情報を保存するための列を作成する。例えば、遺伝子名、遺伝子長さ、タンパク質ファミリー、GC含量、マーカータイプ、シングルコピーなどが挙げられる。タンパク質ファミリーは、タンパク質データベースとの相同性解析などにより得られる情報である。マーカータイプは、系統分類などで使用するためのマーカーかどうかを記すためのものである。シングルコピーは遺伝子がシングルコピー遺伝子であるかどうかを表すものである。図5の手法でシングルコピー遺伝子は同定できる。単一生物単位ゲノム情報テーブルには、単一生物単位ゲノムに付随する情報を保存するための列を作成する。例えば、暫定系統分類、コンプリート率、コンタミ率、ゲノムサイズ、コンティグ数、N50値、GC含量などが挙げられる。単一生物単位ゲノムの遺伝子情報テーブルには、単一生物単位ゲノムの遺伝子に付随する情報を保存するための列を作成する。例えば、遺伝子名、遺伝子長さ、タンパク質ファミリー、GC含量、シングルコピーなどが挙げられる。それ以外の各塩基配列テーブルは、塩基配列(外部ファイルとする場合はその参照)を保存するための列を作成する。それぞれのテーブルには、データを唯一に識別するためのID列を用意しておくことが好ましい。ドラフトゲノム情報と単一生物単位ゲノム情報は1対多の関係をもつ。ゲノム情報とアセンブル塩基配列は1対多の対応をもつ。ゲノム情報と遺伝子情報は1対多の関係をもつ。遺伝子情報と遺伝子塩基配列は1対1の対応をもつ。単一生物単位ゲノム情報と部分塩基配列は1対多の対応をもつ。
図3は複数の単一生物単位の部分塩基配列が得られたときに、それらを同一系統のクラスターとしてまとめる方法を示したものである。例えば、単一生物単位のゲノムDNAをIlluminaなどのDNAシーケンサーで解析し、fastqなどの塩基配列ファイルを取得できたとする。Fastqファイルには部分塩基配列が記述されている。取得したfastqファイルを解析用のコンピュータへ保存する。Fastqファイル内の部分塩基配列には、アダプター配列が混在したものや品質の低い部分塩基配列が存在する。これら低品質の部分塩基配列は、fastqcなどの品質管理ツールを用いて削除しておく。このfastqファイルをSpadesなどのアセンブルツールでアセンブルしアセンブル塩基配列を取得する。アセンブル塩基配列は、quastやcheckmなどの評価ツールを用いてコンティグ数やゲノムサイズ、コンプリート率、コンタミ率などの評価値を計算しておく。次にアセンブル塩基配列から遺伝子を同定する。遺伝子の同定にはProkkaやDFASTなどの遺伝子アノテーションツールを用いる。同定された遺伝子塩基配列は、Pfamなどのタンパク質データベースを検索することで、タンパク質ファミリーなどの機能情報を取得することができる。最後にcheckmなどの系統分類が可能なツールを使い、暫定的な系統分類情報を計算しておく。ここまでが単一生物単位の部分塩基配列に関して行う前処理となる。
図4は新規で測定した単一生物単位ゲノムデータにおいて、微生物ゲノムデータベースに対応するドラフトゲノムがなかった時に同一系統のクラスターを作成するための方法を示したものである。ここでは、実施例2で示した前処理により各単一生物単位ゲノムデータ(部分塩基配列、ゲノム情報、アセンブル塩基配列、暫定系統分類、遺伝子情報、遺伝子塩基破裂)がすでに得られているものとして実施例を進める。暫定系統分類により、同一系統の単一生物単位ゲノムデータをクラスター化する。暫定系統分類はcheckmなどのツールを使用してアセンブル塩基配列を処理することで決定されるが、単一生物単位のアセンブル塩基配列はゲノム全体をカバーしていないことも多いため、系統分類が大雑把であることも多く、いろいろな系統の生物が混在したクラスターを作り上げている可能性が高い。そこで、微生物ゲノムデータベースに登録されている生物系統同定用配列を用いてクラスター内の単一生物単位ゲノムデータが細分できないかどうかを評価する。図6は、同一系統のクラスターとされた単一生物単位ゲノムデータを細分化する方法を示したものである。微生物ゲノムデータベースに登録されている遺伝子情報テーブルのマーカータイプを参照し、生物系統同定用配列とそれに対応するタンパク質ファミリーを取得する。実施例2で示したゲノム間の類似度を求める方法と同様の方法で、生物系統同定用配列を使用してクラスター内の単一生物単位ゲノムデータに対し総当たりで類似度を計算する。ここで求められた類似度行列を統計処理ソフトウェアであるRなどにより読み込みネットワーク解析を行う。Rの場合はigraph関数がネットワーク解析関数として利用できる。次にネットワーク解析の出力からコミュニティを検出する。Rにおいてコミュニティ検出は、エッジ媒介中心性に基づく方法、ランダムウォークに基づく方法、貪欲アルゴリズムに基づく方法、固有ベクトルに基づく方法、多段階最適化に基づく方法、スピングラス法に基づく方法、ラベル伝搬法に基づく方法、Infomap法に基づく方法などが実装されている。検出されたコミュニティに基づき、単一生物単位ゲノムデータを細分化する。ここでは細分化にネットワーク解析とコミュニティ検出を用いた例を示したが、階層(非階層)クラスタリングを用いて細分化を行う方法も考えられる。ただしこの場合、類似度を計算するための共通した生物系統同定用配列が2つの単一生物単位ゲノムデータ間になかった場合、類似度が欠損値となってしまいクラスタリング解析を行うことができなくなってしまう。そのためどちらかと言えば、欠損値があった場合でも対応できるネットワーク解析とコミュニティ検出を用いることが好ましいと考えられる。
図5は微生物ゲノムデータベースに登録されているドラフトゲノムの遺伝子情報から、系統分類を行うための新規生物系統同定用配列を同定する方法を示している。微生物ゲノムデータベースに登録されているドラフトゲノム情報とドラフトゲノム遺伝子情報を用いて、図5に示すようなドラフトゲノムに対応する遺伝子ファミリーの頻度表を作成する。頻度表の1を示すセルは、そのドラフトゲノム内においてシングルコピー遺伝子であることを示している。生物系統同定用配列はシングルコピー遺伝子であるべきなので、シングルコピー遺伝子以外のセルは無視する。各タンパク質ファミリーにおいて、ドラフトゲノム全体に存在するシングルコピー遺伝子の割合を計算する。シングルコピー遺伝子が多くのドラフトゲノムをカバーしているほど生物系統同定用配列として優秀であるため、タンパク質ファミリーをシングルコピー遺伝子の割合で降順ソートし、ある基準値以上(例えば90%以上のドラフトゲノムにシングルコピー遺伝子が存在する)を満たしたタンパク質ファミリーを生物系統同定用配列として再同定する。または、タンパク質ファミリーをシングルコピー遺伝子の割合で降順ソートし、上位から任意数のタンパク質ファミリーを生物系統同定用配列としてもよい。また、これまでの研究においてバクテリアなどで既知とされている生物系統同定用配列などは、上述で同定した生物系統同定用配列と併用してもよい。
図7は最適ドラフトゲノムを構築する方法を示したものである。実施例2および実施例3により、単一生物単位ゲノムデータは同一系統としてクラスター化されている。実施例2におけるクラスター化では、微生物ゲノムデータベースのドラフトゲノムに基づきクラスター化されているので、ドラフトゲノムに対応する単一生物単位ゲノムの部分塩基配列を微生物ゲノムデータベースから取得しクラスターに追加する。クラスター内の単一生物単位ゲノムデータはある基準値によりソートされる。ここではコンタミ率の低い順にソートしている。ただしある一定の水準に満たない単一生物単位ゲノムデータは除外している。ここでは、コンプリート率が10%に満たないような単一生物単位ゲノムデータを除外する。次にランクの高い方ら2つの単一生物単位ゲノムデータを抽出し、ドラフトゲノム構築用の暫定セットを作成する。次にランクの高い方ら3つの単一生物単位ゲノムデータを抽出し、同様にドラフトゲノム構築用の暫定セットを作成する。このようにしてランクの高い順に次々に単一生物単位ゲノムデータを追加していき、クラスター内の単一生物単位ゲノムデータ数より1少ない数だけ暫定ドラフトゲノム構築用セットを作成する。これらの暫定ドラフトゲノム構築用セットに対し、M. Kogawa, et. al.,
2018で提示されているCleaning and Co−assembly of
a Single−Cell Amplified Genome (ccSAG)法を適用し、暫定ドラフトゲノムを構築する。暫定ドラフトゲノムは構築するために用いた単一生物単位ゲノムデータ数を説明変数、コンプリート率やコンタミ率などのドラフトゲノム評価値を目的変数とした関数として表現できる。これにより、ドラフトゲノムが収束状態にありこれ以上単一生物単位ゲノムデータを追加しても品質の向上が見込めないかなどが判断できる。品質古城が見込めないドラフトゲノムは、最適ドラフトゲノムの構築を行わないなどすることにより、処理の高速化が期待できる。暫定ドラフトゲノムおよび既存ドラフトゲノムの中で最も高品質なものを選択し、それが既存ドラフトゲノムでない場合は微生物ゲノムデータベースのドラフトゲノムを更新する。クラスターとして新規に同定された単一生物単位ゲノムデータは、微生物ゲノムデータベースの単一生物単位ゲノムデータに登録する。
図8は微生物ゲノムデータベースに登録されているドラフトゲノムのフィニッシング方法を示したものである。実施例5で作成したドラフトゲノムの収束状態を評価する関数により、微生物ゲノムデータベースから収束状態にあるドラフトゲノムを抽出することができる。この収束状態のドラフトゲノムをフィニッシング対象とする。フィニッシング方法は2とりのパターンがある。1つ目は、抽出されたドラフトゲノムに対応する単一生物単位ゲノムデータを用いる方法である。抽出された単一生物単位ゲノムデータをある基準値によりソートする。ここではコンタミ率の低い順にソートしている。ただしある一定の水準に満たない単一生物単位ゲノムデータは除外している。ここでは、コンプリート率が10%に満たないような単一生物単位ゲノムデータを除外する。基準を満たした全単一生物単位ゲノムデータを用いて、パラメータを変更したccSAGを実施する。パラメータは長めのアセンブル塩基配列が検出できるようなパラメータを設定する。ここで作成されたドラフトゲノムを1つ目のフィニッシングドラフトゲノムとする。2つ目は、基準を満たした全単一生物単位ゲノムデータのアセンブル塩基配列の中からドラフトゲノムのアセンブル塩基配列を結合するブリッジアセンブル塩基配列を検出することである。BLASTなどの相同性解析ツールにより、ドラフトゲノムのアセンブル塩基配列と基準を満たした全単一生物単位ゲノムデータのアセンブル塩基配列を総当たりで相同性解析する。ドラフトゲノムの2つのアセンブル塩基配列の片端と単一生物単位ゲノムデータの1つのアセンブル塩基配の両端がマッチするような結果が得られた場合、単一生物単位ゲノムデータのアセンブル塩基配列がドラフトゲノムアセンブル塩基配列を結合する役目を果たす。このようにブリッジとなるアセンブル塩基配列によってつながったドラフトゲノムを2つ目のフィニッシングドラフトゲノムとする。フィニッシングドラフトゲノム1つ目および2つ目と、登録済みのドラフトゲノムをある基準値によって比較し、最も品質の高いドラフトゲノムを選択する。選択されたドラフトゲノムが既存ドラフトゲノムでない場合は微生物ゲノムデータベースのドラフトゲノムを更新する。
図9は微生物ゲノムデータベースに登録されているドラフトゲノムを系統的に細分化する方法を示したものである。実施例5で作成したドラフトゲノムの収束状態を評価する関数により、微生物ゲノムデータベースから収束状態にあるドラフトゲノムを抽出することができる。この収束状態のドラフトゲノムを細分化対象とする。抽出されたドラフトゲノムに対応する単一生物単位ゲノムデータをある基準値によりソートする。ここではコンタミ率の低い順にソートしている。ただしある一定の水準に満たない単一生物単位ゲノムデータは除外している。ここでは、コンプリート率が10%に満たないような単一生物単位ゲノムデータを除外する。基準を満たした全単一生物単位ゲノムデータに対して、実施例3で行った図6の細分化を行う。細分化された各クラスターに対して図7の最適ドラフトゲノム構築を行い、各クラスターの最適ドラフトゲノムを取得する。この複数の最適ドラフトゲノムと登録済みのドラフトゲノムをある基準値によって比較し、両者のうちで品質の高い方のドラフトゲノムを選択する。選択されたドラフトゲノムが既存ドラフトゲノムでない場合は微生物ゲノムデータベースから既存ドラフトゲノムを削除し、細分化されたドラフトゲノムを新規に登録する。
以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。本明細書において引用した特許、特許出願及び他の文献は、その内容自体が具体的に本明細書に記載されているのと同様にその内容が本明細書に対する参考として援用されるべきであることが理解される。
Claims (32)
- 単一(single)生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(C)該単一生物単位の配列情報の部分配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含む方法。 - 単一(single)生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を該クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含む方法。 - 生物系統同定用配列候補をスクリーニングする方法であって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとにシングルコピー遺伝子の個数または割合を計算するステップと、
C)該シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含む方法。 - 単一生物単位の配列情報を処理する方法であって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含む方法。 - 請求項4に記載の単一生物単位の配列情報を処理する方法であって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、請求項4に記載のステップを繰り返すステップと
を含む、方法。 - 単一生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、方法。 - 前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、請求項6に記載の方法。
- 単一生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップと
を含む、方法。 - 単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(C)該単一生物単位の配列情報の部分配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含むプログラム。 - 単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を該クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含むプログラム。 - 生物系統同定用配列候補をスクリーニングする方法をコンピュータに実装するプログラムであって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとにシングルコピー遺伝子の個数または割合を計算するステップと、
C)該シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含むプログラム。 - 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含むプログラム。 - 請求項12に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、請求項12に記載のステップを繰り返すステップと
を含む、プログラム。 - 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、プログラム。 - 前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、請求項14に記載のプログラム。
- 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップと
を含む、プログラム。 - 単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(C)該単一生物単位の配列情報の部分配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含む記録媒体。 - 単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を該クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含む記録媒体。 - 生物系統同定用配列候補をスクリーニングする方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとにシングルコピー遺伝子の個数または割合を計算するステップと、
C)該シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含む記録媒体。 - 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含む記録媒体。 - 請求項20に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、請求項20に記載のステップを繰り返すステップと
を含む、記録媒体。 - 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、記録媒体。 - 前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、請求項22に記載の記録媒体。
- 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すステップと
を含む、記録媒体。 - 単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(C)該単一生物単位の配列情報の部分配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部と
を含むシステム。 - 単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(B)前記データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を該クラスターに追加する追加情報追加部と、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部とを含むシステム。 - 生物系統同定用配列候補をスクリーニングするためのシステムであって、該システムは:
A)データベースから、ドラフト内で重複のない遺伝子を抽出する抽出部と、
B)前記遺伝子ごとにシングルコピー遺伝子の個数または割合を計算する計算部と、
C)前記シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択する選択部と
を含むシステム。 - 単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するドラフト構築部と、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択する選択部と
を含むシステム。 - 請求項28に記載の単一生物単位の配列情報を処理するためのシステムであって、該システムは、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択する選択部と、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するドラフト改善部と、
(G’)必要に応じて(G)に、該より長いドラフトが配列情報の完全長に達するまでドラフト生成を繰り返させるドラフト構築部と、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、請求項28に記載の(D)、(E)および(E’)に順位付け、ドラフト構築および選択を繰り返させる手段と
を含む、システム。 - 単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録する登録部と
を含む、システム。 - 前記再クラスタリング部が、ネットワーク解析とコミュニティ検出によって再クラスター化を行う、請求項30に記載のシステム。
- 単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するドラフト構築部、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)〜(E’)を繰り返すための手段と
を含む、システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019167532A JP6744642B1 (ja) | 2019-09-13 | 2019-09-13 | 単一生物単位の配列情報の新規処理法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019167532A JP6744642B1 (ja) | 2019-09-13 | 2019-09-13 | 単一生物単位の配列情報の新規処理法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019085839 Division | 2019-04-26 | 2019-04-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6744642B1 JP6744642B1 (ja) | 2020-08-19 |
JP2020182445A true JP2020182445A (ja) | 2020-11-12 |
Family
ID=72047882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019167532A Active JP6744642B1 (ja) | 2019-09-13 | 2019-09-13 | 単一生物単位の配列情報の新規処理法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6744642B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023204008A1 (ja) * | 2022-04-21 | 2023-10-26 | 株式会社島津製作所 | 微生物判別用のデータベースを構築する方法および装置 |
-
2019
- 2019-09-13 JP JP2019167532A patent/JP6744642B1/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023204008A1 (ja) * | 2022-04-21 | 2023-10-26 | 株式会社島津製作所 | 微生物判別用のデータベースを構築する方法および装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6744642B1 (ja) | 2020-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114067911B (zh) | 获取微生物物种及相关信息的方法和装置 | |
KR20200027900A (ko) | 시료 미생물의 동정 및 분류 방법 | |
US20180137243A1 (en) | Therapeutic Methods Using Metagenomic Data From Microbial Communities | |
Chang et al. | Genome-scale phylogenetic analyses confirm Olpidium as the closest living zoosporic fungus to the non-flagellated, terrestrial fungi | |
WO2020218555A1 (ja) | 単一生物単位の配列情報の新規処理法 | |
Kim et al. | Unraveling metagenomics through long-read sequencing: A comprehensive review | |
Suetsugu et al. | Mycorrhizal communities of two closely related species, Pyrola subaphylla and P. japonica, with contrasting degrees of mycoheterotrophy in a sympatric habitat | |
Prudnikow et al. | A primer on pollen assignment by nanopore-based DNA sequencing | |
JP6744642B1 (ja) | 単一生物単位の配列情報の新規処理法 | |
Carrieri et al. | A fast machine learning workflow for rapid phenotype prediction from whole shotgun metagenomes | |
JP5825790B2 (ja) | 核酸情報処理装置およびその処理方法 | |
Mangericao et al. | Computational prediction of CRISPR cassettes in gut metagenome samples from Chinese type-2 diabetic patients and healthy controls | |
JP6744648B1 (ja) | 単一生物単位の配列情報の新規処理法 | |
TWI582631B (zh) | 用以分析細菌菌種之定序資料的系統及其方法 | |
WO2012096016A1 (ja) | 核酸情報処理装置およびその処理方法 | |
Gupta et al. | Collection of Mitochondrial tRNA Sequences and Anticodon Identification for Acheta domesticus | |
JP2022021661A (ja) | シングルセルゲノム配列とメタゲノム配列を統合する新規処理法 | |
Pandey et al. | CANGS DB: a stand-alone web-based database tool for processing, managing and analyzing 454 data in biodiversity studies | |
Marić et al. | Approaches to metagenomic classification and assembly | |
Zhao et al. | Eukfinder: a pipeline to retrieve microbial eukaryote genomes from metagenomic sequencing data | |
Cabezas Rodriguez et al. | MIMt: A curated 16S rRNA reference database with less redundancy and higher accuracy at species-level identification | |
Stukenbrock et al. | Comparing fungal genomes: Insight into functional and evolutionary processes | |
JP7129015B2 (ja) | 情報処理システム、変異検出システム、記憶媒体および情報処理方法 | |
Sánchez-Reyes et al. | Metagenomics-Based Phylogeny and Phylogenomic | |
Wang | Introduction to Computational Metagenomics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190913 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190913 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20191106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200527 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200727 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6744642 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D04 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |