JP2016518822A - アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析 - Google Patents

アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析 Download PDF

Info

Publication number
JP2016518822A
JP2016518822A JP2016502954A JP2016502954A JP2016518822A JP 2016518822 A JP2016518822 A JP 2016518822A JP 2016502954 A JP2016502954 A JP 2016502954A JP 2016502954 A JP2016502954 A JP 2016502954A JP 2016518822 A JP2016518822 A JP 2016518822A
Authority
JP
Japan
Prior art keywords
trait
sequence information
probabilistic
specific
organism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016502954A
Other languages
English (en)
Other versions
JP6644672B2 (ja
Inventor
ハサン,ヌル,エー.
セブラ,トム
リビングストン,ボイド,トーマス
リ,ファイ
ジャクーピアック,デイヴィッド
コルウェル,リタ,アール.
ブレナー,ダグラス,エム.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CosmosID Inc
Original Assignee
CosmosID Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CosmosID Inc filed Critical CosmosID Inc
Publication of JP2016518822A publication Critical patent/JP2016518822A/ja
Application granted granted Critical
Publication of JP6644672B2 publication Critical patent/JP6644672B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本発明はサンプル又は分離株内の生物材料の形質解析のためのシステム及び方法に関する。特性解析は、フラグメントリードの配列解析情報を参照ゲノムデータベース及び/又は形質固有のデータベースカタログの配列解析情報と比較する確率論的な方法を用いてもよい。形質解析は、サンプル又は分離株内に含まれる一又は複数の生物の同一性及び/又は相対濃度もしくは相対存在量について行われてもよい。この生物の同定は、相対濃度又は相対存在量を用いて種及び/又は亜種及び/又は菌株のレベルで行われてもよい。形質解析は追加的に又は代替的に、前記サンプル又は分離株内に含まれる生物材料の一又は複数の形質(すなわち、特性)に関するものであってもよい。これらの一又は複数の形質の特性解析は、形質の相対存在量を用いて行われてもよい。

Description

関連出願の相互参照
本出願は、2013年3月15日に出願された米国出願第13/836,139号に基づき、その優先権を主張するものであり、この出願の全内容は参照により本明細書に組み入れられる。
本発明はサンプル内の生物材料の特性解析のためのシステム、装置、及び方法に関し、より具体的にはサンプル内の生物材料の同一性及び/又は形質(trait)、及び/又は同定された生物材料又はその形質の相対存在量の特性解析に関する。
正確かつ明確な微生物の同定は、細菌の同定及び病原体の検出を含めて、正確な疾病診断、感染治療、及び細菌感染に関連する疾病の発生のトレースバックには不可欠である。細菌の同定は、医療診断、食品安全、飲料水、細菌科学捜査、犯罪捜査、バイオテロ、及び環境調査を含む多種の用途に用いられる。細菌の同定は効果的な疾病制御のために重要であるが、また流行病や微生物薬剤を兵器として用いる攻撃の初期警報システムとしても極めて重要である。核酸(NA)配列解析技術の進歩により、科学者は細菌の完全なゲノムの配列を迅速かつ効率的に解析することが可能になった。細菌のゲノム全体のNA配列を入手することによって、微生物を分子レベルで分析及び理解し、細菌病原体の検出及び薬品開発のための新しい方法を設計する唯一の機会を得ることができる。慢性病の原因となる病原因子としての細菌病原体の同定は、これらの疾病に対する新しい治療及び予防戦略につながる。
アントニ・ファン・レーウェンフック(1632−1723)は、レンズの倍率を改良する技術を開発して「奇妙な小動物」を観察してこれを記述することができた。そして、彼自身はおそらく知らなかったであろうが、この「奇妙な小動物」が将来において細胞、農作物、動物、及び人体を害する能力を実証することになるのである。レーウェンフックの発見は、最初の記録された生物薬剤検出法の一部であった。但し、ルイ・パスツールとロベルト・コッホがこれらのバクテリアが疾病の原因となることを立証してはじめて、生物因子の追跡が始まったのである。
顕微鏡検査はバクテリアを同定する最初の方法であったが、顕微鏡検査に対する利点及び欠点を共に有する他の種類の生物因子検出法も開発された。それには、バイオアッセイ、抗体を利用する方法、ポリメラーゼ連鎖反応(PCR)法、DNAマイクロアレイ、配列解析、生体内ハイブリダイゼーション、及び質量分析法が含まれる。
a.従来の培養
微生物を検出し同定する伝統的な方法においては、純粋な培地に生物を隔離し、その後に種々の生理的及び生物学的な特徴を検査することを必要とする。同定のために培養を用いる確立された方法では、種々の条件に曝露された培地内で成長する微生物の能力を評価する。培養による検出の一般的な方法は、以下の工程に細分化することができる。全般的な濃縮、選択的な濃縮、バイオアッセイスクリーニング、及び確認である。培養及びそれに続く培養によるバイオアッセイによって感染性因子を検出及び同定することの重要な欠点は、標的となる生物が十分な量に成長することができないことである。
培養できる微生物については、さらなる欠点は、競争者である試料内の微生物が過剰に成長して標的である微生物を遮蔽してしまうことにより同定が十分にできない場合があることである。外来の又は通常見られない病原体は特にこうした理由で同定が困難である。
最後に、臨床の診断環境における培養の最も深刻な欠点は、培養過程が数日を要することである。例えば、感染時における有効な抗生物質の選択を含む治療上の決定は、微生物が隔離された状態で培養されるまで遅れることになる。
b.血清学/免疫学的検定/抗体アッセイ
臨床的な微生物学及び実験診断において現在最も広く用いられる細菌及びウイルスの検出方法は血清検査であり、単一の分離株を検出及び同定するための多くの形態及び用法がある。しかしながら、単一の最近又はウイルスを検出するための米国連邦食品医薬品局承認済みのキットが市販されるようになったのはごく最近のことである。1999年には、公開済みの文献の再検討によれば、市販されている抗原ベースの検出法はわずかしかなかった。その後10年をやや超える期間の後、免疫検査は単一の分離株の検出及び同定のための検出方法として普及した。商業的に利用できなかった理由は、以前は定型的な用途において信頼性があり効果的なアッセイを作成するという難題のためであった。
問題の1つは、免疫反応性の抗体生産のための伝統的な戦略は、バクテリア全体の使用又は経験的に選択されたタンパク質の同定及び検査に依存していたという事実である。これらの障害を克服するために、モノクローナル抗体及び、抗原を生物因子の標的とし生物因子のための新しい独自のペプチドを発見するためのMALDI−TOF質量分析法などの技術が導入された。その他の進歩には、試薬の品質及び特異性における進歩及び、血清学上の研究成果のために研究者が細胞培養分離株を提出する参照ライブラリの発展が含まれる。免疫学的検定ベースの検査は迅速であるものの、重大な欠点は特異性の欠如である。これは一つの抗原に対抗して産生された抗体が他の抗原と交差反応する場合が多いからであり、これによって免疫学的検定の高い感度によって合成される誤った肯定的同定がなされることになる。さらに、この方法の信頼性は、過剰な量の抗体による誤った否定的な抗原抗体反応によって、又は凝集反応において格子形成を生じない過剰な抗原によって、深刻なまでに失われてしまう。
c.顕微鏡検査
顕微鏡検査技術にはいくつかの異なる種類があり、直接落射蛍光フィルタ法(DEFT)、フローサイトメトリー、直接蛍光抗体法、及び電子顕微鏡検査がある。顕微鏡検査検出法は検出のために直接観察を用いる。また、光を用いる初期の顕微鏡検査は最小の検出範囲が250nm程度であった。顕微鏡検査の主な進歩は、蛍光抗体法及び電子顕微鏡検査との組合せ及び、より最近では、コンピュータ化された自動顕微鏡検査の導入を含む。さらなる自動化の進展のために、試料をスライドに塗布又は固定する代わりに、試料が顕微鏡機器に接続されたフローサイトメーターを通過し、それによってさらにシステムを自動化している。生物学的標的の視覚化に関するその他の問題は、プローブを適用する前の濃縮及び/又はろ過工程の開発を通して解決された。自動化、蛍光プローブ、及びコンピュータ視覚化の追加によって、顕微鏡検査で混合された個体群の中の個別の細菌細胞を分類することが可能になった。
最も顕微鏡に依存する方法の欠点は、最初に微生物を培養するという要求、顕微鏡分析を行うために必要な高度な専門知識、及び顕微鏡機器の費用を含む。
d.質量分析法
質量分析法にはいくつかの種類がある。例えば、気体及び液体クロマトグラフィー質量分析法、及びマトリクス支援レーザー脱離イオン化(MALDI−TOF)質量分析法などである。各質量分析法は3つの基本となる構成要素から成り立っている。それらは、イオン源、質量解析器、及び検出装置である。質量分光計を用いた現在の方法では、タンパク質及びペプチドの検出又は核酸の検出のいずれかに焦点が当てられている。質量分析法による検出の最先端の方法では、従来の手続きと比較して86.8%の同定能力があり、連鎖球菌種を同定する際にはやや低い能力を有すると近頃報告された。質量分析法の主な改良点は、その方法を直接未処理の試料に適用しつつも分類が可能な程度に品質が高いデータを取得することができる能力である。さらに、質量分析法は翻訳後修飾を同定する能力を有する。質量分析法の分野における最も重要な発展は、システムを自動化する能力、すなわち高度コンピュータ分析技術である。
この方法はタンパク質質量プロフィールのみを分析し、他のタンパク質分析は行われないため、耐抗生物質要因又は毒性要因を同定するには効率的な手段ではない。他の難題は分析に必要な量の材料を得るために試料を培養する必要があることである。同様に、ウイルスなどの低たんぱく質質量生物はこの方法の候補として適切ではない。最後に、この方法は培養された分離株とともに用いると最も効果的であるが、メタゲノム試料の場合は別である。
e.ポリメラーゼ連鎖反応
ポリメラーゼ連鎖反応(PCR)とは生物因子を検出する最も単純な方法の一つである。PCRにはいくつかのバリエーションがあり、リアルタイムPCR、逆転写(RT)PCR、標的化PCR、及びランダムPCRが含まれる。よってこの方法は、生物因子の検出及び実際の疾病検出の判定において幅広く利用することが可能である。すべてのPCR法において、いくつかの基本的な構成要素が存在する。それらは、DNA又はリボ核酸(RNA)のいずれかとなり得る標的配列、方法によって標的化又は無作為のいずれかとなり得る増幅プライマー、蛍光ベース、配列解析ベース、又はハイブリダイゼーションベースとなり得る増幅生成物の検出である。PCRベースの方法によって提供される、伝統的な診断検査に対する改良点の1つは、検出前に生物の培養を必要としないことである。PCRは感度が高く、かつ選択性と迅速性を高めることができる。PCRはDNAベースの他の検出法に利用されることが多いが、その理由は選択性が高く出発原料の必要量が少ないからである。
PCRベースの方法は、遺伝物質のプライマー特異的増幅に依存するため、アッセイを成功させるには標的生物のゲノム配列に対する高度な知識が要求される。さらに、この方法の特異性により、プライマー領域内に変異体を有する微生物の検出ができなくなる。
f.マイクロアレイ
先の10年の中頃から開発されたため、マイクロアレイは伝統的な膜ベースのブロット(blots)の進化を代表しており、ここで標識プローブは標的に対するハイブリダイゼーションを行う。膜ベースの方法においては、サンプルDNAは培養基に付着し、プローブはそれにハイブリダイズされる。一方、アレイベースの方法では、プローブは培養基及び標的プローブにハイブリダイズされたサンプルDNAに拘束される。マイクアレイプローブなどのハイブリダイゼーションベースの方法は、生物学的トリート(treats)の検出に対する既知の又は予測された回答を必要とする。マイクロアレイを用いればプローブの標的はタンパク質又は核酸ベースとなり得る。マイクロアレイの分野ベースの適用は、コレラ菌及びその他の生物のような生物因子の検出に成功裏に用いられた。マイクロアレイは数種の異なる生物についての多量のデータを精査することができるため、この技術は感染及びその他の関係に関連付けられた重要な基礎的要素を顕在化させるのに役立つ。マイクロアレイを用いたDNA及びRNAベースのハイブリダイゼーションは、元来は望ましい感度を持たなかったが、マイクロアレイの技術をPCRベースの技術と組み合わせることで、感度が劇的に向上した。
g.混合サンプル内の多数種の微生物の検出
サンプル内の単一種の微生物を同定する方法は、診断分野で価値あるツールとなった。しかしながら、より広いレベルの試験によって単一のサンプル内の多数種の微生物を検出及び同定できれば有利である。このような同定の最も一般的な方法は、変性剤濃度勾配ゲル電気泳動(DGGE)、DNAマイクロアレイ(上述)、16S遺伝子配列解析、及びメタゲノム配列解析である。これら技術のすべてにおける共通の進歩は、PCRの成果を利用できることであり、これによってこの方法は非常に選択性と感度が高くなっている。
g1.変性剤濃度勾配ゲル電気泳動(DGGE)
DGGEは単一の分離株に加えて細菌の個体群の検出及び同定を可能にする方法である。DGGEにおいて、標的配列は16Sリボゾーム遺伝子に標的化されたプライマーを用いたPCRによって増幅され、PCRアンプリコンは変性剤濃度勾配における電気泳動を用いて分離される。サンプル内の細菌群集の組成を判定するために、ゲル内の横縞模様を用いることもある。最終的に、メタゲノム群集の同定のために、増幅されたDNAのバンドが、配列解析及びさらには系統発生解析のためのゲルから切り出される。
メタゲノムサンプルのDGGE分析の深刻な欠点は、ゲノム上の結合部位とプライマーとの間のミスマッチがある場合に増幅に失敗するユニバーサルプライマーの使用である。この技術における進歩はゲル分析のためのソフトウェアの導入である。DGGE技術に関するもう1つの大きな欠点は、600bpを超えるPCRの成果を効果的に利用できないことである。さらなる欠点は、多数の遺伝子複合体が単一のPCR反応において増幅された場合に、多数の遺伝子を分解することができないことである。さらに、優先的な増幅が発生した場合に、すべての遺伝子の検出及び同定が弱められてしまう。他の重大な問題は異なる配列のヘテロ2本鎖及び共遊走である。よって、配列解析を行わなければ、ヘテロ2本鎖、優先増幅、及び共遊走などの問題によって、DGGEの結果の解釈に混乱を生じさせることになり得る。また、各種の配列の最大限の分離が信頼性のある方法でなされる前に、かなりの最適化が必要であり、変性剤又はゲル試薬の濃度が若干変化しただけで、予期しない結果が生じる場合がある。
g2.マイクロアレイ
メタゲノム検出については、マイクロアレイは一定範囲の標的のためのプローブを数個有しており、よって検出可能な生物の数を拡大している。プローブはタンパク質ベース又は核酸ベースとなり得る。マイクロアレイ印刷などの改良によって、マイクロアレイは単一の検査についての数千の検査サンプルをサンプリングすることで高いスループット比率を達成できる。しかしながら、ある種のプローブは必ずしもマイクロアレイ法を用いて効果的に機能しているわけではない。よってこのプローブは標的生物の存在下で期待された信号を生成せず、マイクロアレイの設計者は検査が生産段階に入る前に偽陰性を考慮しなければならない。さらに、異なるプローブが必ずしも同じ標的結合能力を有するわけではなく、このことがマイクロアレイの結果を解釈する上で困難を生じさせる。データの画像分析や、すべての生物因子の正確な同定を可能にする最適検出ルールの作成などの問題は、マイクロアレイチップの導入前に解決しなければならない問題を生じさせる。しかしながら、この大きな問題は、予想された/予め定められた回答についての情報のみを検出できるハイブリダイゼーションに基づく方法を常に循環しており、実験によっては信頼性が失われることも多い。タンパク質ベースの抗体に関しては、選択された抗原は特定の曝露イベントの下でのみ発現されることがある。よって、このイベントが発生しない場合は、生物因子は検出できなくなる。
g3.16SrRNA遺伝子配列解析
16SrRNA遺伝子配列解析は、生物間の系統発生学上の関係を追跡する方法を開発することによって細菌の分類の水準を向上させた。リボゾームRNA遺伝子は様々な程度のヌクレオチドの多様性を有する領域を含んでおり、高度に保存されたものから極めて変化に富むものまである。加えて、極めて多数の細菌の16SrRNA遺伝子が配列解析されて公開されており、比較のための大規模なライブラリが形成されている。総じて、2つの配列を比較したときに配列の同一性が97%を下回る16SrRNAの関係は、異なる種を示している。16SrRNA遺伝子の選択的な増幅は、非常に感度の高い方法を可能にする。よって、DGGE、マイクロアレイ、配列解析などの多数の方法が16SrRNA領域を利用している。
PCRを用いて選択的に増幅することによって、16SrRNA遺伝子フラグメントは、研究者が混合サンプル内の多数の生物を同定することを可能にする。しかし一部のサンプル種においては、16SrRNA遺伝子は他のプローブと比較して弱い信号を発する場合がある。16SrRNA技術の欠点の一つは、プライマー結合部位の配列内で突然変異が発生した場合に、偽陰性が発生し、特定の細菌を同定できなくなることである。生物の中には、保存されていると想定されるドメインを有する領域内に可変配列を発現するものもある。よって、16SrRNAの増幅を利用しユニバーサルプライマーを使用する同定が困難になる。さらに、16SrRNA配列はいくつかの属の範囲内で高度に保存されているため、16SrRNAは種のレベルでの同定ができない場合もある。16SrRNAに関する大きな欠点は、バックグラウンドDNAによる誤った信号であり、また高濃度生物から生成されるノイズを如何に低減するかである。
16SrRNA遺伝子配列解析は種のレベルではロバストではない。この方法は耐抗生物質又は毒性の菌株を必ずしも同定できない。さらに、メタゲノム同定については、大きいゲノムバックグラウンドが検査の特異性及び検出分解能を低減する可能性が高い。最後に、この方法はアッセイを行うための十分な材料を得るために培養されたサンプルを必要とする。種又は亜種のレベルで正確な同定を行うには単一の遺伝子では不十分であり、追加の遺伝子配列が他のデータとともに必要であることが理解できる。困惑させられる問題としては、異なる分類単位間の配列の相違が不均一に分布していること、及び5%を超える配列の相違がある16SrRNA遺伝子の多数のコピーが同種の生物に存在している場合である。これはどの16SrRNA遺伝子が分析されるかによって、同一の個体に対する異なる推定上の同定につながる可能性がある。g4.メタゲノム配列解析及び細胞ゲノムの集合
完全な細菌配列の集合は冗長であり、現段階では誤りやすく、近い将来に自動化され誤りがなくなる見通しはない。さらに、定量的にメタゲノムサンプル内のすべての微生物の完全な配列を得ることは、現在の技術では実現できない。そのような大量のデータセットの同定は、大規模な計算能力へのアクセスを必要とし、また各々の構成要素の菌株を得るために培養を必要とする。
生物の混合物中での種の同定の問題は、静的なマーカベースのメタゲノムの方法の場合に証明されてきた。例えば、リボゾーム遺伝子(16S、18S、及び23SrRNA)又は細胞の転写又は翻訳機構に伴う遺伝子の符号化配列(例えば、recA/radA、hsp70、EF−Tu、Ef−G、rpoB)である。定義上、このようなマーカは緩慢に進化する遺伝子に基づいている。マーカベースのメタゲノムの方法の目的は、進化上の距離が大きい種の間の区別を明確にすることであり、よって、関係の近い生物同士を区分することは適さない。細菌の16SrRNA配列解析は細菌群集の特性解析の標準と考えられているものの、包括的な微生物群系の研究に用いるには感度が不十分である場合もある。rRNA遺伝子ベース配列解析は、群集の主なメンバーを検出することができるが、これらの方法は発散する標的配列を有する群集の希少なメンバーを検出できない場合がある。プライマーのバイアス及びサンプリングの低深度は、細菌の16SrRNA配列解析における制限のいくつかを説明する。これは細菌のゲノム全体を配列解析することで改良することができる。
熱作用による配列解析によって単一の遺伝子ベースのアンプリコン配列解析の制限を克服するために、全ゲノムショットガン配列解析が混合個体群内の複雑な細菌多様性を評価するための魅力的な戦略として出現した。全ゲノムベースの方法は、高スループット及び並行DNA配列解析プラットフォームによって、より包括的な網羅を約束する。なぜならば、これらは特定の標的内で配列保存又はプライマー結合部位の変化によって制限されていないからである。高スループットのDNA配列解析におけるイノベーションに刺激され、ゲノムに関する発見の速度は指数関数的に上昇し、それにともなって高性能計算技術及びバイオインフォマティクスに対する需要が高まった。そのような全ゲノムベースの方法における第1の問題は、合理的な時間及び合理的なコストで何千何百もの種の微生物の同定を如何にして正確に実現するかである。
現在のバイオインフォマティクスのスループットは大規模なプロジェクトにとっては低過ぎ、かつ十分に自動化されておらず、またトリミング、アセンブリ、アラインメント、及び注釈をしばしば必要とする。その場合でも、分散コンピューティングネットワークのような十分な計算能力、ロバストなサーバ技術、時間、及び人的資源が必須である。混合された種の群集から高品質な配列が得られると、次の問題は多くの細菌を並行して正確に同定することである。今日利用できる現在のバイオインフォマティクスパイプラインとしては、BLAST、BLASTZ、netBlast、BlastX−MEGAN、MG−RAST、IMG/M、ショートリードマッピング、及びその他の比較ツールがあるが、これらは対象の細菌群集の大まかな同定を可能にするのみであり、密接に関連する生物種である別個の種及び個体群を区別することができない。これらのツールは特定されない系統発生学上の関連性を有する配列間隔から可変長のアラインメントを作成するが、潜在的な偽陽性の問題が顕在化する。非常に短いリード(50bp未満)に基づくアサインメントには低い信頼値という問題が生じるが、−100bpの長さのリードには合理的なレベルの信頼性がアサインされ(30以上のBLASTXビットスコア)、また種のレベルのみでの同定が可能であり、深刻に予測を下回る結果となる。最後に、現在の「次世代」配列解析(NGS)技術の急速な開発は、将来のゲノムベースの技術は「より小さく、より安価で、より速い」ことを示している。これは、遺伝子リソースを同定するための高速かつ高性能なバイオインフォマティクスツールの必要性を保証しており、このツールにはより高度な正確性と信頼性が必要に応じて求められる。
本発明はサンプル内の生物材料の特性解析のためのシステム、装置、及び方法に関し、より具体的にはサンプル内の生物材料の同一性及び/又は形質、及び/又は同定された生物材料又はその形質の相対存在量の特性解析に関する。特性解析は、フラグメントリードの配列解析情報を参照ゲノムデータベース及び/又は形質固有のデータベースカタログの配列解析情報と比較する確率論的な方法を用いてもよい。
一態様において、本発明は生物の遺伝物質を含むサンプルから抽出した配列情報に基づいて当該生物の特性を決定する方法を提供する。この方法は、(a)プロセッサ及びメモリを含む処理装置によって、サンプルから抽出された配列情報を受信する工程を含む。この配列情報はアセンブルされていないヌクレオチドフラグメントリードを含んでもよい。この方法は、(b)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを形質固有のデータベースカタログ内に含まれる形質固有の参照配列情報と比較し、確率論的な形質の結果を生成する確率論的な方法を実行する工程を含んでもよい。この方法はまた、(c)前記処理装置によって、前記確率論的な形質の結果を用いて前記生物と関連付けられる一又は複数の形質を決定する工程を含んでもよい。
一部の実施形態において、この方法は(d)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを、生物のゲノムの同一性を含む参照データベース内に含まれる参照配列情報と比較し、確率論的な同一性の結果を生成する確率論的な方法を実行する工程と、(e)前記処理装置によって、前記確率論的な同一性の結果を用いて前記サンプル内に含まれる前記生物の同一性を少なくとも種レベルで決定する工程と、を含んでもよい。
一部の実施形態において、前記参照データベース内に含まれる前記参照配列情報は、アセンブルされた又は部分的にアセンブルされた配列情報であってもよい。この生物は微生物であってもよく、この参照データベースは細菌の全遺伝子データベースであってもよい。この方法は、前記処理装置によって、前記確率論的な同一性の結果を用いて前記サンプル内に含まれる前記生物の同一性を種又は亜種レベルで決定する工程を含んでもよい。この方法は、前記処理装置によって、前記確率論的な同一性の結果を用いて前記サンプル内に含まれる前記生物の同一性を菌株レベルで決定する工程を含んでもよい。
一部の実施形態において、工程(b)及び(c)が実行される間に工程(d)及び(e)が実行されてもよい。一部の実施形態において、工程(d)及び(e)が実行された後に工程(b)及び(c)が実行されてもよい。
一部の実施形態において、この方法は同定された生物の種、及び/又は亜種、及び/又は菌株の相対個体数又は存在量の特性を決定する工程を含んでもよい。工程(b)及び(d)の確率論的な方法は、確率論的なマッチングを含んでもよい。前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報は、前記参照データベースに含まれる前記参照配列情報のサブセットであってもよい。
一部の実施形態において、この方法は、前記アセンブルされていないヌクレオチドフラグメントリードから抽出したワード又はn量体を用いてサンプル配列ライブラリを作成する工程と、前記参照配列情報から抽出したワード又はn量体を用いて参照配列ライブラリを作成する工程と、を含んでもよい。前記確率論的な方法は、前記サンプル配列ライブラリのワード又はn量体を前記参照配列ライブラリのワード又はn量体と比較することによって、前記アセンブルされていないヌクレオチドフラグメントリードを前記参照配列情報と比較してもよい。
一部の実施形態において、この方法は、前記アセンブルされていないヌクレオチドフラグメントリードから抽出したワード又はn量体を用いてサンプル配列ライブラリを作成し、前記形質固有の参照配列情報から抽出したワード又はn量体を用いて形質固有の配列ライブラリを作成する工程を含んでもよい。前記確率論的な方法は、前記サンプル配列ライブラリのワード又はn量体を前記形質固有の配列ライブラリのワード又はn量体と比較することによって、前記アセンブルされていないヌクレオチドフラグメントリードを前記形質固有のデータベースカタログ内に含まれる形質固有の参照配列情報と比較してもよい。形質固有の配列ライブラリは前記形質固有の参照配列情報から取得したワードのディクショナリのライブラリであり、各ディクショナリは特定の形質に対してワードを含んでもよい。前記サンプル配列ライブラリはサンプル配列ハッシュテーブルであってもよく、前記形質固有配列ライブラリは形質固有ハッシュテーブルである。
一部の実施形態において、前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報は、特定の生物形質に関連付けられた閉じたゲノム、ドラフトゲノム、コンティグ、及び/又はショートリードであってもよい。前記特定の生物形質は耐抗生物質の形質、病原性の形質、バイオテロ・エージェント・マーカー、又は生化学的形質であってもよい。工程(c)は前記サンプル内で見られる可能性が高い生物形質の評価値を決定し格付けする工程を含んでもよい。
一部の実施形態において、前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報は、一又は複数の可動遺伝因子の配列情報からなってもよい。前記一又は複数の可動遺伝因子は、特定の微生物の属又は種に関連付けられたファージ又は病原性島からなってもよい。工程(c)では前記一又は複数の可動遺伝因子の確率及び相対存在量を決定してもよい。
一部の実施形態において、前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報は、特定の表現型特性に関連付けられる配列情報からなってもよい。工程(e)は前記サンプル内で見られる可能性が高い特定の表現型特性の評価値を決定し及び格付けする工程を含んでもよい。前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報は、対象の特定の形質又は表現型の存在を確認するシグネチャ配列又はゲノム配列からなってもよい。
一部の実施形態において、この方法は(f)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを第2の形質固有のデータベースカタログ内に含まれる第2の形質固有の参照配列情報と比較し、第2の確率論的な形質の結果を生成する確率論的なマッチングを実行する工程と、(g)前記処理装置によって、前記第2の確率論的な形質の結果を用いて前記生物と関連付けられる一又は複数の第2の形質を決定する工程と、を含んでもよい。前記一又は複数の形質は前記一又は複数の第2の形質と異なってもよい。工程(b)及び(c)が実行される間に工程(f)及び(g)が実行されてもよい。
一部の実施形態において、工程(b)の確率論的な方法は確率論的なマッチングを含んでもよい。このサンプルはメタゲノムサンプルでもよい。この方法は、(d)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを、生物のゲノムの同一性を含む参照データベース内に含まれる参照配列情報と比較し、確率論的な同一性の結果を生成する確率論的な方法を実行する工程と、(e1)前記サンプル内に含まれかつ前記参照データベース内に含まれる生物について、前記処理装置によって、前記確率論的な同一性の結果を用いて前記サンプル内に含まれかつ前記参照データベース内に含まれる前記生物の同一性を少なくとも種レベルで決定する工程と、(e2)前記サンプル内に含まれかつ前記参照データベース内に含まれない生物について、前記処理装置によって、前記サンプル内に含まれる生物に最も近似する前記参照データベース内に含まれる生物の同一性を決定する工程と、を含んでもよい。
他の一態様において、本発明は生物の遺伝物質を含むサンプルから抽出した配列情報に基づいて当該生物の特性を決定する装置を提供する。この装置はプロセッサ及びメモリを含む処理装置を備えてもよい。この処理装置は(a)前記サンプルから抽出された前記配列情報を受信し、前記配列情報はアセンブルされていないヌクレオチドフラグメントリードを含み、(b)前記アセンブルされていないヌクレオチドフラグメントリードを形質固有のデータベースカタログ内に含まれる形質固有の参照配列情報と比較し、確率論的な形質の結果を生成する確率論的なマッチングを実行し、(c)前記確率論的な形質の結果を用いて前記生物と関連付けられる一又は複数の形質を決定する、ように構成される。
一部の実施形態において、この処理装置はさらに(d)前記アセンブルされていないヌクレオチドフラグメントリードを、生物のゲノムの同一性を含む参照データベース内に含まれる参照配列情報と比較し、確率論的な同一性の結果を生成する確率論的な方法を実行し、(e)前記確率論的な同一性の結果を用いて前記生物の同一性を少なくとも種レベルで決定する、ように構成されてもよい。前記処理装置は更に、(f)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを第2の形質固有のデータベースカタログ内に含まれる第2の形質固有の参照配列情報と比較し、第2の確率論的な形質の結果を生成する確率論的なマッチングを実行し、(g)前記処理装置によって、前記第2の確率論的な形質の結果を用いて前記生物と関連付けられる一又は複数の第2の形質を決定する、ように構成される。前記一又は複数の形質は前記一又は複数の第2の形質と異なる。
一部の実施形態において、この処理装置はさらに前記アセンブルされていないヌクレオチドフラグメントリードから抽出したワード又はn量体を用いてサンプル配列ライブラリを作成し、前記参照配列情報から抽出したワード又はn量体を用いて参照配列ライブラリを作成する、ように構成されてもよい。前記確率論的な方法は、前記サンプル配列ライブラリのワード又はn量体を前記参照配列ライブラリのワード又はn量体と比較することによって、前記アセンブルされていないヌクレオチドフラグメントリードを前記参照配列情報と比較してもよい。
一部の実施形態において、この処理装置はさらに、前記アセンブルされていないヌクレオチドフラグメントリードから抽出したワード又はn量体を用いてサンプル配列ライブラリを作成し、前記形質固有の参照配列情報から抽出したワード又はn量体を用いて形質固有の配列ライブラリを作成する、ように構成されてもよい。前記確率論的な方法は、前記サンプル配列ライブラリのワード又はn量体を前記形質固有の配列ライブラリのワード又はn量体と比較することによって、前記アセンブルされていないヌクレオチドフラグメントリードを前記形質固有のデータベースカタログ内に含まれる形質固有の参照配列情報と比較してもよい。形質固有の配列ライブラリは前記形質固有の参照配列情報から取得したワードのディクショナリのライブラリであり、各ディクショナリは特定の形質に対してワードを含んでもよい。前記サンプル配列ライブラリはサンプル配列ハッシュテーブルであってもよく、前記形質固有配列ライブラリは形質固有ハッシュテーブルである。
一部の実施形態において、この処理装置はさらに、(d)前記アセンブルされていないヌクレオチドフラグメントリードを、生物のゲノムの同一性を含む参照データベース内に含まれる参照配列情報と比較し、確率論的な同一性の結果を生成する確率論的な方法を実行し、(e1)前記サンプル内に含まれかつ前記参照データベース内に含まれる生物について、前記確率論的な同一性の結果を用いて前記サンプル内に含まれかつ前記参照データベース内に含まれる前記生物の同一性を少なくとも種レベルで決定し、(e2)前記サンプル内に含まれかつ前記参照データベース内に含まれない生物について、前記サンプル内に含まれる生物に最も近似する前記参照データベース内に含まれる生物の同一性を決定する、ように構成されてもよい。
さらに別の態様において、本発明は生物の遺伝物質を含む分離株から抽出した配列情報に基づいて当該生物の特性を決定する方法を提供する。この方法は、(a)プロセッサ及びメモリを含む処理装置によって、前記分離株から抽出された前記配列情報を受信する工程であって、前記配列情報はアセンブルされていないヌクレオチドフラグメントリードを含む工程と、(b)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを形質固有のデータベースカタログ内に含まれる形質固有の参照配列情報と比較し、確率論的な形質の結果を生成する確率論的なマッチングを実行する工程と、(c)前記処理装置によって、前記確率論的な形質の結果を用いて前記生物と関連付けられる一又は複数の特徴を決定する工程と、を含んでもよい。
一部の実施形態において、この方法は、(d)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを、生物のゲノムの同一性を含む参照データベース内に含まれる参照配列情報と比較し、確率論的な同一性の結果を生成する確率論的な方法を実行する工程と、(e)前記処理装置によって、前記確率論的な同一性の結果を用いて前記分離株内に含まれる前記生物の同一性を少なくとも種レベルで決定する工程と、を含んでもよい。前記参照データベース内に含まれる前記参照配列情報は、アセンブルされた又は部分的にアセンブルされた配列情報であってもよい。この生物は微生物であってもよく、この参照データベースは細菌の全遺伝子データベースであってもよい。この方法は、前記処理装置によって、前記確率論的な同一性の結果を用いて前記生物の同一性を亜種レベルで決定する工程を含んでもよい。この方法は、前記処理装置によって、前記確率論的な同一性の結果を用いて前記生物の同一性を菌株レベルで決定する工程を含んでもよい。
一部の実施形態において、工程(b)及び(c)が実行される間に工程(d)及び(e)が実行されてもよい。一部の実施形態において、工程(d)及び(e)が実行された後に工程(b)及び(c)が実行されてもよい。
一部の実施形態において、工程(b)及び(d)の確率論的な方法は、確率論的なマッチングを含んでもよい。前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報は、前記参照データベースに含まれる前記参照配列情報のサブセットであってもよい。
一部の実施形態において、この方法は、前記アセンブルされていないヌクレオチドフラグメントリードから抽出したワード又はn量体を用いてサンプル配列ライブラリを作成する工程と、前記参照配列情報から抽出したワード又はn量体を用いて参照配列ライブラリを作成する工程と、をさらに含んでもよい。前記確率論的な方法は、前記サンプル配列ライブラリのワード又はn量体を前記参照配列ライブラリのワード又はn量体と比較することによって、前記アセンブルされていないヌクレオチドフラグメントリードを前記参照配列情報と比較してもよい。
一部の実施形態において、この方法は、前記アセンブルされていないヌクレオチドフラグメントリードから抽出したワード又はn量体を用いてサンプル配列ライブラリを作成し、前記形質固有の参照配列情報から抽出したワード又はn量体を用いて形質固有の配列ライブラリを作成してもよい。前記確率論的な方法は、前記サンプル配列ライブラリのワード又はn量体を前記形質固有の配列ライブラリのワード又はn量体と比較することによって、前記アセンブルされていないヌクレオチドフラグメントリードを前記形質固有のデータベースカタログ内に含まれる形質固有の参照配列情報と比較してもよい。この形質固有の配列ライブラリは前記形質固有の参照配列情報から取得したワードのディクショナリのライブラリであってもよく、各ディクショナリは特定の形質に対してワードを含んでいる。前記サンプル配列ライブラリはサンプル配列ハッシュテーブルであってもよく、前記形質固有配列ライブラリは形質固有ハッシュテーブルである。
一部の実施形態において、前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報は、特定の生物形質及び/又は一又は複数のメタゲノムサンプルに関連付けられた閉じたゲノム、ドラフトゲノム、コンティグ、及び/又はショートリードであってもよい。前記特定の生物形質は耐抗生物質の形質、病原性の形質、バイオテロ・エージェント・マーカー、又は生化学的形質であってもよい。前記特定の生物形質はヒトの同一性形質、癌罹患性形質、又は疾病形質であってもよい。前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報が、一又は複数の可動遺伝因子の配列情報からなってもよい。前記一又は複数の可動遺伝因子が、特定の微生物の属又は種に関連付けられたファージ又は病原性島からなってもよい。工程(c)では前記一又は複数の可動遺伝因子の確率及び相対存在量を決定してもよい。
一部の実施形態において、前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報は、特定の表現型特性に関連付けられる配列情報からなってもよい。工程(e)は前記生物内で見られる可能性が高い特定の表現型特性の評価値を決定し及び格付けする工程を含んでもよい。前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報は、対象の特定の形質又は表現型の存在を確認するシグネチャ配列又はゲノム配列からなってもよい。
一部の実施形態において、この方法は、(f)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを第2の形質固有のデータベースカタログ内に含まれる第2の形質固有の参照配列情報と比較し、第2の確率論的な形質の結果を生成する確率論的なマッチングを実行する工程と、(g)前記処理装置によって、前記第2の確率論的な形質の結果を用いて前記生物と関連付けられる一又は複数の第2の形質を決定する工程と、をさらに含んでもよい。前記一又は複数の形質は前記一又は複数の第2の形質と異なってもよい。工程(b)及び(c)が実行される間に工程(f)及び(g)が実行される。
一部の実施形態において、工程(b)の確率論的な方法は確率論的なマッチングを含んでもよい。サンプルはメタゲノムサンプルであってもよい。この方法は、(d)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを、生物のゲノムの同一性を含む参照データベース内に含まれる参照配列情報と比較し、確率論的な同一性の結果を生成する確率論的な方法を実行する工程と、(e1)前記生物が前記参照データベース内に含まれる場合、前記処理装置によって、前記確率論的な同一性の結果を用いて前記生物の同一性を少なくとも種レベルで決定する工程と、(e2)前記生物が前記参照データベース内に含まれない場合、前記処理装置によって、遺伝物質が前記分離株内に含まれる前記生物に最も近似する前記参照データベース内に含まれる生物の同一性を決定する工程と、を含んでもよい。
さらに別の態様において、本発明は生物の遺伝物質を含む分離株から抽出した配列情報に基づいて当該生物の特性を決定する装置を提供する。この装置はプロセッサ及びメモリを含む処理装置を備えてもよい。この処理装置は、(a)前記分離株から抽出された前記配列情報を受信し、前記配列情報はアセンブルされていないヌクレオチドフラグメントリードを含み、(b)前記アセンブルされていないヌクレオチドフラグメントリードを形質固有のデータベースカタログ内に含まれる形質固有の参照配列情報と比較し、確率論的な形質の結果を生成する確率論的なマッチングを実行し、(c)前記確率論的な形質の結果を用いて前記生物と関連付けられる一又は複数の形質を決定する、ように構成されてもよい。
一部の実施形態において、この処理装置はさらに(d)前記アセンブルされていないヌクレオチドフラグメントリードを、生物のゲノムの同一性を含む参照データベース内に含まれる参照配列情報と比較し、確率論的な同一性の結果を生成する確率論的な方法を実行し、(e)前記確率論的な同一性の結果を用いて前記生物の同一性を少なくとも種レベルで決定する、ように構成されてもよい。前記処理装置は更に、(f)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを第2の形質固有のデータベースカタログ内に含まれる第2の形質固有の参照配列情報と比較し、第2の確率論的な形質の結果を生成する確率論的なマッチングを実行し、(g)前記処理装置によって、前記第2の確率論的な形質の結果を用いて前記生物と関連付けられる一又は複数の第2の形質を決定する、ように構成されてもよい。前記一又は複数の形質は前記一又は複数の第2の形質と異なってもよい。
一部の実施形態において、前記携帯装置はさらに(d)前記アセンブルされていないヌクレオチドフラグメントリードを参照データベース内に含まれる参照配列情報と比較し、異なる分類学上のレベルで他の細菌に混じって保存される近傍の配列から生成される非一意の配列の発生及び分布とともに、一意の配列を同定する確率論的な方法を実行する、ように構成されてもよい。
一部の実施形態において、確率論的な方法によって同定される一意の配列に隣接して、他の細菌内で見られる保存された配列があり、これによってさらに細菌同士を少なくとも種のレベルで区別している。
一部の実施形態において、確率論的な方法によって同定される前記一意の配列は、細菌を少なくとも種のレベルで同定するためのマクロアレイ又はマイクロアレイを設計するために用いることが可能である。
一部の実施形態において、この処理装置は(d)前記アセンブルされていないヌクレオチドフラグメントリードを、生物のゲノムの同一性を含む参照データベース内に含まれる参照配列情報と比較し、確率論的な同一性の結果を生成する確率論的な方法を実行し、(e1)前記生物が前記参照データベース内に含まれる場合、前記確率論的な同一性の結果を用いて前記生物の同一性を少なくとも種レベルで決定し、(e2)前記生物が前記参照データベース内に含まれない場合、遺伝物質が前記分離株内に含まれる前記生物に系統発生学的に最も近似する前記参照データベース内に含まれる生物の同一性を決定する、ように構成されてもよい。
これらのシステム及び方法に含まれるさらなるバリエーションは、以下の発明を実施するための形態にて説明する。
添付図面は本明細書に組み込まれ本明細書の一部分を構成するものであり、本発明の種々の実施形態を示す。図において、同一の参照番号は同一又は機能的に類似の構成要素を示す。
本発明の一実施形態に従うサンプル又は分離株内の生物材料の形質解析が可能な機器の模式図である。
本発明の一実施形態に従うサンプル又は分離株内の生物材料の形質解析が可能な機器の模式図である。
本発明の一実施形態に従うサンプル又は分離株内の生物材料の形質解析のために実行され得る処理を示すフローチャートである。
本発明の一実施形態に従うサンプル又は分離株内の生物材料の形質解析のために実行され得る処理を示すフローチャートである。
本発明の一実施形態に従うサンプル又は分離株内の生物材料の形質解析のために使用され得る第1のコンパレータエンジンを示すフローチャートである。
本発明の一実施形態に従うサンプル又は分離株内の生物材料の形質解析のために使用され得る第2のコンパレータエンジンを示すフローチャートである。
サンプル又は分離株内の生物材料の形質解析のためのシステム及び方法の実施形態を、図を参照して以下に説明する。
図1は本発明の一実施形態に従う機器100の模式図である。機器100はサンプル又は分離株内の生物材料の形質解析が可能な装置であってもよい。一部の実施形態において、機器100はサンプル又は分離株内の一又は複数の生物(例えば、細菌、ウイルス、寄生生物、菌類、病原体、及び/又は共動生物などの一又は複数の微生物)の同一性を、種及び/又は亜種(例えば、形態型、血清型、及び生物型)のレベル及び/又は菌株のレベルで形質解析できる装置であってもよい。機器100はサンプル内に含まれる微生物の相対個体数の形質解析も可能であってもよい。機器100はサンプル又は分離株内に含まれる生物材料に関連付けられる一又は複数の形質の形質解析が可能であってもよい。一部の実施形態において、サンプルはメタゲノムサンプルであってもよい。例えば、メタゲノムサンプルは複数の種を含む、及び/又は同一種内の複数の亜種を含んでもよい。あるいは、又はさらに、メタゲノムサンプルは複数の以上の属を含んでもよく、細菌、ウイルス、及び/又は菌類で構成されてもよい。
一部の実施形態において、機器100は処理装置102を含む。この処理装置102はプロセッサ104及びメモリ106を含んでもよい。この処理装置102はサンプル又は分離株内の生物材料の形質解析を実行するように構成されてもよい。あるいは、機器100はハードウェア及び/又はソフトウェアの形態の複数の手段を備え、当該複数の手段の各々は生物材料の形質解析の一又は複数の部分を実行するように構成される。さらに、上記複数の手段の各々はそれ自身のプロセッサ及びメモリを備えるか、又は上記複数の手段の各々は他の手段のうちの一又は複数とプロセッサ及びメモリを共有してもよい。
一部の実施形態において、機器100は配列情報を利用してもよい。この配列情報はサンプル又は分離株から抽出されてもよい。一部の実施形態において、サンプルは複数の生物の遺伝物質を含んでもよい。非制限的な実施形態において、サンプルは、細菌、ウイルス、寄生生物、菌類、プラスミド、及び当該サンプルの種類において取得可能なその他の外生的なDNA又はRNAフラグメントを含む複数の細菌生物を含んでもよい。一部の実施形態において、分離株はサンプルから分離された一又は複数の生物からの遺伝物質を含む。
一実施形態において、遺伝物質を含むサンプル又は分離株を収集し、フラグメント(例えば、核酸及び/又はタンパク質及び/又は代謝産物)を抽出し、これらのフラグメントを順に配列解析することによって、配列情報が生成されてもよい。一部の実施形態において、サンプルはメタゲノムサンプルであり、抽出及び配列解析されたフラグメントはメダゲノムフラグメントである。非制限的な実施形態において、サンプルは対象サンプル及び/又は環境サンプルであってもよい。対象サンプル(例えば、血液、唾液など)は対象のDNA並びに対象内の任意の生物(病原体その他)のDNAを含んでもよい。環境サンプルは、環境(食物、空気、水、土壌、組織を含む)内の自然状態の生物を含んでもよいが、これには限定されない。
一部の実施形態において、配列情報はヌクレオチドフラグメントリードを含むか、ヌクレオチドフラグメントリードの形態であってもよい。一部の実施形態において、配列情報はアセンブルされない配列情報であってもよい(すなわち、より大きなコンティグ(contig)又は完全なゲノムにアセンブルされていない配列情報)。例えば、非制限的な実施形態において、処理装置102が利用した配列情報はアセンブルされないヌクレオチドフラグメントリードを含んでもよい。
機器100は数百、数千、又は数百万のショートフラグメントリード(例えば、アセンブルされないフラグメントリード)を含む配列情報を利用してもよい。配列情報はフラグメントリードから生成された配列情報ファイル108の形態であってもよい。
配列情報に含まれ、処理装置102によって利用されるフラグメントリードは、長さが100ベースペアより大きくてもよいものの、配列情報に含まれ、処理装置102によって利用されるフラグメントリードは、長さが約12から100ベースペアであってもよい。例えば、非制限的な実施形態において、機器100は長さが約12〜15ベースペア、16〜25ベースペア、25〜50ベースペア、又は50〜100ベースペアであるフラグメントリード(例えば、メタゲノムフラグメントリード)を用いて生物(例えば、微生物)の個体群の形質解析を行ってもよい。例えば、DNAについて、フラグメントリードは100ベースペア未満のリード長を有してもよく、フラグメントリードから生成された配列情報ファイル108は数百万のDNAフラグメントリードを含んでもよい。
図1に示す実施形態において、機器100は配列情報ファイル108を入力として受信してもよい。しかしながら、他の実施形態において、機器100は個別にフラグメントリードを受信し、当該受信したフラグメントリードを含む配列情報ファイル108を生成してもよい。さらに他の実施形態、例えば、図2に示す実施形態において、機器100はさらに、抽出装置210及び配列解析装置212を備え、入力としてサンプル又は分離株を受け、それを基に配列情報ファイル108を生成することが可能であってもよい。一部の実施形態において、抽出装置210はサンプル又は分離株からフラグメント(例えば、ヌクレオチドフラグメント)又は増幅されていない単一の分子を抽出し、フラグメントのストリーム又は単一の分子を産生する。一部の実施形態において、単一の分子は増幅されていない単一の分子であってもよいが、他の実施形態においては、抽出装置210が増幅方法を使用してもよい。
一部の実施形態において、配列解析装置212は抽出装置210から抽出されたフラグメント(例えば、ヌクレオチドフラグメント)又は分子を受け、当該受けたフラグメント又は分子を配列解析して、それを基に配列情報ファイル108を生成してもよい。一部の実施形態において、配列解析装置212は合成による配列解析(Sequencing−by−synthesis)、結紮による配列解析(Sequencing−by−ligation)、1分子配列解析(Single−molecule−sequencing)、パイロシーケンシング(Pyrosequencing)に基づくが、これらには限定されない。一実施形態において、配列解析装置212は交換可能であり、取り外し可能に機器100に結合されてもよい。非制限的な実施形態において、配列解析装置212は、参照によって全体が本明細書に組み込まれる米国特許出願第2012/0004111号において記載される交換可能なカセットであってもよい。
一部の実施形態において、機器100は外部シーケンサーに結合され、配列情報ファイル108を当該外部シーケンサーから直接受信してもよいが、これは必須ではない。機器100はまた、機器100と結合されていない一又は複数の外部シーケンサーから間接的に配列情報ファイル108を受信してもよい。例えば、機器100は、遠隔地に配置されていてもよいシーケンサーから通信ネットワークを介して配列情報ファイル108を受信してもよい。あるいは、配列情報ファイル108は、事前にハードディスクドライブ又は光記憶媒体などの記憶媒体に記憶され、機器100に入力されてもよい。
さらに、機器100は、シーケンサーによる配列解析の直後に、又はシーケンサーによる配列解析と並行して、リアルタイムで配列情報ファイル108又はフラグメントリードを受信してもよいが、これも必須ではない。機器100はまた、リアルタイムよりも遅れて配列情報ファイル108を受信してもよい。つまり、機器100によって実行されるサンプル又は分離株内の生物材料の形質解析は、サンプル又は分離株の収集、フラグメント抽出、及びフラグメント配列解析と一致して実行されてもよいが、これらの工程のすべては別個に及び/又は段階的に取り扱われてもよい。
機器100は、サンプル又は分離株から抽出されたフラグメントを配列解析するシーケンサーの制御の下で動作してもよいが、機器100とシーケンサーとの間の接続された処理又は直接通信さえも必須ではない。その代わりに、機器100によって実行されるサンプル内の生物材料の形質解析は、サンプル又は分離株の収集、フラグメント抽出、及び/又はフラグメント配列解析とは別途に実行されてもよい。
一部の実施形態において、機器100はポータブルハンドヘルド電子装置であってもよい。非制限的な実施形態において、機器100は、参照によって全体が本明細書に組み込まれる米国特許出願公開第2012/0004111号において記載されるポータブル装置の構造及び/又は外観を含んでもよい。しかしながら、これは必須ではない。例えば、その他の実施形態において、機器100はコンピュータ(例えば、ラップトップコンピュータ)であってもよい。
一部の実施形態において、機器100は通信ネットワークを介して通信が可能であってもよい。一実施形態において、通信ネットワークを用いて潜在的に関連のある任意のエンティティと通信してもよい。このエンティティは、例えば、第一応答者(First Responder)(すなわち、研究所の応答ネットワーク、参考文献研究所(Reference Labs)、生殖研究所(Seminal Labs)、国立研究所(National Labs))、GenBank(TM)、疾病管理センター(CDC)、医師、公衆衛生職員、医療記録、センサスデータ、法の執行、食品生産者、食品配給者、食品小売業者、及び/又は参照によって全体が本明細書に組み込まれる米国特許出願公開第2012/0004111に記載される任意のもの、である。
図3はサンプル又は分離株内の生物材料の形質解析のために実行され得る処理300を示すフローチャートである。一部の実施形態において、処理300の各工程は処理装置102によって実行される。工程S301において、機器100及び/又は処理装置102は配列情報を受信する。配列情報は配列情報ファイル108の形態であってもよい。この配列情報は一又は複数の生物の遺伝物質を含むサンプル又は分離株から抽出されてもよい。一部の実施形態において、配列情報はフラグメントリードを含んでもよい。非制限的な実施形態において、このフラグメントリードはアセンブルされないフラグメントリードであってもよい(例えば、アセンブルされないヌクレオチドフラグメントリード)。非制限的な実施形態において、配列情報はサンプル又は分離株内に含まれる遺伝物質から抽出されてもよい(例えば、サンプル又は分離株から遺伝物質のフラグメントを抽出してこの抽出したフラグメントの配列解析を行うことによって生成されたフラグメントリード)。一部の実施形態において、遺伝物質は一又は複数の生物のものであってもよい。
一部の実施形態において、処理300は確率論的なマッチング及び決定を行う一又は複数の工程を含んでもよい(例えば、工程S302〜S304)。図3に示す実施形態に見られるように、処理300は確率論的な方法及び形質決定の工程S302を含んでもよい。工程S302は確率論的な形質の結果を生成する確率論的な方法を実行すること、及びこの確率論的な形質の結果を用いて、生物材料に関連付けられた一又は複数の形質(すなわち、特性)を決定することを含んでもよい。
工程S302で実行される確率論的な方法は、形質固有データベースカタログ(例えば、図5及び6のカタログ522)を利用してもよい。形質固有データベースカタログは形質固有の参照配列情報を含んでもよい(すなわち、形質固有データベースカタログに含まれる配列情報は一又は複数の特定の生物形質に関連付けられてもよい)。この形質固有の参照配列情報は、例えば、閉じた(closed)ゲノム、ドラフト(draft)ゲノム、コンティグ、及び/又はショートリードであってもよく、これらの閉じた(closed)ゲノム、ドラフト(draft)ゲノム、コンティグ、及び/又はショートリードの各々は特定の生物形質に関連付けられてもよい。形質固有データベースに含まれる配列情報に関する特定の生物形質は、毒性(すなわち、適合性)要素、抗生物質耐性形質、病原性形質、バイオテロ・エージェント・マーカー、生化学的形質、人同一性(すなわち、家系)形質、癌発症傾向形質、疾病形質(例えば、疾病検査用)、表現型の特性(すなわち、表現型)、可動遺伝因子(すなわち、ファージ及び病原性島などのモビローム(mobilomes))、挿入配列、トランスポゾン、インテグロン、及び/又は一般に共有される、又は特定の属、種、または菌株に限定される要素を含むが、これらには限定されない。
このように、一部の非限定的な実施形態において、特定のカタログは別々に維持され、(i)薬剤(抗生物質)耐性、(ii)毒性及び病原性、及び/又は(iii)適合性の媒介に関わるすべての配列を含んもよい。
一部の実施形態において、形質固有データベースカタログに含まれる配列情報は、一又は複数の特定の生物形質に関連付けられた配列情報に限定されてもよい。よって、形質固有データベースカタログに含まれる配列情報は、参照データベース(例えば、図5及び図6の参照データベース520)に含まれる配列情報のサブセットであってもよく、この参照データベースは生物のゲノムの同一性を含む参照データベース(例えば、GenBank(登録商標))であってもよい。
一部の実施形態において、工程S302で実行される確率論的な方法は、受け取った配列情報(例えば、配列情報ファイル108)内に含まれるフラグメントリード(例えば、アセンブルされないヌクレオチドフラグメントリード)を、形質固有データベースカタログ内に含まれる形質固有の参照配列情報と比較する工程を含んでもよい。一部の非限定的な実施形態において、工程S302の確率論的な方法において実行される確率論的な比較は、完全一致、サブシーケンスの一意性、パターン一致、n長内での複数サブシーケンス一致、曖昧一致、Seed−and−extend、距離測度、及び系統発生学上の樹状マッピングを含んでもよいが、これらには限定されない。非限定的な一実施形態において、工程S302で実行されるこの確率論的な方法は確率論的なマッチングを含んでもよい。
一部の実施形態において、工程S302で実行される確率論的な方法は、ベイズ的アプローチ、再帰的なベイズ的アプローチ、又は単純ベイズ的アプローチを用いてもよいが、工程S302で実行される確率論的な方法は、これらのアプローチのいずれにも限定されない。一部の実施形態において、工程S302で実行される確率論的な方法は、サンプル又は分離株内の生物材料において見出される可能性が高い特定の生物形質の評価値を決定し、格付けする工程を含んでもよい。
一部の実施形態において、工程S302は、サンプル又は分離株内の一又は複数の特定の生物形質の確率及び相対存在量を決定する工程を含んでもよい。例えば、非限定的な実施形態において、工程S302はサンプル又は分離株において見出される可能性が高い一又は複数の可動遺伝因子の確率及び相対存在量を決定する工程を含んでもよい。別の非限定的な実施形態において、工程S302はサンプル又は分離株において見出される可能性が高い一又は複数の系統発生学上の特性の確率及び相対存在量を決定する工程を含んでもよい。
参照により全体が本明細書に組み込まれる米国特許出願交換第2012/0004111号は、サンプル内の生物の同一性及び相対個体数の特性を決定するために用いることができる確率論的な方法を記述している。一部の非限定的な実施形態において、工程302で実行される確率論的な方法は、米国特許出願公開代2012/0004111号に記述される確率論的な方法のうちの一又は複数と同じものである。ただし、工程S302で実行される確率論的な方法は、受け取った配列情報を、生物のゲノムの同一性を含む参照データベースではなく、形質固有のデータベースカタログに含まれる形質固有の参照配列情報と比較するという点では異なる。その結果、これらの非限定的な実施形態において、工程S302で実行される確率論的な方法は、確率論的な方法を用いて、(生物の同一性及び相対個体数の特性を決定するのではなく)サンプル又は分離株内の生物のうちの一又は複数に関連付けられた一又は複数の形質、又はサンプル又は分離株内の生物のうちの一又は複数に関連付けられた一又は複数の形質の相対存在量の特性を決定(すなわち、判定)してもよい。しかしながら、工程S302で実行される確率論的な方法は、米国特許出願公開第2012/0004111号に記載されたものに限定されることはなく、その他の確率論的な方法を追加的に又は代替的に用いてもよい。
図3に示す実施形態に見られるように、処理300は確率論的な方法及び同一性決定の工程S303を含んでもよい。工程S303は確率論的な同一性の結果を生成する確率論的な方法を実行すること、及びサンプル又は分離株に含まれる一又は複数の生物の同一性を決定することを含んでもよい。この決定は確率論的な同一性の結果に基づいてもよく、この同一性は少なくとも種のレベルで決定されてもよい。
工程S303で実行される確率論的な方法は、生物のゲノムの同一性を含む参照データベース(例えば、図5及び6の参照データベース520)を利用してもよい。 非限定的な一実施形態において、この参照データベースは細菌の全遺伝子データベースであってもよい。他の非限定的な一実施形態において、この参照データベースはGenBank(登録商標)であってもよい。この参照データベースは参照配列情報を含んでもよい。一実施形態において、この参照配列情報は、例えば、アセンブルされた、又は部分的にアセンブルされた配列情報であってもよい。
一部の実施形態において、工程S303で実行される確率論的な方法は、受け取った配列情報(例えば、配列情報ファイル108)内に含まれるフラグメントリード(例えば、アセンブルされないヌクレオチドフラグメントリード)を、参照データベース内に含まれる参照配列情報と比較する工程を含んでもよい。一部の非限定的な実施形態において、工程S303の確率論的な方法において実行される確率論的な比較は、完全一致、サブシーケンスの一意性、パターン一致、n長内での複数サブシーケンス一致、曖昧一致、Seed−and−extend、距離測度、及び系統発生学上の樹状マッピングを含んでもよいが、これらには限定されない。非限定的な一実施形態において、工程S303で実行されるこの確率論的な方法は確率論的なマッチングを含んでもよい。
一部の実施形態において、工程S303で実行される確率論的な方法は、ベイズ的アプローチ、再帰的なベイズ的アプローチ、又は単純ベイズ的アプローチを用いてもよいが、工程S303で実行される確率論的な方法は、これらのアプローチのいずれにも限定されない。一部の実施形態において、工程S303で実行される確率論的な方法は、サンプル又は分離株内の生物材料において見出される可能性が高い生物の評価値を決定し、格付けする工程を含んでもよい。
一部の実施形態において、工程S303は、確率論的な同一性の結果を用いて亜種レベルでサンプル内に含まれる生物の同一性を決定する工程を含んでもよい。一部の実施形態において、工程S303は、確率論的な同一性の結果を用いて菌株レベルでサンプル内に含まれる生物の同一性を決定する工程を含んでもよい。
一部の実施形態において、工程S303は、サンプル又は分離株内の一又は複数の特定の生物形質の確率及び相対存在量を決定する工程を含んでもよい。例えば、非限定的な実施形態において、工程S303はサンプル又は分離株において見出される可能性が高い一又は複数の生物の確率及び相対存在量を決定する工程を含んでもよい。一部の実施形態において、工程S303は同定された生物の種、及び/又は亜種、及び/又は菌株の相対個体数(すなわち、濃度又は存在量)の特性を決定する(すなわち、判定する)工程を含んでもよい。
参照により全体が本明細書に組み込まれる米国特許出願交換第2012/0004111号は、サンプル内の生物の同一性及び相対個体数の特性を決定するために用いることができる確率論的な方法を記述している。一部の非限定的な実施形態において、工程S303で実行される確率論的な方法は、米国特許出願公開第2012/0004111号に記載された確率論的な方法のうちの一又は複数と同じものであってもよい。その結果、これらの非限定的な実施形態において、工程S303で実行される確率論的な方法は、サンプル又は分離株内の生物の同一性及び/又は相対個体数の特性を決定(すなわち、判定)する確率論的な方法を用いてもよい。しかしながら、工程S303で実行される確率論的な方法は、米国特許出願公開第2012/0004111号に記載されたものに限定されることはなく、その他の確率論的な方法を追加的に又は代替的に用いてもよい。
一部の実施形態において、参照データベース内で同定される一又は複数の生物(すなわち、既知の生物)から得られる遺伝物質がサンプル又は分離株に含まれる場合、工程S303は、そのサンプルに含まれかつ参照データベースで同定される一又は複数の生物の同一性を決定する工程を含んでもよい。一実施形態において、参照データベース内で同定されない一又は複数の生物(すなわち、未知の生物)から得られる遺伝物質がサンプル又は分離株に含まれる場合、工程S303は、そのサンプルに含まれかつ参照データベースで同定されない一又は複数の生物に最も近似する、参照データベース内で同定される生物の同一性を決定する工程を含んでもよい。この実施形態において、最も近似するものの同定によって、サンプルに含まれかつその系統発生内において参照データベースで同定されない一又は複数の生物の位置の特定が可能になる。分離株に適用された場合、(参照データベースが最も近似するもののアセンブルされた全ゲノムを含むならば)工程S303は当該分離株内に含まれる如何なる未知の生物の性質をも正確に示すことができる。
図3に示す実施形態に見られるように、処理300は確率論的な方法及び第2の形質決定の工程S304を含んでもよい。工程S304は第2の確率論的な形質の結果を生成する確率論的な方法を実行すること、及びこの第2の確率論的な形質の結果を用いて、生物材料に関連付けられた一又は複数の第2の形質(すなわち、特性)を決定することを含んでもよい。工程S304において実行される確率論的な方法は、工程S302で利用される形質固有のデータベースカタログの代わりに第2の形質固有データベースカタログを利用しているが、この点を除けば、工程S304は工程S302に対応している。
工程S304で利用される第2の形質固有データベースカタログは第2の形質固有の参照配列情報を含んでもよい(すなわち、第2の形質固有データベースカタログに含まれる配列情報は一又は複数の第2の特定の生物形質に関連付けられてもよい)。第2の形質固有の参照配列情報が関連付けられる一又は複数の第2の特定の形質は、形質固有の参照配列情報が関連付けられる一又は複数の特定の形質とは異なるものであってもよい。この第2の形質固有の参照配列情報は、例えば、閉じた(closed)ゲノム、ドラフト(draft)ゲノム、コンティグ、及び/又はショートリードであってもよく、これらの閉じた(closed)ゲノム、ドラフト(draft)ゲノム、コンティグ、及び/又はショートリードの各々は第2の特定の生物形質に関連付けられてもよい。
一部の実施形態において、第2の形質固有データベースカタログに含まれる配列情報は、一又は複数の第2の特定の生物形質に関連付けられた配列情報に限定されてもよい。よって、形質固有データベースカタログに含まれる配列情報は、参照データベース(例えば、図5及び図6の参照データベース520)に含まれる配列情報のサブセットであってもよく、この参照データベースは生物のゲノムの同一性を含む参照データベース(例えば、GenBank(登録商標))であってもよい。
一部の実施形態において、工程S304で実行される確率論的な方法は、受け取った配列情報(例えば、配列情報ファイル108)内に含まれるフラグメントリード(例えば、アセンブルされないヌクレオチドフラグメントリード)を、第2の形質固有データベースカタログ内に含まれる第2の形質固有の参照配列情報と比較する工程を含んでもよい。一部の非限定的な実施形態において、工程S304の確率論的な方法において実行される確率論的な比較は、完全一致、サブシーケンスの一意性、パターン一致、n長内での複数サブシーケンス一致、曖昧一致、Seed−and−extend、距離測度、及び系統発生学上の樹状マッピングを含んでもよいが、これらには限定されない。非限定的な一実施形態において、工程S304で実行されるこの確率論的な方法は確率論的なマッチングを含んでもよい。
一部の実施形態において、工程S304で実行される確率論的な方法は、ベイズ的アプローチ、再帰的なベイズ的アプローチ、又は単純ベイズ的アプローチを用いてもよいが、工程S304で実行される確率論的な方法は、これらのアプローチのいずれにも限定されない。一部の実施形態において、工程S304で実行される確率論的な方法は、サンプル又は分離株内の生物材料において見出される可能性が高い第2の特定の生物形質の評価値を決定し、格付けする工程を含んでもよい。
一部の実施形態において、工程S304は、サンプル又は分離株内の一又は複数の第2の特定の生物形質の確率及び相対存在量を決定する工程を含んでもよい。例えば、非限定的な実施形態において、工程S304はサンプル又は分離株において見出される可能性が高い一又は複数の可動遺伝因子の確率及び相対存在量を決定する工程を含んでもよい。別の非限定的な実施形態において、工程S304はサンプル又は分離株において見出される可能性が高い一又は複数の系統発生学上の特性の確率及び相対存在量を決定する工程を含んでもよい。
参照により全体が本明細書に組み込まれる米国特許出願交換第2012/0004111号は、サンプル内の生物の同一性及び相対個体数の特性を決定するために用いることができる確率論的な方法を記述している。一部の非限定的な実施形態において、工程304で実行される確率論的な方法は、米国特許出願公開代2012/0004111号に記述される確率論的な方法のうちの一又は複数と同じものである。ただし、工程S304で実行される確率論的な方法は、受け取った配列情報を、生物のゲノムの同一性を含む参照データベースではなく、第2の形質固有のデータベースカタログに含まれる第2の形質固有の参照配列情報と比較するという点では異なる。その結果、これらの非限定的な実施形態において、工程S304で実行される確率論的な方法は、確率論的な方法を用いて、(生物の同一性及び相対個体数の特性を決定するのではなく)サンプル又は分離株内の生物のうちの一又は複数に関連付けられた一又は複数の第2の形質、又はサンプル又は分離株内の生物のうちの一又は複数に関連付けられた一又は複数の第2の形質の相対存在量の特性を決定(すなわち、判定)してもよい。しかしながら、工程S304で実行される確率論的な方法は、米国特許出願公開第2012/0004111号に記載されたものに限定されることはなく、その他の確率論的な方法を追加的に又は代替的に用いてもよい。
図3に示す実施形態において、確率論的なマッチング及び決定の工程(例えば、工程S302〜S304)は同時に実行されてもよい(すなわち、確率論的なマッチング及び決定の工程のうちの一又は複数は、他の確率論的なマッチング及び決定の工程のうちの一又は複数が実行されている間に実行されてもよい)。しかしながら、これは必須ではない。他の実施形態において、確率論的なマッチング及び決定の工程のうちの一又は複数は逐次実行されてもよい(すなわち、確率論的なマッチング及び決定の工程のうちの一又は複数は、他の確率論的なマッチング及び決定の工程のうちの一又は複数が実行された後に実行されてもよい)。
例えば、図4に示す処理400の実施形態は、サンプル又は分離株内の生物材料の特性を決定するために実行されてもよく、その中で確率論的なマッチング及び決定の工程のうちの一又は複数は逐次実行される。図4に示す実施形態において、確率論的な方法及び形質決定の工程(例えば、工程S302及び/又はS304)は、確率論的な方法及び形質決定の工程S303が完了した後に実行されてもよい。
図3及び図4にそれぞれ示される処理300及び処理400の実施形態は、各々確率論的な方法及び形質決定の工程を2つ含んでいる(例えば、工程S302及びS304)が、これは必須ではない。処理300及び処理400の一部の実施形態は、確率論的な方法及び形質決定の工程を1つ含んでもよい(例えば、工程S302を含み、工程S304を含まない)。処理300及び処理400の他の実施形態は、確率論的な方法及び形質決定の工程を3つ以上含んでもよい。例えば、処理300及び処理400の一部の実施形態は、確率論的な方法及び形質決定の工程を3つ、4つ、5つ、又はそれ以上有してもよく、これら確率論的な方法及び形質決定の工程の各々は異なる形質固有のデータベースカタログを用いてもよい。
図3及び図4にそれぞれ示す、サンプル又は分離株内の生物材料の特性を決定するための処理300及び処理400は、種々の実行手段を用いて実行されるが、サンプル又は分離株内の生物材料の特性を決定するために用いられてもよいコンパレータエンジンの2つの特定の非限定的な実施形態を、それぞれ図5及び図6を参照して以下に記述する。
第1のコンパレータエンジン500の前提は、生物の配列情報がワード単位に分解できること、及びこれらのワードのサブセットを用いて元の生物を同定できることである。高レベルにおいては、第1のコンパレータエンジン500は参照配列情報(例えば、形質固有のデータベースカタログに含まれかつ特定の生物形質に関連付けられた形質固有の参照配列情報、又は参照遺伝子データベースに含まれかつゲノムの同一性に関連付けられた参照配列情報、例えば、特定の種又は菌株)を取り込み、この参照配列情報からワードのライブラリを作成する。その後、サンプル又は分離株から取得した配列情報を分析するために、第1のコンパレータエンジン500はサンプル又は分離株から取得した配列情報を取り込み、この配列情報をワードリストに分解する。次に、第1のコンパレータエンジン500は、サンプル又は分離株から取得した配列情報からワードを取り込み、これらを参照配列情報から作成したライブラリ内のワードとマッチングする。その後、参照配列からのワードと一致する、サンプル又は分離株から取得した配列情報からのワードの数を各参照配列についてカウントすることによって、マッチしたものは集計される。この結果は、例えば、特定の形質又は遺伝子同一性と関連付けられる。
一部の実施形態において、第1のコンパレータエンジン500の各工程は処理装置102によって実行される。工程S501において、第1のコンパレータエンジン500は配列情報を受信する。配列情報は配列情報ファイル108の形態であってもよい。この配列情報は一又は複数の生物の遺伝物質を含むサンプル又は分離株から抽出されてもよい。一部の実施形態において、配列情報はフラグメントリードを含んでもよい。非制限的な実施形態において、このフラグメントリードはアセンブルされないフラグメントリードであってもよい(例えば、アセンブルされないヌクレオチドフラグメントリード)。
工程S502において、第1のコンパレータエンジン500は受信した配列情報の品質チェックを行ってもよい。受信した配列情報の品質が良いと判定された場合、第1のコンパレータエンジン500は工程S504に進んでもよい。しかしながら、受信した配列情報の品質が悪いと判定された場合、受信された配列情報は工程S503で修正された後、工程S504が実行される。一部の実施形態において、品質チェックは工程S502で実行される。それは、種々の下流の分析処理においてデータの品質が重要だからであり、それらの処理には配列アセンブリ、単一ヌクレオチド多形性同定、遺伝子発現研究、並びに細菌同定などがある。リードエラー(ベースコーリングエラー(base calling errors)及び少量の挿入/削除)、低品質のリード、及びプライマー/アダプター汚染はNGSデータにおいて一般的であり、下流の配列解析処理/分析に対して大きな影響を及ぼし得る。工程S503の品質チェック及びその後の修正によって、下流の分析の前にこれらの配列上のアーティファクト(artifact)を取り除き、誤った結論を減らすことができる。一部の実施形態において、配列解析プラットフォーム(例えば、配列解析装置212)に統合された受信配列情報ソフトウェアに割り当てられた品質スコアを用いて、品質チェックが行われてもよい非限定的な一実施形態においては、少なくともQ20の品質スコアを有するリード(reads)が含まれており、プライマーの端部をトリミングするソフトウェアが適用される。
工程S504において、第1のコンパレータエンジン500は受信した配列情報を圧縮してもよい。つまり、工程S504において、第1のコンパレータエンジン500は配列情報のデータサイズを低減してもよい。例えば、圧縮工程S504は不必要な情報を取り除いてもよい。
工程S502において、第1のコンパレータエンジン500は圧縮された配列情報を代替データセット(例えば、配列情報からのワードのリスト)に変換してもよい。非制限的な実施形態においては、工程S504において、第1のコンパレータエンジン500はワード探索/解析処理を実行してもよく、この処理は参照によって全体が本明細書に組み込まれる米国特許出願第2012/0004111号において、図15及び図16の工程S1502及び工程S1503を参照して記載されている。
工程S502において、第1のコンパレータエンジン500は参照データベース520に含まれる参照配列情報を圧縮してもよく、このデータベースは生物のゲノムの同一性を含んでいる。つまり、工程S506において、第1のコンパレータエンジン500は参照配列情報のデータサイズを低減してもよい。
工程S507において、第1のコンパレータエンジン500は圧縮された参照配列情報を代替データセット(例えば、参照配列情報からのワードのディクショナリのライブラリ。ここで、各ライブラリは特定のゲノムの同一性のワードを含む)に変換してもよい。非制限的な実施形態においては、工程S507において、第1のコンパレータエンジン500は物質カタログ化処理ワード探索/解析処理を実行してもよく、この処理は参照によって全体が本明細書に組み込まれる米国特許出願第2012/0004111号において、図14及び図16を参照して記載されている。
工程S508において、第1のコンパレータエンジン500は、サンプル又は分離株から取得した配列情報から工程S505で生成したワードを参照配列情報から工程S507で生成したワードと比較してもよい。一部の実施形態において、この比較は多対多の比較であってもよい。工程S509において、第1のコンパレータエンジン500は工程S508で同定したマッチしたもののマッチ評価値の決定を行ってもよい。一部の実施形態において、第1のコンパレータエンジン500はマッチ評価値テーブルを作成することによってマッチ評価値の決定を行ってもよい。一部の実施形態において、マッチ評価値の決定は、参照データベース内の参照配列情報を有する生物の各々について、当該生物の参照配列からのワードと一致する、サンプル又は分離株から取得された配列情報からのワードの数をカウントする工程を含んでもよい。工程S510において、第1のコンパレータエンジン500は、生物がサンプル又は分離株内に含まれる確率に従って、参照データベース520内の参照配列情報を有する生物を格付けしてもよい。非制限的な実施形態においては、工程S508〜S510において、第1のコンパレータエンジン500が実行する手続きは、参照によって全体が本明細書に組み込まれる米国特許出願第2012/0004111号の段落0180〜0182において、図15及の工程S1504及び工程S1505を参照して記載されている手続きであってもよい。
工程S511において、第1のコンパレータエンジン500は、参照データベース520内の参照配列情報を有する生物がサンプル又は分離株内に存在する確率を閾値と比較してもよい。一部の実施形態において、この確率が閾値よりも低い場合、第1のコンパレータエンジン500は、この生物を拒絶してもよい。一部の実施形態において、この確率が閾値よりも高い場合、第1のコンパレータエンジン500は、この生物をサンプル又は分離株に含まれるものとして受け入れてもよい。一実施形態において、この確率が閾値に近い場合、第1のコンパレータエンジン500は、この生物がサンプル又は分離株内に存在するか否かについて結果が未確定であると判定してもよい。
一部の実施形態において、第1のコンパレータエンジン500は確認工程S512を含んでもよい。工程S512において、第1のコンパレータエンジン500は代替アルゴリズムを用いて、受け入れられた生物を確認又は拒絶してもよいが、これは任意である。一実施形態において、確認工程S512は同定の信頼性又は確率値を用いて同定結果を生成する。一部の実施形態において、確認工程S512では、シグネチャ配列(例えば、核酸シグネチャ配列又はゲノム)のシグネチャ・データベース・カタログに対して、追加的に又は代替的に問い合わせを行ってもよい。一部の実施形態において、確認工程S512の有無は任意であり、又は第1のコンパレータエンジン500に含まれていなくてもよい。
工程S513において、第1のコンパレータエンジン500は形質固有データベースカタログ522内に含まれる特長固有の参照配列情報を圧縮してもよい。つまり、工程S513において、第1のコンパレータエンジン500は形質固有の参照配列情報のデータサイズを低減してもよい。
工程S514において、第1のコンパレータエンジン500は圧縮された形質固有の参照配列情報を代替データセット(例えば、形質固有の参照配列情報からのワードのディクショナリのライブラリ。ここで、各ライブラリは特定の形質のワードを含む)に変換してもよい。非制限的な実施形態においては、工程S514において、第1のコンパレータエンジン500は物質カタログ化処理ワード探索/解析処理を実行してもよく、この処理は参照によって全体が本明細書に組み込まれる米国特許出願第2012/0004111号において、図14及び図16を参照して記載されている。ただし、カテゴリ又はディクショナリが(各属、種、菌株ごとではなく)各形質ごとに作成される点は除く。
工程S515において、第1のコンパレータエンジン500は、サンプル又は分離株から取得した配列情報から工程S505で生成したワードを形質固有の参照配列情報から工程S514で生成したワードと比較してもよい。一部の実施形態において、この比較は多対多の比較であってもよい。工程S516において、第1のコンパレータエンジン500は工程S508で同定したマッチしたもののマッチ評価値の決定を行ってもよい。一部の実施形態において、第1のコンパレータエンジン500はマッチ評価値テーブルを作成することによってマッチ評価値の決定を行ってもよい。一部の実施形態において、マッチ評価値の決定は、形質固有のデータベースカタログ522内の形質固有の参照配列情報を有する形質の各々について、当該形質の形質固有の参照配列からのワードと一致する、サンプル又は分離株から取得された配列情報からのワードの数をカウントする工程を含んでもよい。工程S517において、第1のコンパレータエンジン500は、形質がサンプル又は分離株内に含まれる確率に従って、形質固有のデータベースカタログ522内の形質固有の参照配列情報を有する形質を格付けしてもよい。
非制限的な実施形態においては、工程S515〜S517において、第1のコンパレータエンジン500が実行する手続きは、参照によって全体が本明細書に組み込まれる米国特許出願第2012/0004111号の段落0180〜0182において、図15及の工程S1504及び工程S1505を参照して記載されている手続きであってもよい。ただし、マッチしたものは既知の実体(すなわち、生物の種又は菌株)ではなく既知の形質に対してマッチしたものである点は除く。
工程S518において、第1のコンパレータエンジン500は、形質固有のデータベースカタログ522内の形質固有の参照配列情報を有する形質がサンプル又は分離株内に存在する確率を閾値と比較してもよい。一部の実施形態において、この確率が閾値よりも低い場合、第1のコンパレータエンジン500は、この形質を拒絶してもよい。一部の実施形態において、この確率が閾値よりも高い場合、第1のコンパレータエンジン500は、この形質をサンプル又は分離株に含まれるものとして受け入れてもよい。一実施形態において、この確率が閾値に近い場合、第1のコンパレータエンジン500は、この形質がサンプル又は分離株内に存在するか否かについて結果が未確定であると判定してもよい。
一部の実施形態において、第1のコンパレータエンジン500は確認工程S519を含んでもよい。工程S519において、第1のコンパレータエンジン500は代替アルゴリズムを用いて、受け入れられた形質を確認又は拒絶してもよいが、これは任意である。一実施形態において、確認工程S512は同定の信頼性又は確率値を用いて同定結果を生成する。一部の実施形態において、確認工程S519では、シグネチャ配列(例えば、核酸シグネチャ配列又はゲノム)のシグネチャ・データベース・カタログに対して、追加的に又は代替的に問い合わせを行ってもよい。一部の実施形態において、確認工程S519の有無は任意であり、又は第1のコンパレータエンジン500に含まれていなくてもよい。
一部の実施形態において、第1のコンパレータエンジン500はDNAシーケンサーから取得した未処理のリードに基づいてアセンブリを伴わないかつアライメントを伴わないデータ分析を実行してもよく、また参照ゲノムデータベース及び/又は形質固有のデータベースカタログ内の参照配列情報からワードライブラリを作成してもよい。種々の実施形態において、第1のコンパレータエンジン500はウェブベースのアプリケーションツールであってもよく、またいくつかのパスワード保護を有してもよい。一部の実施形態において、第1のコンパレータエンジン500はCLCゲノムワークベンチに統合されてもよく、複数の権利レベルでユーザアカウントを管理してもよく、fasta、fastq、及びqseq入力フォーマットに対応してもよく、ウェブブラウザ及びftpを介してデータファイルをアップロードしてもよく、及び/又はユーザが参照データベースを作成及び更新することを可能にしてもよい。一部の実施形態において、第1のコンパレータエンジン500はユーザが複数のジョブを投入することを可能にしてもよく、データを処理しマッチング評価値を生成するための特許により保護されたアルゴリズムを有してもよく、処理された実験のリストを表示してもよく、アップロードされたデータファイル内で同定されたゲノムの格付け評価値を表示してもよく、及び/又はユーザが格付け評価値をソート及びフィルタリングすることを可能にする。
病原体同定の従来の臨床診療において、一般には、表現型及び遺伝子型という2種類のアプローチがある。コロニーの特性によって病原体を判定する手法は、数日間待つ必要があり、また培養できない病原体には適用できない。
遺伝子型のアプローチは主に3つの方法に分類できる。それらは、DNA横縞模様、DNAハイブリダイゼーション、及びDNA配列解析である。DNA横縞模様法は、有効に作用する増幅又は/及び制限酵素によっては、時間と手間を要するものであり、高品質なDNAを必要とし、再現性及び類似のサイズの横縞を区別するための分解能に欠けている。DNAハイブリダイゼーションベースの方法(例えば、マイクロアレイ)にはクロスハイブリダイゼーション及び低再現性の問題がある。DNA配列解析ベースの方法は選択遺伝子又はゲノムの一部分のみの配列を解析し、また密接に関連した菌株、さらには種又はゲノム全体を区別することができないことがある。DNA配列解析ベースのアプローチは、サンプル内に存在する細菌の特性を決定するための、培養を必要としない方法である。
数千もの配列解析された細菌のゲノム及び現代の高速配列解析技術が使えることにより、ゲノム配列の混合物内で病原体をリアルタイムで同定することが可能になる。従来のメタゲノムベースの方法は一般的に、参照ゲノムに対してショートリードを整列し、その後マッチしたものを集めるか、またはショートリード内の特定のゲノムの一意の形質を探索する、という工程に基づいている。長さが短いため、多くのリードが1を超える数の参照ゲノムに合わせて整列される。リードの長さが短いことにより、ショートリード内で一意の形質を発見することも難しくなる。ある範囲で一意の形質であっても、この形質は範囲を拡大したときにはもはや一意ではないかもしれない。これらの従来の方法によって、それらのリードの多くは無視されてそれ以上用いられることがない。例えば、Qinらによって2010年に出版されたヒトの内蔵分析においては、参照ゲノムデータベース内でリードがまったく見つからないか又は見つかるリードが多すぎるため、データのほぼ半分が利用されていない。さらに、短時間で(例えば、1時間以内で)膨大な量のNext−Gen配列解析データを処理及び分析することは大きな問題である。
図6は第2のコンパレータエンジン600の非限定的な実施形態を示す。この第2のコンパレータエンジンは、サンプル又は分離株内の生物材料の特性を決定するために用いられてもよい。第2のコンパレータエンジン600は上記の問題の解決を意図しており、非限定的な実施形態においては、メタゲノムデータ内の異なる菌株間でも病原体を2、3分以内で区別できるように構成されている。一実施形態において、第2のコンパレータエンジン600はヌクレオチドの一つ一つを考慮に入れ、データを除外することがない。他の実施形態において、第2のコンパレータエンジン600はn量体プロファイルを生成し、使用可能な参照ゲノムの各々についてこのn量体をハッシュする(G(i), i〜l...k、ここでkは参照ゲノムの数)。nはユーザが決定するパラメータである。n量体プロファイルG(i)はメタゲノムサンプル又は分離株を調査するために用いられてもよく、対応する分布S(i)が生成される。統計データ閾値化法を用いて閾値を計算してもよい。第2のコンパレータエンジン600は、プロファイル評価値が閾値を超えるすべての病原体を、サンプル又は分離株内に顕著に存在するものとして指定してもよい。
一部の実施形態において、第2のコンパレータエンジン600の各工程は処理装置102によって実行される。工程S601において、第2のコンパレータエンジン600は配列情報を受信する。配列情報は配列情報ファイル108の形態であってもよい。この配列情報は一又は複数の生物の遺伝物質を含むサンプル又は分離株から抽出されてもよい。一部の実施形態において、配列情報はフラグメントリードを含んでもよい。非制限的な実施形態において、このフラグメントリードはアセンブルされないフラグメントリードであってもよい(例えば、アセンブルされないヌクレオチドフラグメントリード)。
工程S602において、第2のコンパレータエンジン600は受信した配列情報を準備してもよい。一部の実施形態において、第2のコンパレータエンジン600は受信した配列情報を圧縮することによって受信した配列情報を準備してもよい。
工程S603において、第2のコンパレータエンジン600はサンプル又は分離株のハッシュテーブルを作成してもよい。一部の実施形態において、このハッシュテーブルは受信した配列情報の各フラグメントリードから取得したシード(すなわた、タグ付けされたn量体)を追加することによって作成されてもよい。一実施形態において、シードすなわちタグ付けされたn量体は、m個のベースペアの特定の配列のインスタンスであるアンカーと会合する(すなわち、隣接する、後続する、または先行する)長さのn個のベースペアの配列(例えば、ヌクレオチド配列)である。これらの実施形態において、受信した配列情報から取得したフラグメントリード内に見られるアンカー(すなわち、m個のベースペアの特定の配列)のインスタンスごとに、シードすなわちタグ付けされたn量体(すなわち、m個のベースペアの特定の配列のインスタンスと会合するn個のベースペアの配列)がサンプル又は分離株のハッシュテーブルに加えられる。
一部の実施形態において、ユーザはアンカーの長さm及び/又はシードもしくはタグ付けされたn量体の配列の長さnを指定してもよい。一部の実施形態において、mは長さが2個以上8個以下のベースペアであってもよい。一実施形態において、mは3と等しくてもよい。m=3である非限定的実施形態において、アンカーはATGの配列であってもよい。一部の実施形態において、nは長さが9個以上20個以下のベースペアであってもよい。一実施形態において、nは13個のベースペアと等しくてもよい。
工程S604において、第2のコンパレータエンジン600は参照データベース520に含まれる参照配列情報を準備してもよく、このデータベースは生物のゲノムの同一性を含んでいる。一部の実施形態(例えば、データがプロセッサから離れた場所にある実施形態)において、第2のコンパレータエンジン600は参照配列情報を圧縮することによって参照配列情報を準備してもよい。
工程S605において、第2のコンパレータエンジン600は参照ハッシュテーブルを作成してもよい。一部の実施形態において、この参照ハッシュテーブルは参照配列情報の各フラグメントリードから取得したシード(すなわた、タグ付けされたn量体)を追加することによって作成されてもよい。一実施形態において、シードすなわちタグ付けされたn量体は、m個のベースペアの特定の配列のインスタンスであるアンカーと会合する(すなわち、隣接する、後続する、または先行する)長さのn個のベースペアの配列(例えば、ヌクレオチド配列)である。これらの実施形態において、参照配列情報から取得したフラグメントリード内に見られるアンカー(すなわち、m個のベースペアの特定の配列)のインスタンスごとに、シードすなわちタグ付けされたn量体(すなわち、m個のベースペアの特定の配列のインスタンスと会合するn個のベースペアの配列)が参照ハッシュテーブルに加えられる。
工程S606において、第2のコンパレータエンジン600は、サンプル又は分離株ハッシュテーブルから取得したシード(すなわち、タグ付けされたn量体)と参照ハッシュテーブルのシード(なわち、タグ付けされたn量体)との間でマッチング評価値を算出してもよい。一部の実施形態において、マッチング評価値は編集距離に基づいてもよい。一部の実施形態において、マッチングはシードで始まり、その後両方向に拡大してユーザが指定した閾値又は配列情報の終端にに到達するまで行われる。
工程S607において、第2のコンパレータエンジン600は参照データベース520内の各々の生物について累積的な評価値及びn量体の度数分布を算出してもよい。工程S608において、第2のコンパレータエンジン600はサンプル又は分離株内に存在する可能性が高い一又は複数の生物を同定する同定出力を生成してもよい。一部の実施形態において、工程S608で生成された同定出力はケプラー出力であってもよい。
工程S609において、第2のコンパレータエンジン600は参照データベース520内の指定された参照生物について、タグ付けされたn量体の逆索引を作成してもよい。一部の実施形態において、逆索引の作成は上記の高評価値ゲノムのサブセットのパターン集合に基づいてもよく、曖昧性のさらなる除去を実現してもよい。工程S601において、第2のコンパレータエンジン600はパターン一致評価値を算出してもよい。工程S611において、第2のコンパレータエンジン600はサンプル又は分離株内に存在する可能性が高い一又は複数の生物を同定する追加の同定出力を生成してもよい。一部の実施形態において、工程S611で生成された追加の同定出力はクエーサー出力であってもよい。
工程S612において、第2のコンパレータエンジン600は形質固有データベースカタログ522内に含まれる特長固有の参照配列情報を準備してもよい。一部の実施形態において、第2のコンパレータエンジン600は形質固有の参照配列情報を圧縮することによって形質固有の参照配列情報を準備してもよい。
工程S613において、第2のコンパレータエンジン600は形質ハッシュテーブルを作成してもよい。一部の実施形態において、この形質ハッシュテーブルは形質固有の参照配列情報の各フラグメントリードから取得したシード(すなわた、タグ付けされたn量体)を追加することによって作成されてもよい。一実施形態において、シードすなわちタグ付けされたn量体は、m個のベースペアの特定の配列のインスタンスであるアンカーと会合する(すなわち、隣接する、後続する、または先行する)長さのn個のベースペアの配列(例えば、ヌクレオチド配列)である。これらの実施形態において、形質固有の参照配列情報から取得したフラグメントリード内に見られるアンカー(すなわち、m個のベースペアの特定の配列)のインスタンスごとに、シードすなわちタグ付けされたn量体(すなわち、m個のベースペアの特定の配列のインスタンスと会合するn個のベースペアの配列)が形質ハッシュテーブルに加えられる。
工程S614において、第2のコンパレータエンジン600は、サンプル又は分離株ハッシュテーブルから取得したシード(すなわち、タグ付けされたn量体)と形質ハッシュテーブルのシード(なわち、タグ付けされたn量体)との間でマッチング評価値を算出してもよい。一部の実施形態において、マッチング評価値は編集距離に基づいてもよい。一部の実施形態において、マッチングはシードで始まり、その後両方向に拡大してユーザが指定した閾値又は配列情報の終端にに到達するまで行われる。
工程S615において、第2のコンパレータエンジン600は形質固有データベースカタログ522内の各々の形質について累積的な評価値及びn量体の度数分布を算出してもよい。工程S616において、第2のコンパレータエンジン600はサンプル又は分離株内に存在する可能性が高い一又は複数の形質を同定する形質出力を生成してもよい。一部の実施形態において、工程S616で生成された形質出力はケプラー出力であってもよい。
工程S617において、第2のコンパレータエンジン600は形質固有データベースカタログ522内の指定された参照形質について、タグ付けされたn量体の逆索引を作成してもよい。一部の実施形態において、逆索引の作成は上記の高評価値形質のサブセットのパターン集合に基づいてもよく、曖昧性のさらなる除去を実現してもよい。工程S618において、第2のコンパレータエンジン600はパターン一致評価値を算出してもよい。工程S619において、第2のコンパレータエンジン600はサンプル又は分離株内に存在する可能性が高い一又は複数の生物の一又は複数の形質を同定する追加の形質出力を生成してもよい。一部の実施形態において、工程S619で生成された追加の形質出力はクエーサー出力であってもよい。
一部の実施形態において、第2のコンパレータエンジン600はデータを圧縮及び記憶してもよく、またサイズの大きいファイル(ギガバイト以上)を通常のラップトップ型コンピュータ内で処理できる。一部の実施形態において、第2のコンパレータエンジン600は効率的なアルゴリズムを用いて極めて高いパフォーマンスでデータの比較を行ってもよい。一部の実施形態において、第2のコンパレータエンジン600は統計的アルゴリズムを用いてサンプル内に存在する重要なゲノムを確率的に取り除いてもよい。
本発明の特定の実施形態において、特性の決定は種及び/又は亜種又は菌株のレベルで特有のものであり、メタゲノムフラグメントリードからのアセンブルされていない配列解析情報を一又は複数のゲノム同一性データベースの配列解析情報と比較して細菌の菌種を同定及び区別する確率論的なマッチング方法を利用する。
本発明の特定の実施形態は、一又は複数の微生物を含むメタゲノムサンプル内の生物の固有の表現型特性を決定するためのシステム及び方法に関する。より具体的には、一部の実施形態において、固有のゲノムを含む参照データベースカタログと対照してサンプルのメタゲノム分析に適用される処理と類似の処理は、指定された特性又は表現型に適用されてもよく、また当該指定された特性又は表現型がサンプル内に存在するか否かについて、検出、確率論的な格付け及び評価値の決定を可能にする。
例えば、一実施形態において、データベースカタログが可動遺伝因子(すなわち、特定の細菌の属及び種に関連付けられるファージ及び病原性島などのモビローム)からなる場合、本発明の方法の実施形態に従う処理を用いて、メタゲノムサンプル内のそのようなモビロームの確率及び相対存在量を同定してもよい。
本発明の一部の実施形態によれば、バクテリア、ウイルス、寄生生物、真菌類、又はプラスミド及び可動遺伝因子を含む核酸フラグメントの特定の分類単位(例えば、属、種、亜種、及び/又は菌株)について、所与のサンプル内の細胞個体数の正確な決定が可能である。本発明の一部の実施形態によれば、サンプル内に存在する生物を事前に知らなくても、1回の試験で当該サンプル内の複数の生物を同時に同定することが可能である。本発明の一部の実施形態は、医療、農業、及び工業用の用途のために、非常に類似した又は相互に関係を有する種、亜種、及び菌株を区別してもよく、また細菌を同定することもできる。
本発明の一部の実施形態は、種及び/又は亜種又は菌株のレベルで、細菌、菌類、及びウイルスのバックグラウンドの細菌個体数を迅速に決定してもよい。本発明の一部の実施形態は、結果をバックグラウンドの個体数に対して正規化することにより、感染症又は細菌汚染の原因となる病原体を診断してもよい。現在の方法はこれを行う能力が欠けている。例えば、食料科学においては、微生物のバックグラウンドに対する相対的な比較は、亜種及び/又は菌株のレベルまで用いられ、それによって食料汚染の原因と病原性の程度を決定してもよい。
本発明の一部の実施形態は30分未満で結果を生成してもよい。本発明の一部の実施形態は、配列解析機から取得した核酸フラグメント配列データを用いてもよく、この場合最初に当該フラグメントデータを連続的なセグメント(コンティグ)又は全ゲノムにアセンブル必要はない。
本発明の一部の実施形態は、細菌の配列が参照データベースに存在しない場合、最も近似する配列を同定し、その系統発生の範囲内で当該未知の配列の位置を特定することが可能になる。分離株の場合、参照データベースが最も近似する配列とアセンブルされた全ゲノムを含んでいるとすると、このやり方によって未知の配列の性質を正確に示すことができる可能性がある。
本発明の一部の実施形態は、一又は複数の核酸「シグネチャ」配列又はゲノムの特定のデータベースカタログに問い合わせて、対象の具体的な形質又は表現型の存在を確認してもよい。これらの形質又は表現型には、耐抗生物質の形質、病原性の形質、バイオテロ・エージェント・マーカー、生化学的形質等が含まれるが、これらには限定されない。
本発明の一部の実施形態では、メタゲノムサンプルにおいて病原体の個体数、毒性(又は適合性)因子、及び耐抗生物質の決定因子を同時に同定することによって、医療診断用の検査を実現してもよく、これは感染症の個人向け治療に用いられてもよい。
本発明の一部の実施形態を用いて、特定の表現型特性についてアセンブルされていないリードの分離サンプルを検査し、また臨床対象の特定の特性を含むデータベースカタログを提供してもよい。これらの実施形態は、例えば、人の同一性、癌検査、及び一又は複数のゲノムの定義されたカタログに関連付けられた特定の疾病のための疾病検査などの用途に用いられてもよい。
本発明の一部の実施形態は、一又は複数の核酸「シグネチャ」配列又はゲノムの特定のデータベースカタログに問い合わせて、分解能及び亜種レベルの同定を向上させ、また各ゲノムの高度な重複を有する種を区別してもよい。
本発明の一部の実施形態において、確率論的な方法はアセンブルされていないヌクレオチドフラグメントリードを参照データベース内に含まれる参照配列情報から生成される一又は複数の配列ライブラリ内の配列と比較し、異なる分類学上のレベルで他の細菌に混じって保存される近傍の配列から生成される非一意の配列の発生及び分布とともに、一意の配列をゲノム全体にわたって同定してもよい。
本発明の一部の実施形態において、確率論的な方法によって同定される一意の配列に隣接して、他の細菌内で見られる保存された配列があり、これによってさらに細菌同士を少なくとも種のレベルで区別している。例えば、非限定的な一実施形態において、確率論的な方法は両方の保存された配列及びその近傍から特定の配列を(例えば、保存された配列の50〜5000ベースペアの距離の範囲内で)同定する。一部の実施形態において、一意の配列及び/又は隣接した保存された配列は一意のk量体及び/又はワードであってもよい。非制限的な実施形態において、一意のk量体及び/又はワードは図5及び6に示す処理によって同定されてもよい。さらに、特定の非限定的な実施形態では、一意の配列及びそれに隣接する保存された配列を用いて、密接に関連する同一種の病原型を同定及び区別する。例えば、このような非限定的な一実施形態では、一意の配列及びそれに隣接する保存された配列を用いて大腸菌の8つの菌株を区別する。これらの菌株はすなわち、0157:H7、0104:H4、026、045、0103、0111、0121、及び0145である。例えば、一意の配列の同定によって、特定の血清型又は病原型の同定が可能になってもよいが、一方で一意及び非一意の配列の両方の分布は一又は複数の血清型の特定のパターンを提供してもよく、これにより病原型又は血清型を同定又は互いに区別してもよい。
本発明の実施形態は、以上において図面を参照して十分に説明された。これらの好適な実施形態に基づいて本発明を説明したが、当業者であれば、本発明の趣旨や範囲から逸脱することなく変更、改変、代替構成をなしえることが明白であろう。
例えば、核酸に焦点に当てた例を上述したが、当業者であれば本発明のシステム及び方法は、タンパク質中のアミノ酸配列などの配列の性質を有する他の物質に適用できることが理解できるであろう。

Claims (75)

  1. 生物の遺伝物質を含むサンプルから抽出した配列情報に基づいて当該生物の特性を決定する方法であって、
    (a)プロセッサ及びメモリを含む処理装置によって、前記サンプルから抽出された前記配列情報を受信する工程であって、前記配列情報はアセンブルされていないヌクレオチドフラグメントリードを含む工程と、
    (b)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを形質固有のデータベースカタログ内に含まれる形質固有の参照配列情報と比較し、確率論的な形質の結果を生成する確率論的な方法を実行する工程と、
    (c)前記処理装置によって、前記確率論的な形質の結果を用いて前記生物と関連付けられる一又は複数の形質を決定する工程と、
    を含む方法。
  2. (d)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを、生物のゲノムの同一性を含む参照データベース内に含まれる参照配列情報と比較し、確率論的な同一性の結果を生成する確率論的な方法を実行する工程と、
    (e)前記処理装置によって、前記確率論的な同一性の結果を用いて前記サンプル内に含まれる前記生物の同一性を少なくとも種レベルで決定する工程と、
    をさらに備える請求項1記載の方法。
  3. 前記参照データベース内に含まれる前記参照配列情報が、アセンブルされた又は部分的にアセンブルされた配列情報である、請求項2に記載の方法。
  4. 前記生物は微生物であり、前記参照データベースは細菌の全ゲノムデータベースを含む、請求項2に記載の方法。
  5. 前記処理装置によって、前記確率論的な同一性の結果を用いて前記サンプル内に含まれる前記生物の同一性を亜種レベルで決定する工程をさらに含む、請求項2の方法。
  6. 前記処理装置によって、前記確率論的な同一性の結果を用いて前記サンプル内に含まれる前記生物の同一性を菌株レベルで決定する工程をさらに含む、請求項2の方法。
  7. 工程(b)及び(c)が実行される間に工程(d)及び(e)が実行される、請求項2に記載の方法。
  8. 工程(d)及び(e)が実行された後に工程(b)及び(c)が実行される、請求項2に記載の方法。
  9. 前記同定された生物の種、及び/又は亜種、及び/又は菌株の相対個体数又は存在量の特性を決定する工程をさらに含む、請求項2に記載の方法。
  10. 工程(b)及び(d)の前記確率論的な方法が確率論的なマッチングを含む、請求項2に記載の方法。
  11. 前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報が、前記参照データベースに含まれる前記参照配列情報のサブセットである、請求項2に記載の方法。
  12. 前記アセンブルされていないヌクレオチドフラグメントリードから抽出したワード又はn量体を用いてサンプル配列ライブラリを作成する工程と、
    前記参照配列情報から抽出したワード又はn量体を用いて参照配列ライブラリを作成する工程と、
    をさらに含み、
    前記確率論的な方法は、前記サンプル配列ライブラリのワード又はn量体を前記参照配列ライブラリのワード又はn量体と比較することによって、前記アセンブルされていないヌクレオチドフラグメントリードを前記参照配列情報と比較する、請求項2に記載の方法。
  13. 前記アセンブルされていないヌクレオチドフラグメントリードから抽出したワード又はn量体を用いてサンプル配列ライブラリを作成する工程と、
    前記形質固有の参照配列情報から抽出したワード又はn量体を用いて形質固有の配列ライブラリを作成する工程と、
    をさらに含み、
    前記確率論的な方法は、前記サンプル配列ライブラリのワード又はn量体を前記形質固有の配列ライブラリのワード又はn量体と比較することによって、前記アセンブルされていないヌクレオチドフラグメントリードを前記形質固有のデータベースカタログ内に含まれる形質固有の参照配列情報と比較する、請求項1記載の方法。
  14. 形質固有の配列ライブラリは前記形質固有の参照配列情報から取得したワードのディクショナリのライブラリであり、各ディクショナリは特定の形質に対してワードを含んでいる、請求項13に記載の方法。
  15. 前記サンプル配列ライブラリはサンプル配列ハッシュテーブルであり、前記形質固有の配列ライブラリは形質固有のハッシュテーブルである、請求項13に記載の方法。
  16. 前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報が、特定の生物形質に関連付けられた閉じたゲノム、ドラフトゲノム、コンティグ、及び/又はショートリードである、請求項1に記載の方法。
  17. 前記特定の生物形質は耐抗生物質の形質、病原性の形質、バイオテロ・エージェント・マーカー、又は生化学的形質である、請求項16に記載の方法。
  18. 工程(c)が前記サンプル内で見られる可能性が高い生物形質の評価値を決定し格付けする工程を含む、請求項1に記載の方法。
  19. 前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報が、一又は複数の可動遺伝因子の配列情報からなる、請求項1に記載の方法。
  20. 前記一又は複数の可動遺伝因子が、特定の微生物の属又は種に関連付けられたファージ又は病原性島からなる、請求項19に記載の方法。
  21. 工程(c)では前記一又は複数の可動遺伝因子の確率及び相対存在量を決定する、請求項19に記載の方法。
  22. 前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報が、特定の表現型特性に関連付けられる配列情報からなる、請求項1に記載の方法。
  23. 工程(e)が前記サンプル内で見られる可能性が高い特定の表現型特性の評価値を決定し及び格付けする工程を含む請求項22に記載の方法。
  24. 前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報が、対象の特定の形質又は表現型の存在を確認するシグネチャ配列又はゲノム配列からなる、請求項1に記載の方法。
  25. (f)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを第2の形質固有のデータベースカタログ内に含まれる第2の形質固有の参照配列情報と比較し、第2の確率論的な形質の結果を生成する確率論的なマッチングを実行する工程と、
    (g)前記処理装置によって、前記第2の確率論的な形質の結果を用いて前記生物と関連付けられる一又は複数の第2の形質を決定する工程と、
    をさらに含み、
    前記一又は複数の形質は前記一又は複数の第2の形質と異なる、請求項1に記載の方法。
  26. 工程(b)及び(c)が実行される間に工程(f)及び(g)が実行される、請求項25に記載の方法。
  27. 工程(b)の前記確率論的な方法が確率論的なマッチングを含む、請求項1に記載の方法。
  28. 前記サンプルがメタゲノムサンプルである、請求項1に記載の方法。
  29. (d)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを、生物のゲノムの同一性を含む参照データベース内に含まれる参照配列情報と比較し、確率論的な同一性の結果を生成する確率論的な方法を実行する工程と、
    (e1)前記サンプル内に含まれかつ前記参照データベース内に含まれる生物について、前記処理装置によって、前記確率論的な同一性の結果を用いて前記サンプル内に含まれかつ前記参照データベース内に含まれる前記生物の同一性を少なくとも種レベルで決定する工程と、
    (e2)前記サンプル内に含まれかつ前記参照データベース内に含まれない生物について、前記処理装置によって、前記サンプル内に含まれる生物に最も近似する前記参照データベース内に含まれる生物の同一性を決定する工程と、
    をさらに含む、請求項1に記載の方法。
  30. 生物の遺伝物質を含むサンプルから抽出した配列情報に基づいて当該生物の特性を決定する装置であって、当該装置はプロセッサ及びメモリを含む処理装置を備え、当該処理装置は、
    (a)前記サンプルから抽出された前記配列情報を受信し、前記配列情報はアセンブルされていないヌクレオチドフラグメントリードを含み、(b)前記アセンブルされていないヌクレオチドフラグメントリードを形質固有のデータベースカタログ内に含まれる形質固有の参照配列情報と比較し、確率論的な形質の結果を生成する確率論的なマッチングを実行し、
    (c)前記確率論的な形質の結果を用いて前記生物と関連付けられる一又は複数の形質を決定する、
    ように構成された、装置。
  31. 前記処理装置はさらに、
    (d)前記アセンブルされていないヌクレオチドフラグメントリードを、生物のゲノムの同一性を含む参照データベース内に含まれる参照配列情報と比較し、確率論的な同一性の結果を生成する確率論的な方法を実行し、
    (e)前記確率論的な同一性の結果を用いて前記生物の同一性を少なくとも種レベルで決定する、
    ように構成された、請求項26に記載の装置。
  32. 前記処理装置はさらに、
    前記アセンブルされていないヌクレオチドフラグメントリードから抽出したワード又はn量体を用いてサンプル配列ライブラリを作成し、
    前記参照配列情報から抽出したワード又はn量体を用いて参照配列ライブラリを作成する、
    ように構成され、
    前記確率論的な方法は、前記サンプル配列ライブラリのワード又はn量体を前記参照配列ライブラリのワード又はn量体と比較することによって、前記アセンブルされていないヌクレオチドフラグメントリードを前記参照配列情報と比較する、請求項31に記載の装置。
  33. 前記処理装置はさらに、
    前記アセンブルされていないヌクレオチドフラグメントリードから抽出したワード又はn量体を用いてサンプル配列ライブラリを作成し、
    前記形質固有の参照配列情報から抽出したワード又はn量体を用いて形質固有の配列ライブラリを作成する
    ように構成され、
    前記確率論的な方法は、前記サンプル配列ライブラリのワード又はn量体を前記形質固有の配列ライブラリのワード又はn量体と比較することによって、前記アセンブルされていないヌクレオチドフラグメントリードを前記形質固有のデータベースカタログ内に含まれる形質固有の参照配列情報と比較する、請求項31に記載の装置。
  34. 形質固有の配列ライブラリは前記形質固有の参照配列情報から取得したワードのディクショナリのライブラリであり、各ディクショナリは特定の形質に対してワードを含んでいる、請求項33に記載の装置。
  35. 前記サンプル配列ライブラリはサンプル配列ハッシュテーブルであり、前記形質固有配列ライブラリは形質固有ハッシュテーブルである、請求項33に記載の装置。
  36. 前記処理装置はさらに、
    (f)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを第2の形質固有のデータベースカタログ内に含まれる第2の形質固有の参照配列情報と比較し、第2の確率論的な形質の結果を生成する確率論的なマッチングを実行し、
    (g)前記処理装置によって、前記第2の確率論的な形質の結果を用いて前記生物と関連付けられる一又は複数の第2の形質を決定する
    ように構成され、
    前記一又は複数の形質は前記一又は複数の第2の形質と異なる、請求項30に記載の装置。
  37. 前記処理装置はさらに、
    (d)前記アセンブルされていないヌクレオチドフラグメントリードを、生物のゲノムの同一性を含む参照データベース内に含まれる参照配列情報と比較し、確率論的な同一性の結果を生成する確率論的な方法を実行し、
    (e1)前記サンプル内に含まれかつ前記参照データベース内に含まれる生物について、前記確率論的な同一性の結果を用いて前記サンプル内に含まれかつ前記参照データベース内に含まれる前記生物の同一性を少なくとも種レベルで決定し、
    (e2)前記サンプル内に含まれかつ前記参照データベース内に含まれない生物について、前記サンプル内に含まれる生物に最も近似する前記参照データベース内に含まれる生物の同一性を決定する
    ように構成された、請求項30に記載の装置。
  38. 生物の遺伝物質を含む分離株から抽出した配列情報に基づいて当該生物の特性を決定する方法であって、
    (a)プロセッサ及びメモリを含む処理装置によって、前記分離株から抽出された前記配列情報を受信する工程であって、前記配列情報はアセンブルされていないヌクレオチドフラグメントリードを含む工程と、
    (b)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを形質固有のデータベースカタログ内に含まれる形質固有の参照配列情報と比較し、確率論的な形質の結果を生成する確率論的なマッチングを実行する工程と、
    (c)前記処理装置によって、前記確率論的な形質の結果を用いて前記生物と関連付けられる一又は複数の形質を決定する工程と、
    を含む方法。
  39. (b)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを、生物のゲノムの同一性を含む参照データベース内に含まれる参照配列情報と比較し、確率論的な同一性の結果を生成する確率論的な方法を実行する工程と、
    (e)前記処理装置によって、前記確率論的な同一性の結果を用いて前記分離株内に含まれる前記生物の同一性を少なくとも種レベルで決定する工程と、
    をさらに含む請求項38に記載の方法。
  40. 前記参照データベース内に含まれる前記参照配列情報が、アセンブルされた又は部分的にアセンブルされた配列情報である、請求項39に記載の方法。
  41. 前記生物は微生物であり、前記参照データベースは細菌の全ゲノムデータベースを含む、請求項39に記載の方法。
  42. 前記処理装置によって、前記確率論的な同一性の結果を用いて前記生物の同一性を亜種レベルで決定する工程をさらに含む、請求項39の方法。
  43. 前記処理装置によって、前記確率論的な同一性の結果を用いて前記生物の同一性を菌株レベルで決定する工程をさらに含む、請求項39の方法。
  44. 工程(b)及び(c)が実行される間に工程(d)及び(e)が実行される、請求項39に記載の方法。
  45. 工程(d)及び(e)が実行された後に工程(b)及び(c)が実行される、請求項39に記載の方法。
  46. 工程(b)及び(d)の前記確率論的な方法が確率論的なマッチングを含む、請求項39に記載の方法。
  47. 前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報が、前記参照データベースに含まれる参照配列情報のサブセットである、請求項39に記載の方法。
  48. 前記アセンブルされていないヌクレオチドフラグメントリードから抽出したワード又はn量体を用いてサンプル配列ライブラリを作成する工程と、
    前記参照配列情報から抽出したワード又はn量体を用いて参照配列ライブラリを作成する工程と、
    をさらに含み
    前記確率論的な方法は、前記サンプル配列ライブラリのワード又はn量体を前記参照配列ライブラリのワード又はn量体と比較することによって、前記アセンブルされていないヌクレオチドフラグメントリードを前記参照配列情報と比較する、請求項39に記載の方法。
  49. 前記アセンブルされていないヌクレオチドフラグメントリードから抽出したワード又はn量体を用いてサンプル配列ライブラリを作成する工程と、
    前記形質固有の参照配列情報から抽出したワード又はn量体を用いて形質固有の配列ライブラリを作成する工程と、
    をさらに含み、
    前記確率論的な方法は、前記サンプル配列ライブラリのワード又はn量体を前記形質固有の配列ライブラリのワード又はn量体と比較することによって、前記アセンブルされていないヌクレオチドフラグメントリードを前記形質固有のデータベースカタログ内に含まれる形質固有の参照配列情報と比較する、請求項38に記載の方法。
  50. 形質固有の配列ライブラリは前記形質固有の参照配列情報から取得したワードのディクショナリのライブラリであり、各ディクショナリは特定の形質に対してワードを含んでいる、請求項49に記載の方法。
  51. 前記サンプル配列ライブラリはサンプル配列ハッシュテーブルであり、前記形質固有配列ライブラリは形質固有ハッシュテーブルである、請求項49に記載の方法。
  52. 前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報が、特定の生物形質及び/又は一又は複数のメタゲノムサンプルに関連付けられた閉じたゲノム、ドラフトゲノム、コンティグ、及び/又はショートリードである、請求項38に記載の方法。
  53. 前記特定の生物形質は耐抗生物質の形質、病原性の形質、バイオテロ・エージェント・マーカー、又は生化学的形質である、請求項48に記載の方法。
  54. 前記特定の生物形質はヒトの同一性形質、癌罹患性形質、又は疾病形質である、請求項48に記載の方法。
  55. 前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報が、一又は複数の可動遺伝因子の配列情報からなる、請求項38に記載の方法。
  56. 前記一又は複数の可動遺伝因子が、特定の微生物の属又は種に関連付けられたファージ又は病原性島からなる、請求項51に記載の方法。
  57. 工程(c)では前記一又は複数の可動遺伝因子の確率及び相対存在量を決定する、請求項38に記載の方法。
  58. 前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報が、特定の表現型特性に関連付けられる配列情報からなる、請求項38に記載の方法。
  59. 工程(e)が前記生物内で見られる可能性が高い特定の表現型特性の評価値を決定し及び格付けする工程を含む請求項54に記載の方法。
  60. 前記形質固有のデータベースカタログ内に含まれる前記形質固有の参照配列情報が、対象の特定の形質又は表現型の存在を確認するシグネチャ配列又はゲノム配列からなる、請求項38に記載の方法。
  61. (f)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを第2の形質固有のデータベースカタログ内に含まれる第2の形質固有の参照配列情報と比較し、第2の確率論的な形質の結果を生成する確率論的なマッチングを実行する工程と、
    (g)前記処理装置によって、前記第2の確率論的な形質の結果を用いて前記生物と関連付けられる一又は複数の第2の形質を決定する工程と、
    をさらに含み、
    前記一又は複数の形質は前記一又は複数の第2の形質と異なる、請求項38に記載の方法。
  62. 工程(b)及び(c)が実行される間に工程(f)及び(g)が実行される、請求項61に記載の方法。
  63. 工程(b)の確率論的な方法が確率論的なマッチングを含む、請求項38に記載の方法。
  64. 前記サンプルがメタゲノムサンプルである、請求項38に記載の方法。
  65. (d)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを、生物のゲノムの同一性を含む参照データベース内に含まれる参照配列情報と比較し、確率論的な同一性の結果を生成する確率論的な方法を実行する工程と、
    (e1)前記生物が前記参照データベース内に含まれる場合、前記処理装置によって、前記確率論的な同一性の結果を用いて前記生物の同一性を少なくとも種レベルで決定する工程と、
    (e2)前記生物が前記参照データベース内に含まれない場合、前記処理装置によって、遺伝物質が前記分離株内に含まれる前記生物に最も近似する前記参照データベース内に含まれる生物の同一性を決定する工程と、
    をさらに含む請求項38に記載の方法。
  66. 生物の遺伝物質を含む分離株から抽出した配列情報に基づいて当該生物の特性を決定する装置であって、当該装置はプロセッサ及びメモリを含む処理装置を備え、当該処理装置は、
    (a)前記分離株から抽出された前記配列情報を受信し、前記配列情報はアセンブルされていないヌクレオチドフラグメントリードを含み、
    (b)前記アセンブルされていないヌクレオチドフラグメントリードを形質固有のデータベースカタログ内に含まれる形質固有の参照配列情報と比較し、確率論的な形質の結果を生成する確率論的なマッチングを実行し、
    (c)前記確率論的な形質の結果を用いて前記生物と関連付けられる一又は複数の形質を決定する
    ように構成された、装置。
  67. 前記処理装置はさらに、
    (d)前記アセンブルされていないヌクレオチドフラグメントリードを、生物のゲノムの同一性を含む参照データベース内に含まれる参照配列情報と比較し、確率論的な同一性の結果を生成する確率論的な方法を実行し、
    (e)前記確率論的な同一性の結果を用いて前記生物の同一性を少なくとも種レベルで決定する
    ように構成された、請求項66に記載の装置。
  68. 前記処理装置はさらに、
    (f)前記処理装置によって、前記アセンブルされていないヌクレオチドフラグメントリードを第2の形質固有のデータベースカタログ内に含まれる第2の形質固有の参照配列情報と比較し、第2の確率論的な形質の結果を生成する確率論的なマッチングを実行し、
    (g)前記処理装置によって、前記第2の確率論的な形質の結果を用いて前記生物と関連付けられる一又は複数の第2の形質を決定する
    ように構成され、
    前記一又は複数の形質は前記一又は複数の第2の形質と異なる、請求項66に記載の装置。
  69. 前記処理装置はさらに、
    (d)前記アセンブルされていないヌクレオチドフラグメントリードを、生物のゲノムの同一性を含む参照データベース内に含まれる参照配列情報と比較し、確率論的な同一性の結果を生成する確率論的な方法を実行し、
    (e1)前記生物が前記参照データベース内に含まれる場合、前記確率論的な同一性の結果を用いて前記生物の同一性を少なくとも種レベルで決定し、
    (e2)前記生物が前記参照データベース内に含まれない場合、遺伝物質が前記分離株内に含まれる前記生物に最も近似する前記参照データベース内に含まれる生物の同一性を決定する
    ように構成された、請求項66に記載の装置。
  70. 前記処理装置はさらに、
    前記アセンブルされていないヌクレオチドフラグメントリードから抽出したワード又はn量体を用いてサンプル配列ライブラリを作成し、
    前記形質固有の参照配列情報から抽出したワード又はn量体を用いて形質固有の配列ライブラリを作成する
    ように構成され、
    前記確率論的な方法は、前記サンプル配列ライブラリのワード又はn量体を前記形質固有の配列ライブラリのワード又はn量体と比較することによって、前記アセンブルされていないヌクレオチドフラグメントリードを前記形質固有のデータベースカタログ内に含まれる形質固有の参照配列情報と比較する、請求項66に記載の装置。
  71. 形質固有の配列ライブラリは前記形質固有の参照配列情報から取得したワードのディクショナリのライブラリであり、各ディクショナリは特定の形質に対してワードを含んでいる、請求項70に記載の装置。
  72. 前記サンプル配列ライブラリはサンプル配列ハッシュテーブルであり、前記形質固有配列ライブラリは形質固有ハッシュテーブルである、請求項70に記載の装置。
  73. 前記処理装置はさらに、
    (d)前記アセンブルされていないヌクレオチドフラグメントリードを参照データベース内に含まれる参照配列情報と比較し、異なる分類学上のレベルで他の細菌に混じって保存される近傍の配列から生成される非一意の配列の発生及び分布とともに、一意の配列を同定する確率論的な方法を実行する
    ように構成された、請求項1に記載の方法。
  74. 確率論的な方法によって同定される前記一意の配列に隣接して、他の細菌内で見られる保存された配列があり、これによってさらに細菌同士を少なくとも種のレベルで区別する、請求項73に記載の方法。
  75. 確率論的な方法によって同定される前記一意の配列は、細菌を少なくとも種のレベルで同定するためのマクロアレイ又はマイクロアレイを設計するために用いることが可能である、請求項74に記載の方法。
JP2016502954A 2013-03-15 2014-03-14 アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析 Active JP6644672B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/836,139 2013-03-15
US13/836,139 US20140288844A1 (en) 2013-03-15 2013-03-15 Characterization of biological material in a sample or isolate using unassembled sequence information, probabilistic methods and trait-specific database catalogs
PCT/US2014/028980 WO2014144529A1 (en) 2013-03-15 2014-03-14 Characterization of biological material using unassembled sequence information, probabilistic methods and trait-specific database catalogs

Publications (2)

Publication Number Publication Date
JP2016518822A true JP2016518822A (ja) 2016-06-30
JP6644672B2 JP6644672B2 (ja) 2020-02-12

Family

ID=51537726

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016502954A Active JP6644672B2 (ja) 2013-03-15 2014-03-14 アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析

Country Status (5)

Country Link
US (2) US20140288844A1 (ja)
EP (1) EP2972309A4 (ja)
JP (1) JP6644672B2 (ja)
CA (1) CA2906725C (ja)
WO (1) WO2014144529A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021501332A (ja) * 2017-10-23 2021-01-14 ノーティラス バイオテクノロジー インコーポレイテッド タンパク質同定のための方法およびシステム
JP7373843B2 (ja) 2019-12-19 2023-11-06 国立大学法人東海国立大学機構 感染の原因生物を予測するための予測装置、予測プログラム及び予測方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107532332B9 (zh) * 2015-04-24 2022-07-08 犹他大学研究基金会 用于多重分类学分类的方法和系统
US11749381B2 (en) 2016-10-13 2023-09-05 bioMérieux Identification and antibiotic characterization of pathogens in metagenomic sample
CN110021365B (zh) * 2018-06-22 2021-01-22 深圳市达仁基因科技有限公司 确定检测靶点的方法、装置、计算机设备和存储介质
CN111477276B (zh) * 2020-04-02 2020-12-15 上海之江生物科技股份有限公司 微生物的种特异共有序列的获得方法、装置及应用
CN116564423B (zh) * 2023-07-05 2023-09-15 广州源古纪科技有限公司 一种微生物宏基因组数据库构建方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012094307A2 (en) * 2011-01-03 2012-07-12 Agrigenetics, Inc. Gene and variations associated with bm1 phenotype, molecular markers, and their use

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030134293A1 (en) * 1999-11-16 2003-07-17 Zhiping Liu Method for rapid and accurate identification of microorganisms
CN102007407A (zh) * 2007-11-21 2011-04-06 考斯摩斯德公司 基因组鉴定系统
US8478544B2 (en) * 2007-11-21 2013-07-02 Cosmosid Inc. Direct identification and measurement of relative populations of microorganisms with direct DNA sequencing and probabilistic methods
DK2694669T3 (en) * 2012-06-28 2017-07-24 Taxon Biosciences Inc PROCEDURES FOR THE PREPARATION OR CREATION OF A SYNTHETIC MICROBIAL CONSORTIUM IDENTIFIED BY COMPUTER ANALYSIS OF AMPLICON SEQUENCES

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012094307A2 (en) * 2011-01-03 2012-07-12 Agrigenetics, Inc. Gene and variations associated with bm1 phenotype, molecular markers, and their use

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ADV. BIOINFORMATICS, 2008, ARTICLE ID 205969, JPN6018002576 *
BMC BIOINFORMATICS, 2011, 12:328, JPN6018002578 *
NUCLEIC ACIDS RES., 2011, 39(14): E91, JPN6018042614 *
PLOS COMP. BIOL., 2012, 8(2), E1002373, JPN6018002574 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021501332A (ja) * 2017-10-23 2021-01-14 ノーティラス バイオテクノロジー インコーポレイテッド タンパク質同定のための方法およびシステム
JP7434161B2 (ja) 2017-10-23 2024-02-20 ノーティラス・サブシディアリー・インコーポレイテッド タンパク質同定のための方法およびシステム
JP7373843B2 (ja) 2019-12-19 2023-11-06 国立大学法人東海国立大学機構 感染の原因生物を予測するための予測装置、予測プログラム及び予測方法

Also Published As

Publication number Publication date
US20140288844A1 (en) 2014-09-25
EP2972309A4 (en) 2016-11-23
JP6644672B2 (ja) 2020-02-12
US20200294628A1 (en) 2020-09-17
EP2972309A1 (en) 2016-01-20
CA2906725C (en) 2023-06-13
CA2906725A1 (en) 2014-09-18
WO2014144529A1 (en) 2014-09-18

Similar Documents

Publication Publication Date Title
US11335437B2 (en) Set membership testers for aligning nucleic acid samples
JP6644672B2 (ja) アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析
US20220246234A1 (en) Using cell-free dna fragment size to detect tumor-associated variant
Almeida et al. Bioinformatics tools to assess metagenomic data for applied microbiology
Han et al. Multicenter assessment of microbial community profiling using 16S rRNA gene sequencing and shotgun metagenomic sequencing
Mangul et al. ROP: dumpster diving in RNA-sequencing to find the source of 1 trillion reads across diverse adult human tissues
CN114067911B (zh) 获取微生物物种及相关信息的方法和装置
CN113160882B (zh) 一种基于三代测序的病原微生物宏基因组检测方法
Brealey et al. Dental calculus as a tool to study the evolution of the mammalian oral microbiome
JP2020529648A (ja) 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム
CN110875082B (zh) 一种基于靶向扩增测序的微生物检测方法和装置
CN114121160A (zh) 一种检测样本中宏病毒组的方法和系统
CN115662516A (zh) 一种基于二代测序技术的高通量预测噬菌体宿主的分析方法
Gui et al. Recent advances in molecular technologies and their application in pathogen detection in foods with particular reference to Yersinia
Giménez et al. Improved detection and classification of plasmids from circularized and fragmented assemblies
Yi et al. Unravelling the enigma of the human microbiome: Evolution and selection of sequencing technologies
Du et al. ViralCC retrieves complete viral genomes and virus-host pairs from metagenomic Hi-C data
TW201719468A (zh) 用以分析細菌菌種之定序資料的系統及其方法
CN110970093A (zh) 一种筛选引物设计模板的方法、装置及应用
CN117043867A (zh) 用于检测用于测序的核苷酸样品玻片内的气泡的机器学习模型
Sun et al. Eliminate false positives in metagenomic profiling based on type IIB restriction sites
Marić et al. Approaches to metagenomic classification and assembly
Detter et al. Nucleic acid sequencing for characterizing infectious and/or novel agents in complex samples
Bradford et al. An Optimized Pipeline for Detection of Salmonella Sequences in Shotgun Metagenomics Datasets
Loy et al. From Genomics to MALDI‐TOF MS: Diagnostic Identification and Typing of Bacteria in Veterinary Clinical Laboratories

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180426

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181106

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190205

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200108

R150 Certificate of patent or registration of utility model

Ref document number: 6644672

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250