JP2016502162A - 未加工のシーケンシングデータのデータベースにより駆動される一次解析 - Google Patents

未加工のシーケンシングデータのデータベースにより駆動される一次解析 Download PDF

Info

Publication number
JP2016502162A
JP2016502162A JP2015536149A JP2015536149A JP2016502162A JP 2016502162 A JP2016502162 A JP 2016502162A JP 2015536149 A JP2015536149 A JP 2015536149A JP 2015536149 A JP2015536149 A JP 2015536149A JP 2016502162 A JP2016502162 A JP 2016502162A
Authority
JP
Japan
Prior art keywords
sequence
database
mer
mers
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015536149A
Other languages
English (en)
Other versions
JP2016502162A5 (ja
Inventor
ローレント ゴーティエ,
ローレント ゴーティエ,
オーレ ルンド,
オーレ ルンド,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Danmarks Tekniskie Universitet
Original Assignee
Danmarks Tekniskie Universitet
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Danmarks Tekniskie Universitet filed Critical Danmarks Tekniskie Universitet
Publication of JP2016502162A publication Critical patent/JP2016502162A/ja
Publication of JP2016502162A5 publication Critical patent/JP2016502162A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Abstract

本発明は、未加工のシークエンシングリードから生物配列含有試料の供給源を同定するための方法に関する。本方法を使用して、未知DNAの供給源を同定することができ、診断、生物テロ防御、食物安全性および品質ならびに衛生適用に使用することができる。別の態様において、本発明は、本発明の方法において使用することができる、参照配列のデータベースに関する。本方法は、事前にインデックス付けされた参照配列のコレクションと、配列決定機器からのリード等、生物配列の着信した問い合わせセットをスコアリングするシステムと、問い合わせセットの部分を提出するシステムに頼る。

Description

本発明は、生物配列の可能性の高い供給源を同定するための方法に関する。さらなる態様において、本発明は、この目的のために使用されるように適合されたデータベースに関する。
DNA配列決定は、塩基(A、T、CまたはG)の配列を同定する実験プロセスである。現在、数千個の塩基を超えてDNAの分子全体を配列決定することができる技術は存在せず、大部分の技術は、100〜200塩基の間を配列決定する。細菌ゲノムは、数百万個の塩基を優に含有し得る。ここ数年間、配列決定のコストは大幅に低下され、これにより、ヒトの健康、食物の品質管理または微生物群集の研究等の目的のための試料に由来するDNAの大規模配列決定をますます一般的なものとした。処置を可能な限り個別化するために、全ヒトゲノムの配列決定が治療法においてより頻繁に使用されることや、ルーチンの配列決定が行われて、特異的な生体の有無を管理することが想定できる。それ自体を最終目標として、あるいはより複雑なデータ解析への足掛かりまたはより費用のかかる解析に取り組む前の配列決定データの品質管理ステップとして、可能性の高い起源DNAを迅速に同定することは、急速に必要なものとなりつつある。
一次解析は、参照ゲノムと配列をアライメントすること(参照種の配列が公知であることが必要とされる)、あるいはモデルなしでジグソーパズルの再構成を試みること(いわゆる配列決定タグのde−novoアセンブリ−未知試料の内容の同定(indentifying)は、補足的ステップを必要とするであろう)による、配列決定から得られる相対的に短い配列(ショートリードと呼ばれる)の解明からなる。参照に対するアライメントは、de novoアセンブリよりも計算的にさらに容易なタスクであると考えられる。
非特異的または全ゲノム配列決定が手頃に利用できるようになる前には、先ず特異的領域を丹念に配列決定し、アセンブルし、対象とする推定領域を同定していた。最も単純な方法は、RNAをタンパク質に翻訳するための開始コドン(ATG/AUG)および翻訳を終結する終止コドンのうち1個(TAG/UAG、TAA/UAA、TGA/UGA)によって定義される区間を見出すことによる、オープンリーディングフレーム(ORF)の探索である。次に、ORFをあらゆる公知遺伝子のリストに対してアライメントさせた。アライメントのための方法は、Smith−Watermanアルゴリズム、BLASTアルゴリズムおよびプログラム、SSAHAならびにBLAT等、アライメントアルゴリズムおよびプログラムを含む。これらの目標は、インデックス付き配列のデータベースにおける最適なアライメントを見出し、あらゆるアライメントに対するスコアのランク付けにより、最良のマッチ、したがって、問い合わせ配列に最も可能性の高い機能を見出すことである。異なる生物学的機能を有する同様のマッチの数の増加は、機能アノテーションの目的のための、「最良にマッチする遺伝子の群」またはオルソロガス遺伝子のクラスター(COG)を構築することによる該原理の拡大をもたらす。完全ゲノムが徐々に利用し易くなってきたため、Mummerアルゴリズムを設計して、完全ゲノムのペアをアライメントし、遺伝的に関係する種間で全体的なゲノム構造が比較される様子を可視化した。
データベースにおいて現在利用できる配列の数のため、公知配列の莫大なプールに対する新たな配列のアライメントは、相対的に長い時間を要することがあり、BLASTは、ほぼ最適な結果を見出しつつ以前のアルゴリズムを加速させたという意味においてブレークスルーであった。しかし、ウェブに基づく検索エンジンがほぼ即座に検索結果を返すことができる時代において、あらゆる公知配列に対する検索は、依然として相対的に時間がかかる。
Ningら2001年、(Genome:11巻:1725〜1729頁)は、数ギガ塩基のDNAを含有するデータベースにおいて速いアライメントを実行するためのアルゴリズム、SSAHA(ハッシュ化アルゴリズムによる配列検索およびアライメント(sequence search and alignment by hashing algorithm))について記載する。SSAHAは、アライナである;したがって、完全問い合わせ配列毎に、これが、参照配列のコレクションにおける各エントリーとマッチする位置およびどの程度マッチしているか報告するタスクを有する。SSAHA方法は、問い合わせ配列の全長にわたり可能な限り多くのマッチ見出すためのものである。データベースにおける配列は、これらをk個の近接塩基の連続したk個組(k-tuple)へと切断し、次にハッシュ表を使用して各k個組の各発生の位置を保存することにより前処理される。データベースにおける問い合わせ配列の検索は、ハッシュ表から、問い合わせ配列におけるk個組毎の「ヒット」を得て、次に結果における選別を実行することにより行われる。SSAHAアルゴリズムは、ハイスループット一塩基多型検出および非常に大規模な配列アセンブリに使用される。SSAHAにおいて、各k個組の存在および位置は、同じルックアップ(lookup)構造において保存され、該構造は、コンピュータシステムのメモリにロードされる。
公知のマッピングまたはアライメントアルゴリズムおよびプログラムは、Erland、Corona、BFAST、Bowtie、BWA、NovoAlign等の方法を含む。これらの目標は、公知参照におけるリードの位置を見出すことである。延いては、マッチを見出すことができなかったリードは、この配列に由来せずとフラグ付けすることができる。これらのプログラムおよびアルゴリズムは、問い合わせセットにおける全ての配列、すなわち、全てのシークエンシングリードを評価すること、また、その全てに対し、ショートリードで作業する際のアライメントと呼ばれることが多い最適なアライメントを見出すよう試みることの両方による、長い検索時間の弱点も抱える。興味深いことに、上述のプログラムは全て、厳密性をスピードに引き換える発見的技術研究(heuristics)を使用するため、見出す結果が異なる。
US2006286566は、突然変異を検出するためにk−merを使用する方法を開示する。この方法は、標的核酸配列の一部を第2の配列セグメントと比較して、標的核酸配列の一部に対するマッチを検出することによる、標的核酸配列における明らかな突然変異の検出を含む。
US2012000411は、配列情報の短い文字列をマッチさせて、参照ゲノムデータベースに由来するゲノムを同定することに基づく、試料内の生物の集団を特徴付けすることができるシステムおよび方法を開示する。この特許出願は、参照配列における短い文字列の1コレクションにおいて短い文字列の存在が検索され、参照配列における位置の別の1コレクションにおいて位置が検索される方法を開示していない。
米国特許出願公開第2006/286566号明細書 米国特許出願公開第2012/000411号明細書
Ningら2001年、Genome:11巻:1725〜1729頁
本発明は、配列決定機器から得られるDNAリード(またはショートリード)あるいはNもしくはC末端配列決定または質量分析から得られるタンパク質配列等、未加工の配列の供給源を同定するための新規方法を提供する。本方法は、事前にインデックス付けされた参照配列のコレクションと、配列決定機器からのリード等、生物配列の着信した問い合わせセットをスコアリングするシステムと、問い合わせセットの部分を提出するシステムに頼る。これは、クライアント・サーバーに基づくアプローチを使用することによって行うことができ、サーバー実体は、参照のコレクションを保持し、スコアリングを実行し、一方、クライアントは、問い合わせ配列のサブセットを提出する。
本発明によって提供されるアプローチは、試料中に見出されるDNAの異なる供給源の迅速な決定を可能にし、供給源配列や参照配列の所定の遺伝子の完全配列の知識に頼らない。
ショートリードは、それが由来する完全参照を表さないにもかかわらず、該参照の特徴的なシグナルを保持する。ショートリードは、部分配列(k−merまたはk個組と呼ばれる)へとさらに分解することができ、かかるk−merは、未加工の配列決定データの供給源を同定するために、インデックス付けされたk−merのコレクションにおいて検索される。
第1の態様において、本発明は、生物配列の可能性の高い供給源を同定する方法であって、
a)供給源から配列またはショートリードのサブセットをサンプリングするステップと、
b)サブセットからの配列をk−merに断片化するステップと、
c)前記サブセットからのk−merを、参照配列のk−merを含むデータベースに対して問い合わせるステップと、
d)いずれの参照が、k−merを含有するか決定するステップと、
e)可能性の高い供給源参照の記述を返すステップと
を含む方法に関する。
本方法は、完全問い合わせセットのアライメントに着目する、したがって、入力装置(クライアント等)からアライメントを実行できるデータベースおよびスコアリングユニット(サーバー等)へと配列全体の伝達を要求する伝統的なアライメントおよびマッピングアルゴリズムを上回るいくつかの利点を有する。本発明において、配列のサブセットのみが、断片化および問い合わせに付され、これにより、データ伝達の必要を最小化する。伝達されるサブセットは、例えば、固定されたサイズのランダムサブセット、フィルターをかけたサブセット、適応サンプリング、入力およびスコアリング実体間の反復性同期的もしくは非同期的ダイアログまたはこれらのいずれかの組合せとなり得るが、これらに限定されない。
シークエンシングリードのアセンブリまたはゲノム構築と続く検索に基づく方法、あるいは参照のコレクションにわたるあらゆるリードをマッピングする方法と比較すると、本方法は、完全アライメントの実行を試みず、データのサブセットにおいて作業することにより、相当に低いコンピュータ処理能力を要求し、これにより、数秒以内に結果を得ることができる。よって、本発明の方法は、例えば、クライアントとして低いコンピュータ処理能力を有するタブレットまたは携帯型装置(例えば、携帯電話等)を用いたクライアント・サーバーアプローチを使用してランすることができる。1サブセットのデータに対し相対的に速く結果を得ることができるため、追加的なサブセットのデータの検索に要求される時間は、相当に低減する。このように、試料におけるDNAの異なる供給源の同一性は、配列全体のアライメントに基づく従来方法と比較して、相当に低減した期間において決定することができる。
その最も広範な態様において、本発明は、データベースにおける存在のみの問い合わせに関する。しかし、好ましい実施形態において、データベースは、参照配列におけるk−merの位置も問い合わせされ、よって、供給源k−merの連続性の計算を可能にし、評価をより正確なものとする。生物は、互いに遺伝的に関係することが多く、本発明は、参照配列のコレクションにおける密接な親を見出すこともできる。
2種の別々のデータベースまたはコレクションにおけるデータのコンパイルは、参照におけるk−merの存在の検索を位置の検索から分断し、永続的保存よりも検索が速くなり得る、メモリへの可能な限り多くの存在の検索のキャッシュ化等、最適化を考慮することを可能にする。k−merが存在することが判明した場合、また、十分な時間がある場合は補足的最適化ステップにおいて、所定の参照における位置の検索を行うことができる。よって、本発明の好ましい実施形態は、生物配列の可能性の高い供給源を同定する方法であって、
a)供給源から配列のサブセットをサンプリングするステップと、
b)サブセットからの配列をk−merに断片化するステップと、
c)前記サブセットからのk−merを、参照配列のk−merを含む第1のコレクションに対して問い合わせるステップと、
d)前記サブセットからのk−merを、参照配列におけるk−merの位置を含む第2のコレクションに対して問い合わせるステップと、
e)いずれの参照がk−merを含有するか決定するステップと、
f)可能性の高い供給源参照の記述を返すステップと
を含み、参照配列のk−merを含むコレクションが、参照配列におけるk−merの位置を含むコレクションとは別々である方法に関する。
よって、本発明の好ましい実施形態は、生物配列の可能性の高い供給源を同定する方法であって、
a)供給源から配列またはショートリードのサブセットをサンプリングするステップと、
b)サブセットからの配列をk−merに断片化するステップと、
c)前記サブセットからのk−merを、参照配列のk−merを含む第1のコレクションに対して問い合わせるステップと、
d)前記サブセットからのk−merを、参照配列におけるk−merの位置を含む第2のコレクションに対して問い合わせるステップと、
e)いずれの参照がk−merを含有するか決定するステップと、
f)可能性の高い供給源参照の記述を返すステップと
を含み、参照配列のk−merを含む前記コレクションが、参照配列におけるk−merの位置を含むコレクションとは別々である方法に関する。
本発明の注目すべき一特色は、可能性の高い参照が同定されたら、可能性の高い参照に関する情報が使用者に返されることである。返された情報は、例えば、可能性の高い種およびその起源もしくは供給源、ならびに/または可能性の高い種の完全ゲノム配列に関する情報になり得る。これにより、使用者は、突然変異および挿入等、僅かな変動を同定するために、最先端のアライメントまたはゲノム構築アルゴリズムを使用して、参照配列に対し未知試料に由来する残りの未加工のリードをアライメントさせることができる。
さらなる態様において、本発明は、参照配列のk−merを含むデータベースであって、
a)参照配列からのk−merの第1のコレクションと、
b)参照配列における各k−merの位置の第2のコレクションと
を含むデータベースに関する。
2種の別々のデータベースまたはコレクションにおけるデータのコンパイルは、参照におけるk−merの存在の検索を位置の検索から分断し、永続的保存よりも検索が速くなり得る、メモリへの可能な限り多くの存在の検索のキャッシュ化等、最適化を考慮することを可能にする。k−merが存在することが判明した場合、また、十分な時間がある場合は補足的最適化ステップにおいて、所定の参照における位置の検索を行うことができる。
第3の態様において、本発明は、入力デバイスと、中央処理ユニットと、メモリと、出力デバイスとを好ましくは含む、供給源配列の可能性の高い供給源を同定するためのデータ処理システムであって、前記データ処理システムが、実行されると本発明の方法を実施させる命令シーケンスを表すデータを内部に保存し、メモリが、本発明に係るデータベースをさらに含むシステムに関する。
図3は、本発明のシステムの一実施形態の要点を図解する。要点とは、サンプリングが「クライアント」において行われ、最小量の情報が伝達されるようにすることである。最も可能性の高い参照の記述子の使用は、本図において図解されていない。
デバイス(入力、出力、メモリ、CPU)は、携帯型、固定型、クラウドおよび/またはオンラインベースとなり得る。
好ましくは、データベースは、サーバーに保存され、入力および出力デバイスは、1個または複数のクライアントであり、クライアントおよびサーバーは、データ通信接続を介して接続されており、サーバーの共有は、参照のコレクションの集中化と、別々のプロセスまたはいっそ別々の機器において実行する場合、クライアントにわたるサーバーにおける演算能力の分布を可能にする。かかる実施形態において、クライアントは、クライアントが、供給源配列のサブセットをサンプリングし、これらをk−merに断片化し、これらをサーバーに伝達することを可能にする命令シーケンスを含むことができる。
クライアントは、クライアントが、サーバーとダイアログして、サンプリング手順を適応または妨害する、あるいはサーバーからクライアントに伝達された配列に基づき、1個または複数のより大型の配列への供給源配列のアセンブリを実行することを可能にする命令シーケンスをさらに含むことができる。
一実行において、本システムは、データ接続を介して配列決定装置に接続されている。
さらなる態様において、本発明は、実行されると本発明の方法を実施させる命令シーケンスを含有するコンピュータソフトウェア製品、および実行されると本発明の方法を実施させる命令シーケンスを含有する集積回路製品に関する。
図1は、「存在」および「位置」データベースの構築を示す図である。 図2は、典型的には、配列決定からの未加工のリードである、問い合わせDNA断片のセットのスコアリングを示す図である。 図2は、典型的には、配列決定からの未加工のリードである、問い合わせDNA断片のセットのスコアリングを示す図である。 図3は、本発明のシステムのアーキテクチャの概要を示す図である。 図4は、変動するリードサイズ(行)およびランダム置換率(列)に従った、問い合わせとして使用したデータベースにおける747種の細菌ゲノムの平均ランク(x軸)およびランクの標準偏差(y軸)を示す図である。 図4は、変動するリードサイズ(行)およびランダム置換率(列)に従った、問い合わせとして使用したデータベースにおける747種の細菌ゲノムの平均ランク(x軸)およびランクの標準偏差(y軸)を示す図である。 図5は、実施例1および2においても使用される、インデックス付けおよびスコアリング手順の特定例の全体像を示す図である。(A)参照配列のコレクションのインデックス付けにおいて、非重複k−merは、2種の別個のキー値保存へとインデックス付けされ、そのうち一方は、k−merが見出された参照とk−merとを関連付け(「存在」)、もう一方は、k−merが見出された参照における位置とk−merとを関連付ける(「位置」)。(B)問い合わせセットにおけるシークエンシングリードを処理する際に、重複k−merは、「存在」保存においてルックアップした。重複k−merの使用は、リードの始まりおよび参照配列の始まりの間で(点線)、相対的に迅速にミスアライメント(misalignment)の解消を可能にする。本図において、k−merのサブセットのみが、インデックス付けステップによるフェーズにあり、したがって、これらのみが、「存在」に見出され得る。(C)所定のリードのため、十分なリードにマッチする可能性がある参照を保持するためだけに閾値が適用される。非常に大型の参照が、哺乳動物ゲノムに対する細菌リード等、互いに素な(disjoint)散乱したk−merを含有する状況は、例えば、参照における最小領域内の最高濃度のk−merを使用して、「位置」保存が問い合わせされる最後のステップにおいて解消される。 図6は、細菌リードを示す図である。747種のゲノムのセットにおける細菌ゲノム毎に、本出願人らは、数種のリード長(50ヌクレオチド(nt)、75nt、100nt、150nt、200nt、250nt)および数種の置換誤り率(0%、1%、5%、10%)をシミュレートした。各問い合わせにおいて100種のランダムリードを使用し、リストにおける正しい参照のランクの分布を記録した;1のランクは、正しい参照が、リストの最上部に存在したことを意味する。返されたヒットのリストは、25の最大の長さに設定され、本出願人らは、リストに全く存在しない場合、「見当たらない」として参照を計数した。正しい検査細菌ゲノムのパーセンテージは、各パネルの右側に入れ子されたバーで表される。本図は、予想通り、誤り率が増加するにつれて性能が劣化することを示すが、長さ50のリードは、相対的に減少した性能を有すると思われることも示す。100ヌクレオチドを超えるリード長の増加は、100ヌクレオチドのリードと比較して、僅かな改善しかもたらさず、誤り率における限定的な補整効果を有する。 図6は、細菌リードを示す図である。747種のゲノムのセットにおける細菌ゲノム毎に、本出願人らは、数種のリード長(50ヌクレオチド(nt)、75nt、100nt、150nt、200nt、250nt)および数種の置換誤り率(0%、1%、5%、10%)をシミュレートした。各問い合わせにおいて100種のランダムリードを使用し、リストにおける正しい参照のランクの分布を記録した;1のランクは、正しい参照が、リストの最上部に存在したことを意味する。返されたヒットのリストは、25の最大の長さに設定され、本出願人らは、リストに全く存在しない場合、「見当たらない」として参照を計数した。正しい検査細菌ゲノムのパーセンテージは、各パネルの右側に入れ子されたバーで表される。本図は、予想通り、誤り率が増加するにつれて性能が劣化することを示すが、長さ50のリードは、相対的に減少した性能を有すると思われることも示す。100ヌクレオチドを超えるリード長の増加は、100ヌクレオチドのリードと比較して、僅かな改善しかもたらさず、誤り率における限定的な補整効果を有する。 図7は、細菌リード(リードの数)を示す図である。747種のゲノムのセットにおける細菌ゲノム毎に、本出願人らは、数種のリード長(50nt、75nt、100nt、150nt、200nt、250nt)および数種の置換誤り率(0%、1%、5%、10%)をシミュレートした。各問い合わせにおいて100、200または300種のランダムリードを使用し、リストにおける正しい参照のランクの分布を記録した;1のランクは、正しい参照が、リストの最上部に存在したことを意味する。曲線は、100、200および300種のリードを表示する。100種のリードから300種のリードに由来するランダム試料におけるリード数の増加が、性能の相対的に僅かな増加をもたらすことが理解できる。誤り率またはリード長は、さらにより強い効果を有した。 図7は、細菌リード(リードの数)を示す図である。747種のゲノムのセットにおける細菌ゲノム毎に、本出願人らは、数種のリード長(50nt、75nt、100nt、150nt、200nt、250nt)および数種の置換誤り率(0%、1%、5%、10%)をシミュレートした。各問い合わせにおいて100、200または300種のランダムリードを使用し、リストにおける正しい参照のランクの分布を記録した;1のランクは、正しい参照が、リストの最上部に存在したことを意味する。曲線は、100、200および300種のリードを表示する。100種のリードから300種のリードに由来するランダム試料におけるリード数の増加が、性能の相対的に僅かな増加をもたらすことが理解できる。誤り率またはリード長は、さらにより強い効果を有した。 図8は、細菌リード、性能の可変性を示す図である。747種の検査細菌ゲノムの同定手順の1反復を5回実行した場合の、真の参照の平均ランク(ランク、x軸)およびランクの標準偏差(Sランク、y軸)。平均ランクが1に最も近いと、パーフェクトな性能に最も近くなり、ランクの標準偏差が最も小さいと、サンプリング効果に対し合理性が最も低くなる。検査した多数の細菌ゲノムが、散乱において等しいまたは近似した座標(coordinate)を生じる場合、明確さを増加させるために、本出願人らは、六角形のビニング(hexagonal binning)を使用し、それに応じてその区域を着色する。各散布図の右側の垂直なバーは、上位25マッチ以内でない検査ゲノムの数を示し、六角形のビニングと同じスケールで着色する。異なるリードサイズ(行)および誤り率(ランダム置換、列)を試行し、散布図のマトリクスを生じる。 図8は、細菌リード、性能の可変性を示す図である。747種の検査細菌ゲノムの同定手順の1反復を5回実行した場合の、真の参照の平均ランク(ランク、x軸)およびランクの標準偏差(Sランク、y軸)。平均ランクが1に最も近いと、パーフェクトな性能に最も近くなり、ランクの標準偏差が最も小さいと、サンプリング効果に対し合理性が最も低くなる。検査した多数の細菌ゲノムが、散乱において等しいまたは近似した座標(coordinate)を生じる場合、明確さを増加させるために、本出願人らは、六角形のビニング(hexagonal binning)を使用し、それに応じてその区域を着色する。各散布図の右側の垂直なバーは、上位25マッチ以内でない検査ゲノムの数を示し、六角形のビニングと同じスケールで着色する。異なるリードサイズ(行)および誤り率(ランダム置換、列)を試行し、散布図のマトリクスを生じる。 図9は、細菌リード、同じ種を示す図である。マッチのパーセンテージは、正しい種、すなわち、図7に示す正しく厳密に同じ参照ではなく、同じ種の細菌に属する本出願人らのコレクションにおける参照と、正しい種が上位25マッチ内ではない事例のパーセンテージをもたらす。より短いリード(50nt)の性能は相対的に低く、ノイズがこれをさらに減少させる(最初の行におけるバー・プロット)が、100ntから非常に良好になり、ノイズに対しロバスト状態を維持する。 図9は、細菌リード、同じ種を示す図である。マッチのパーセンテージは、正しい種、すなわち、図7に示す正しく厳密に同じ参照ではなく、同じ種の細菌に属する本出願人らのコレクションにおける参照と、正しい種が上位25マッチ内ではない事例のパーセンテージをもたらす。より短いリード(50nt)の性能は相対的に低く、ノイズがこれをさらに減少させる(最初の行におけるバー・プロット)が、100ntから非常に良好になり、ノイズに対しロバスト状態を維持する。
本発明は、試料に存在するタンパク質、DNAまたはRNAに由来する生物配列情報の可能性の高い供給源の同定の実行におけるスピードおよび精度のバランスを保つ。
本発明の方法において使用されるべき配列情報は、例えば、核酸配列決定機器から、またはタンパク質のCもしくはN末端配列決定から、もしくは質量分析タンパク質配列決定からの未加工のリードとなり得る。よって、本発明の文脈における単語、試料配列は、ショートリードとも呼ばれるかかる未加工のリードを指す。
特定の一実施形態において、図2において説明されている本発明は、次の事柄得る。
・参照DNAによるデータベースの作成(図1を参照)。データベースは、2部構成である:1)参照に関してインデックス付けされたあらゆる参照DNAのk−merのデータベース、および2)データベース1に由来するk−merと参照配列における位置との間の関連のデータベース。よって、参照k−mer IDおよび位置は、2種の異なるデータベースにおいて保存される。
図1は、データベース構築の一実施形態を図解する。データベースを作成するための入力データは、公開または独自データベースに由来するDNAである。次に、これらは、好ましくは空間を節約するために非重複的となり得るK−merに分割される。k−merは、さらに2ビットにビットパッキングすることができ、これは、各塩基が2ビットのメモリのみを占めることを意味する。k−merの保存を加速させるため、これらは、好ましくは、データベースにおける挿入前に選別される。さらに、k−merが由来する参照配列における名称および該配列における位置は、別々のデータベースにおいて保存することができる。
・参照データベースに対する、供給源に由来するk−merの問い合わせ配列に分解されたリードの選択の検索。
・主要スコアは、データベースにおける所定の参照配列に見出すことができる、問い合わせ配列に由来するk−merの数から計算される。
・示唆される配列が使用者に返され、これをより重い伝統的な解析(more heavy and traditional analysis)に使用することができる。
本発明の本実行の特徴を次に示す。
・検索において、k−merの正確なマッチのみが登録される。
・問い合わせリードは、例えば、長さ16の多数のk−merに分解される。各k−merの出発点は、1ずつ漸進される。
・「伝統的」ではない、de novoアライメントまたはマッピング方法。
図2は、k−merデータベースを検索するための可能なアルゴリズムの1種を図解する。リードは、ステップサイズ1によるスライドウィンドウを使用してk−merに分割される。k−merが、現検索において既に遭遇(ビジット)していた場合、次のk−merが選択される。次に、k−merデータベースにおいてk−merをルックアップする。これがデータベースに存在する場合、参照配列の同一性および該配列における位置を情報検索する。次に、リードの近似連続性を算出し、最大の連続したセグメントが閾値を超える場合、ヒット計数が増加する。リードにおけるあらゆるk−merに対しこれを繰り返す。リード毎に、問い合わせ配列の長さで割ったヒットの数(ヒット計数)としてスコアを算出し、次に、マッチする参照配列の長さで割ったヒット計数を算出する。これは、多数のリードに対して繰り返され、得られたスコアに応じて先験的にまたは動的に定義することができる。スコアを選別し、最良のマッチを使用者に返す。
正確なマッチは、リードのレベルにおいて為されない。スコアリングは、リードに沿ったk−merマッチの見逃しを可能にする(そのため、生物学的試料における配列決定エラーおよび突然変異に対するロバスト性が確実になる)。
システムの全体像を次に示す。
・あらゆる公知の参照DNA配列をk−merにインデックス付けし、参照(例えば、種)および参照配列における位置を保存する。本ステップは、好ましくは、新たな配列の追加またはさらなる配列情報の追加により、参照DNA配列がアップデートされた場合にのみ行われる。
・配列をk−merに分割し、データベースに対しマッチングさせ、参照配列のヒット数を計数し、好ましくは、位置情報によりマッチングを精密化することにより、DNAの短い配列を保存することができるクライアント。
得られた参照は、次の目的のためにその後に使用することができる。
・参照にマッチするリードを取り除き、別の異なる参照に由来するより少ない存在量のDNAが存在するか見出す。
・該参照に対するアライメントを実行する、あるいはデータベースにおける参照を使用してより大型の断片を反復的に構築し、以前にアセンブルされた参照を活用することによるde−novoアセンブリよりもさらに優れた性能をもたらす;さらに、データベースのサイズが増加し、より多くのアセンブルした参照が追加されるにつれ、性能が高まるであろう。
・様々な生物または遺伝子(例えば、診断目的に関連)の可能性の高い存在を同定する。
未加工のリードの副試料(sub-sample)のみが必要とされるため、これは、感染病原体の同定等、初歩的診断を行うために移行させるデータの量を減少させることができる。より小型の配列実験の場合、これは、解析の一部が、商品ハードウェアにおけるクライアントにより行われることも可能にする。
ロースループット(low-throughput)デスクトップシーケンサー(または使い捨て配列決定ユニット)の開発と、より安価なGPUまたはFPGAユニットの登場により、本技法は、配列決定データのリアルタイムまたはほとんどリアルタイムの一次解析を可能にする。
アルゴリズム
一態様において、本発明は、生物配列の可能性の高い供給源を同定する方法であって、
a)供給源から配列またはショートリードのサブセットをサンプリングするステップと、
b)サブセットからの配列をk−merに断片化するステップと、
c)前記サブセットからのk−merを、参照配列のk−merを含むデータベースに対して問い合わせるステップと、
d)いずれの参照が、k−merを含有するか決定するステップと、
e)可能性の高い供給源参照の記述を返すステップと
を含む方法に関する。
用語「供給源に由来する配列」は、生物配列を含む試料から得られる配列を示すために使用される。試料は、環境試料、患者等の対象に由来する試料、犯罪現場に由来する試料、食物試料、水試料その他となり得る。試料は、最先端のDNA/RNAまたはタンパク質単離および配列決定方法に付される。その結果は、該試料に特徴的な配列(リードとも呼ばれる)のセットである。配列は、典型的には、ある特定の区間内のランダムな長さである。配列は、また、典型的には、ランダムに重複している。供給源配列と呼ばれる試料に由来する配列のそれぞれを本発明の方法に付すことができる。
本発明における用語「参照」は、データベースに保存されている配列の記述子を含む。参照の典型例は、特定の種または品種または分離株の完全ゲノム配列である。参照は、特定の種または種の特定の状態のトランスクリプトームまたはプロテオームからなることもできる。種のトランスクリプトームおよびプロテオームは、年齢および環境条件に応答して経時的に変化し得るが、例えば、種のゲノム配列は、程度の差はあるが、経時的に一定であり続ける。データベースは、参照に関する追加的な情報を保存することができる。
本発明の方法は、アミノ酸配列ならびにDNAおよびRNA配列等のヌクレオチド配列等、いかなる生物配列情報に適用することもできる。好ましい実施形態において、配列は、DNA配列である。
その最も広範な態様において、本発明は、問い合わせまたは供給源配列に由来するk−merの存在の同定のみに頼る。この場合、アルゴリズムからの出力は、参照と、参照において同定されたヒットの相当する数のリストである。しかし、ヒトゲノムや特に一部の植物ゲノム等、一部のゲノムの規模のために、多くのk−merは、これらの非常に大型のゲノムに偶然に存在し得る。したがって、好ましい実施形態において、問い合わせは、参照配列におけるk−merの位置の決定をさらに含む。これは、存在および位置が、参照配列における問い合わせk−merの連続性の決定に使用されることを可能にする。これにより、存在および局所性の両方に基づき、スコアとして問い合わせがより正確になる、あるいは参照におけるk−merの近似連続性を使用することができる。
よって、本発明の好ましい実施形態は、生物配列の可能性の高い供給源を同定する方法であって、
a)供給源から配列またはショートリードのサブセットをサンプリングするステップと、
b)サブセットからの配列をk−merに断片化するステップと、
c)前記サブセットからの1種または複数のk−merを、参照配列のk−merを含む第1のコレクションに対して問い合わせるステップと、
d)前記サブセットからの1種または複数のk−merを、参照配列におけるk−merの位置を含む第2のコレクションに対して問い合わせるステップと、
e)いずれの参照がk−merを含有するか決定するステップと、
f)可能性の高い供給源参照の記述を返すステップと
を含み、参照配列のk−merを含むコレクションが、参照配列におけるk−merの位置を含むコレクションとは別々である方法に関する。
本発明のさらにより好ましい実施形態において、参照配列におけるk−merの位置を含む第2のコレクションに対する問い合わせは、参照配列のk−merを含む第1のコレクションにおいて所定のk−merが見出された(すなわち、存在する)場合にのみ行われる(図2を参照)。
本発明の好ましい実施形態において、上述のステップa)〜f)が使用される場合、所定のk−merの存在および位置は、その後のk−merの問い合わせに先立ち決定される。よって、本発明の好ましい実施形態は、生物配列の可能性の高い供給源を同定する方法であって、
a)供給源から配列またはショートリードのサブセットをサンプリングするステップと、
b)サブセットからの配列をk−merに断片化するステップと、
c)前記サブセットからのk−merを、参照配列のk−merを含む第1のコレクションに対して問い合わせるステップと、
d)前記サブセットからの前記k−merを、参照配列におけるk−merの位置を含む第2のコレクションに対して問い合わせるステップと、
e)いずれの参照がk−merを含有するか決定するステップと、
f)可能性の高い供給源参照の記述を返すステップと
を含み、参照配列のk−merを含むコレクションが、参照配列におけるk−merの位置を含むコレクションとは別々である方法に関する。
本発明の注目すべき特色の1つは、配列決定から得られる配列のサブセットのみが、データベースの問い合わせに使用されることである。この構成は、非常に大型のゲノムが配列決定され問い合わせされる際の律速ステップとなり得るデータの移行を最小化する。よって、配列のサブセットは、少なくとも1%、例えば、少なくとも2%、例えば、少なくとも4%、例えば、少なくとも5%、例えば、少なくとも6%、例えば、少なくとも7.5%、例えば、少なくとも10%、例えば、少なくとも15%、例えば、少なくとも25%、例えば、少なくとも30%、例えば、少なくとも35%、例えば、少なくとも40%、例えば、少なくとも50%の離散した配列を含むことができる。
本発明の特徴の1つは、k−mer問い合わせが、問い合わせおよび参照k−merの間の正確なマッチの決定を含むことである。
供給源配列またはショートリードが問い合わせされる場合、好ましくは、問い合わせは、少なくとも1種の供給源配列に由来するあらゆるk−merの問い合わせを含む。この構成は、連続性または近似連続性の最良の計算を可能にする。好ましくは、少なくとも50種の供給源配列、例えば、少なくとも100、例えば、少なくとも150、例えば、少なくとも200、例えば、少なくとも250、例えば、少なくとも300、例えば、少なくとも400、例えば、少なくとも500、例えば、少なくとも750、例えば、少なくとも1000、例えば、少なくとも1500、例えば、少なくとも2000、例えば、少なくとも2500、例えば、少なくとも5000種以上の配列に由来するあらゆるk−merが問い合わせされる。問い合わせされる供給源配列の正確な数は、とりわけ、ネットワークおよび計算能力、時間的制約、統計的要件および完全供給源配列のサイズおよび異なる参照に対する供給源の関係性により決定される。
実施例において実証される通り、各供給源配列は、好ましくは、供給源生物、変種、品種または分離株の特徴的なフィンガープリントを与えるための、所定の最小の長さのものである。ヌクレオチド配列である供給源配列の場合、供給源配列は、好ましくは、少なくとも50ヌクレオチド塩基、より好ましくは、少なくとも75ヌクレオチド塩基、例えば、75〜200ヌクレオチド塩基等、例えば、75ヌクレオチド塩基〜100ヌクレオチド塩基または100ヌクレオチド塩基〜125ヌクレオチド塩基または125ヌクレオチド塩基〜150ヌクレオチド塩基または150ヌクレオチド塩基〜175ヌクレオチド塩基または175ヌクレオチド塩基〜200ヌクレオチド塩基、さらにより好ましくは、例えば、少なくとも100ヌクレオチド塩基、例えば、100〜300ヌクレオチド塩基、例えば、100ヌクレオチド塩基〜150ヌクレオチド塩基または150ヌクレオチド塩基〜200ヌクレオチド塩基または200ヌクレオチド塩基〜250ヌクレオチド塩基または250ヌクレオチド塩基〜300ヌクレオチド塩基、例えば、少なくとも100ヌクレオチド塩基、例えば、100ヌクレオチド塩基、例えば、200ヌクレオチド塩基等、例えば、少なくとも250ヌクレオチド塩基、例えば、300ヌクレオチド塩基、例えば、400ヌクレオチド塩基、少なくとも500以上のヌクレオチド塩基のものである。
多くの実際的な実行において、配列の1種のサブセットが、最初に問い合わせされる。これが、十分に高い確実性による参照の決定に十分でない場合、本方法は、配列の1種または複数のさらなるサブセットを選択するステップと、これらを、本発明の方法のステップa)〜e)またはa)〜f)に付すステップとをさらに含むことができる。
原則的に、本方法は、いかなるサイズのk−merまたはk個組の使用も可能にする。しかし、好ましい実施形態において、k−merのサイズは、4で割ることができる。したがって、k−merは、サイズ4、8、12、16、20、24、28、32、36、40、44、48、52、56、60、64以上のものとなり得る。より好ましくは、k−merは、16から64の間、より好ましくは、16から32の間の長さのものとなり得る。より長いk−merは、本方法の配列決定エラーに対する感度をより高め、より短いk−merは、ランダムヒットの数を増加させ、これにより、ノイズを生じる。
一実施形態において、k−merは連続しており、好ましくは、データベースに保存されているk−merは、参照配列全体を網羅するために連続している。
好ましくは、供給源配列に由来するk−merは、重複しており、少なくとも1、例えば、少なくとも2、例えば、少なくとも3、例えば、少なくとも4、例えば、少なくとも5、例えば、少なくとも6以上の塩基またはアミノ酸ずつ漸増する。これは、配列にわたる幅kのウィンドウのスライドに相当する。ウィンドウは、配列にわたり1、2個以上の塩基/アミノ酸ずつスライドさせることができる。例えば、一塩基突然変異/エラーのどちらかの側におけるk−merを問い合わせにおいて同定できるであろうことから、供給源配列から重複する漸増k−merを作成することにより、本方法は、配列決定エラーまたは点突然変異に対する感度が低くなる。したがって、連続性は、より高い精度で算出することができる。
供給源配列における互いに素な部分配列の連結に起因する互いに素なk−merの使用も可能である。
好ましくは、本方法において、所定の配列に由来するk−merが、データベースに対して問い合わせされて、1種または複数の参照配列におけるk−merの存在と、前記1種または複数の参照配列におけるk−merの位置を決定する。データベース使用を最適化するために、位置は、好ましくは、k−merがデータベースに存在する場合にのみ問い合わせされる。
問い合わせの定量的評価を可能にするために、本方法は、同定された参照配列のスコアを算出するステップを含み、該スコアは、所定の参照配列に見出される1種または複数の配列に由来するk−merの数に相関する。このスコアは、例えば、供給源配列の長さで割ることができる。同定された参照のさらなるスコアを算出することができ、該さらなるスコアは、参照配列に見出される1種または複数の配列に由来するk−merの連続性に相関する。例えば、スコアは、データベースにおいて見出される1種の供給源配列に由来するk−merおよびデータベースにおける1種の参照配列において見出されるk−merの最長の配列のパーセンテージとなり得る。
同様に、同定された参照配列毎に、同定された参照のスコアを算出することができ、該スコアは、供給源に由来するk−merのサブセットにも存在する参照配列におけるk−merの数に相関する。一例は、供給源配列において見出されるデータベースにおける1種の参照に由来するk−merのパーセンテージとなり得る。多くの実際の適用において、満足のいく確実性を得るために、数百種の供給源配列が問い合わせおよびスコアリングされる。このスコアは、同定されたk−merの連続性に基づくスコアを含むこともできる。
これらのスコアは、好ましくは、別個の供給源配列毎に算出され、例えば、1種の供給源配列に由来するあらゆるk−merが問い合わせされ、前記供給源配列の1個または複数のスコアが算出される。好ましくは、本方法は、第2の供給源配列、好ましくは、第3の供給源配列等に由来するあらゆるk−merの問い合わせをさらに含む。異なる供給源配列のスコアは、例えば、供給源配列の長さによりこれらを秤量することにより組み合わせることができる。
本発明の一実施形態において、リードのために作成されたあらゆるk−merが処理されたら、参照においてマッチした近接位置の数を使用して、マッチの最大のクラスター、すなわち、あらゆるマッチする参照にわたる同じリードに起源をもつマッチするk−merの最大の濃度を単離する。かかるクラスター毎に、所定の参照配列の計数に、クラスターにおけるk−merの数を加えることにより、計数が算出される。所定の試料に由来する2種以上のリードにわたり本方法が反復される場合、先のリードから得られた参照配列の計数に、クラスターにおけるk−merの数を加えることにより、計数をアップデートすることができる。すなわち、該参照のk−merの数を加えることにより、計数をアップデートすることができ、既に計数されたk−merのリストがアップデートされる。続いて、次の配列またはリードを処理することができる。マッチすることが判明したk−merの計数が関連付けされた参照のリストが得られる。ペア<参照、計数>毎に、計数を、問い合わせセットにおける特有のk−merの数で割り、所定の参照によりマッチした問い合わせたサブセットにおけるDNAの量の大雑把なスコアを得る。問い合わせたサブセットが、配列に完全にマッチする場合、該スコアは、1となり、そうでなければ、これはより小さくなる;例えば、問い合わせたサブセットが、2種の参照の等しい割合の混合物である場合、両方の参照のスコアは、0.5前後となるであろう。該計数は、参照のサイズ(または参照配列における特有のk−merの数)で割って、問い合わせたサブセットによって表される参照の画分の大雑把なスコアを得ることもできる;該第2のスコアは、マッチする参照の選別および最大の参照へのバイアスの回避に役立つ。最終スコアは、例えば、スコア毎に等しい加重が使用された、これら2スコアの加重和である。
本発明の一実施形態において、予め選択された数の供給源配列を問い合わせし、結果を返す。しかし、他の実施形態において、データベース問い合わせは、定義済みの統計的確率により参照生物が同定されたら中止することができる。同様に、k−merの定義済みの画分が、データベースにおいて見出されない、またはさらなる供給源配列により伸長される、あるいはスコアが緩和パラメータにより算出される場合、データベース問い合わせは中止することができる。これは、ジャンク配列、多くの配列決定エラーを有する配列または完全な未知配列の場合に生じ得る。
問い合わせプロセスからの出力は、前記スコアまたは複数のスコアのうち1種または複数に従ってランク付けされた可能性の高い供給源参照のリストとなり得る。データベース出力の他の例として、1種または複数の可能性の高い参照に関する次の情報のうち1種または複数が挙げられる:可能性の高い参照の分類学的名称、前記可能性の高い参照の近縁、前記参照の供給源、遺伝連鎖情報、SNPに関する情報、配列における遺伝子の位置およびアノテーション。
特定の実施形態において、データベースは、最も可能性の高い参照の配列を出力し、好ましくは、データベースは、最も可能性の高い参照種の完全ゲノム配列を出力する。これにより、使用者は、最先端のアライメントアルゴリズムを使用して最も可能性の高い種の完全ゲノム配列に対して供給源配列をアライメントし、突然変異または挿入または染色体異常、異常性もしくは異状が存在するかさらに調査することができる。しかし、本発明の一実施形態において、本発明の方法は、例えば、Smith−Watermanアルゴリズム[14]、BLAST[1]、BLAT[5]、Bowtie、BWA、SHRiMP[16]または当業者に公知の他のアライメントアルゴリズム等、例えば、スコアリングマトリクスを使用するアライメントアルゴリズム等、配列データに関するアライメントアルゴリズムの使用を含まない。
微生物配列が問い合わせされる場合等、多くの場合、データベースは、多くの密接に関係する配列、例えば、同じ種の異なる分離株に由来する配列を含むことができる。かかる事例において、非常に類似した配列を有する参照からの結果は、出力においてグループ化することができる。これは、使用者が、より少量で存在する別の種または異なる種に由来する挿入DNAの小片をより容易に同定することも可能にできる。
多くの場合、試料は種の混合集団を含有し、全ゲノムの配列決定は、複数の種に由来するゲノムDNAの混合物をもたらすであろう。このような場合、本方法は、第1の反復における最も豊富な参照の同定等、本方法の数回の反復の実行を含み得る。第2の反復において、最も豊富な種に由来する配列は、データベースを問い合わせる前に供給源配列から除去することができる、あるいは本方法は、該種に由来するさらなる結果の無視を含み得る。
あるいは、本発明の方法の1回の反復からの出力は、同定された全参照の情報およびスコアを含むことができる。この場合のスコアは、異なる参照間のパーセンテージ分布を含むことができる。
本実施形態は、ウイルス挿入、導入遺伝子または別の細菌種に由来する挿入等、挿入の参照を同定するために使用することもできる。
多くの実施形態において、使用者は最初に、1種の参照に由来する配列またはショートリードが、試料に存在することを知ることになり、続くタスクは、試料に存在する任意の他の配列またはショートリードの可能性の高い参照を同定することになる。これは、試料がヒトDNAおよび潜在的病原体に由来するDNAの両方を含有する診断の場合となり得る。他の例として、試料が食物供給源(例えば、サラダ、トマト、キュウリ、特定の種に由来する肉)に由来するDNAを含有することが公知の、食物試料における有害細菌の同定が挙げられ、タスクは、いずれかの混入DNAの存在および同一性を同定することである。かかる方法において、本方法は、定義済み参照に由来する配列とアライメントする供給源配列を最初に除去することを含み得る。あるいは、本方法は、1種または複数の定義済み参照に由来するk−merの無視を含み得る。
一実施形態において、本方法は、核酸シーケンサーから得られる未加工のリードのサンプリングおよび問い合わせを含む。
診断目的のためにシーケンサーからのショートリードまたは未加工のリード等、同定するためのDNAデータの問い合わせセットを有する場合、本出願人らは、包括的参照データベースに対するあらゆるリードのマッピングまたはアライメントに存する総当たり(brute-force)アプローチが、2つの主要な不利益を有すると考慮する:第1に、配列決定設備から計算センターに移行される、数百メガバイトまたは数ギガバイトもの多さのデータ、第2に、タスクの実行に必要とされる計算資源が著しいこと。参照コレクションが、10,000種のE.coliサイズの細菌を含有すること、また、BWAおよびbowtie2等、最適化されたアライナが、250M塩基の未加工の配列決定データ(ゲノムが4M塩基のサイズである場合、平均カバー度における約60×)を処理するために30秒を要することを仮定すると、これはCPUにおいて3日半を要するであろうが、複数のCPUにおいて自明に並列化することができる。ゲノムのかかる連結の精密化を行うことができるが、但し、増え続ける量のメモリ、最初の参照ゲノムにマッピング位置を割り当てるための後処理計算と、ショートリードアライナが落ち着かないことが多い、近縁のゲノムが参照される際に必然的な複数のマッチの要求を代償とする。FM−インデックスを使用した、サイズuの参照における長さpの文字列のn発生の位置づけの時間計算量は、上界O(p+n logε u)を有し、これは、logεにおける項により、計算量は、参照のサイズが増加するにつれて徐々に増していくが、高度に類似したゲノムの数と共に直線的に増していくことを意味する。本出願人らのアプローチは、莫大な参照データベースの展望を包含し、1台のコンピュータの全RAMにおけるその維持を試みない。
データベース
一態様において、本発明は、参照配列のk−merを含むデータベースであって、
a.参照配列からのk−merの第1のコレクションと、
b.参照配列における各k−merの位置の第2のコレクションと
を含むデータベースに関する。
データベースアーキテクチャは、添付の実施例において図解されている通り、供給源配列に由来するk−merの非常に迅速な問い合わせを可能にし、数秒の間に結果が返され得ることを実証する。
データベースは、所定の参照に関連する全長配列、および/または前記参照の供給源および/または前記参照の1種もしくは複数の分類学的記述子に関する情報をさらに含むことができる。保存することができる追加的な情報は、DNA配列においてアノテートされる遺伝子に関する情報である。
データベースを構築する場合、k−merは、各特有のk−merに特有のキーを割り当てるハッシュ関数に付すことができる。他の可能性は、探索木またはハッシュ関数および探索木の組合せを含む。特有のキーは、k−merが存在するこれらの参照に関する情報に関連し得る。
第2のコレクションにおいて、第2のコレクションにおける各特有のk−merは、キーとして使用することもでき、ハッシュ表、探索木またはこれらの組合せにより、存在するのであれば、各参照におけるk−merの位置に関する情報に関連付けることもできる。このコレクションは、コード配列、調節配列等、配列のいずれかのアノテーションへの関連等、k−merが存在する位置に関するさらなる情報を含むことができる。
配列、コード配列、調節配列のいずれかのアノテーションへの関連、可能性の高い参照の分類学的名称、前記可能性の高い参照の近縁、前記参照の供給源、さらなる関係する参照の群、参照が得られた場所(土壌、海、腸、下水管等)、参照配列が得られた時期、分類学的分類、近縁種、参照配列がダウンロードされたデータベースに関する情報(例えば、NCBI、EBI/Sanger)または他の情報等、所定のk−merが存在する参照配列に関する1種または複数のさらなる情報は、SQLデータベース等、本発明に係る参照配列に関する情報の情報検索に追加的に使用することができる別々のデータベースにおいて保存することもできる。
用語により、「さらなる関係する配列の群」は、土壌、海、腸、下水管等、類似の環境において採取された試料に由来する配列を意味する。
よって、本発明の一実施形態において、参照配列のk−merを含むデータベースは、
a)参照配列からのk−merの第1のコレクションと、
b)参照配列における各k−merの位置の第2のコレクション。
c)参照識別子と、記述ライン(description line)、データの供給源、可能性の高い参照の分類学的名称、前記可能性の高い参照の近縁、前記参照の供給源、さらなる関係する参照の群の情報、参照が得られた場所(土壌、海、腸、下水管等)、参照配列が得られた時期、分類学的分類、近縁種、参照配列がダウンロードされたデータベースに関する情報(例えば、NCBI、EBI/Sangerまたは他のデータベース)からなる群から選択される1または複数の情報とを有する第3のコレクションまたはデータベース
を含む。
好ましい実施形態において、図1に示す通り、k−merの第1のコレクションは、各k−mer(データベースにおけるキー)に、該k−merを有する参照に相当する識別子のリストを関連付けるキー値保存またはNoSQLデータベース(例えば、KyotoCabinet)である。参照配列におけるk−merの位置の第2のコレクションは、キー値保存またはNoSQLデータベース、例えば、KyotoCabinetにおいて保存することもできる(図1を参照)。参照間の関連、識別子ならびに記述ラインおよびデータの供給源等の情報部分は、別々のSQLデータベースにおいて保存される。
データベースにおけるk−merの長さは、適切なルックアップを仮定するが、好ましくは、供給源配列におけるk−merの長さにマッチする。しかし、データベースにおけるk−merは、好ましくは、重複していない。重複k−merの使用は、データ処理時間を増加させるであろう。
本発明において、データベースにおける参照配列のインデックス付けされたk−merは、重複または非重複となり得る。好ましい実施形態において、インデックス付けされた参照配列のk−merは、非重複である。当業者であれば、類似のスコアリング原理が、参照配列における非重複または重複k−merのインデックス付けされたデータベースに使用され得ることを認められよう。
k−merでインデックス付けされたサイズuの参照における長さpの文字列のn発生の位置づけの時間計算量は、kインデックス付けおよびルックアップにツリーまたはハッシュが使用される場合、O(p+n log u)またはO(p+n)の計算量を有する。
これは、k−merが重複し、少なくとも1、例えば、少なくとも2、例えば少なくとも3、例えば、少なくとも4、例えば、少なくとも5、例えば、少なくとも6以上の塩基またはアミノ酸ずつ漸進する実施形態を除外しない。
好ましい実施形態において、所定の参照の完全ゲノム配列は、k−merに断片化され、データベースにアップロードされる。所定の参照のトランスクリプトームまたは所定の参照のプロテオームのみに基づきデータベースを構築することも考え得る。
目的が、単に、供給源配列の可能性の高い参照を同定することである場合、データベースは、完全である必要はない。特定の参照に由来するゲノムDNAのランダムな選択を提供すれば十分となり得る。選択は、非ランダムとなることもでき、例えば、繰り返しDNAおよびいわゆるジャンクDNAのストレッチを除外する。
生物配列、タンパク質、RNA、DNAの種類毎に、あらゆる利用できる情報を含有する1種のデータベースを構築することができる。他の実施形態において、特化したデータベースは、目的が、単に供給源配列に由来する所定の参照配列の有無を同定することである場合等、特化した目的のために構築することができる。例えば、データベースは、ヒト、動物、哺乳動物、鳥類、魚類、真菌、昆虫、植物、細菌、古細菌、ウイルスおよび/またはプラスミドに由来する配列情報を含むことができる。十分に高いスコアでマッチする参照を見出さない場合、データベースのネットワークは、1個のサーバーによって1個または数個の他に送られるリードに関する要求により構築することもできる。
スピードを損なうことなくハードウェア資源の最適な使用を為すために、データベースは、数個の異なるサーバーに保存されるサブデータベース(sub-database)に分けることができる。
他の実施形態において、データベースは、門、綱、目、科、属および種から選択される1種もしくは複数の分類学的記述子、または供給源、分布、起源および通常の検索頻度等の1種もしくは複数の環境的記述子に従ってサブデータベースへと組織化される。
データベースは、図1に説明されている通りに構築し、キー値保存(例えば、BSDDB、KyotoCabinet、LevelDB、MongoDBその他)として公知のデータベースエンジンを使用して保存することができる。よって、本発明の一実施形態において、データベースは、BSDDB、KyotoCabinet、LevelDB、MongoDBからなる群から選択されるキー値保存を使用して保存される。
アルゴリズムの適用
本発明の方法およびシステムは、試料において見出されるDNAの可能性の高い供給源を同定する必要がある数多くの適用において使用することができる。
診断
内科的治療法において、感染の可能性の高い供給源を迅速に同定する必要がある。これは、本発明に係る方法を使用して行うことができる。これにより、最も有効な様式で最小の副作用により感染を処置するであろう、適した処置を選択することができる。
さらに別の診断適用は、がん細胞におけるウイルス挿入の同定に関する。この適用において、未加工のリードにおいて得られる配列から完全ヒト配列をフィルターにかけること、あるいはデータベースにおいて同定されるあらゆるヒトのヒットを単純に無視することが有利となり得る。これは、ヒトゲノムにおける相対的に小型のウイルス挿入の同定を可能にするであろう。
生物テロ防御
生物テロ防御適用において、遭遇した感染性または病原性因子の種の速くて信頼できる同定の必要がある。本発明は、供給源の予備的知識がない状態で、供給源の迅速な同定の可能性を提供する。本発明の方法は、病原体の種の予備的知識がない状態で、種の識別を可能にする。
生物テロ防御におけるさらなる適用は、例えば、毒性導入遺伝子が挿入されたトランスジェニック病原体の同定を含む。データベースは、有利には、最先端のプラスミドに由来する配列情報も含有する。これは、挿入の隣接領域の容易な同定を可能にする。導入遺伝子が、データベースに見出される生物に由来する場合、導入遺伝子の供給源を同定することも可能になる。このような場合、データベースは、病原体の名称、導入遺伝子が由来する生物の名称、導入遺伝子にコードされる遺伝子および導入遺伝子の挿入に使用されたプラスミドを返すことができる。
食物安全性および品質
食物における潜在的に有害な感染を同定するための現在の方法は、時間がかかる(感染性生物の単離および成長に基づく)、あるいは感染の供給源の事前の知識を必要とする(PCRに基づく方法)。本方法は、そのいずれも必要とせず、権限を持つ者および製造業者が、ゲノムDNAを単純に単離し、DNAを配列決定し、本発明の方法を操作することができるシステムに未加工のリードをアップロードすることを可能にする。
食物の試料における細菌、真菌またはウイルスを探す場合、細菌、真菌またはウイルスに由来する配列のみを含有するデータベースの画分を問い合わせることが有利となり得る。このようにして、食物(野菜、果実、肉)に由来するいかなるゲノム配列もデータベースに存在しないものとして同定され、これにより、本方法の性能を改善するであろう。
他の適用として品質管理が挙げられる。可能な適用の1つは、ひき肉、パテ、調理済みの食事、インスタント食品等、肉の種の同定である。牛肉またはラム肉等の高価な肉が、豚肉等のより安価な肉に置き換えられたまたは「希釈された」、不正を試みた数多くの例がある。
他の可能な品質管理適用として、ブドウ、リンゴ、ジャガイモ等、植物の変種の決定が挙げられる。
さらに他の可能性として、水質の管理が挙げられる。
衛生および予防法
本発明は、クリーニング手順に関連して採取された試料におけるDNAの供給源の迅速な同定を可能にすることによる衛生管理の可能性を提供する。さらなる適用は、混入の可能性の高い供給源の同定を含み、これにより、特定の感染病原体の排除に最も適した衛生学的技法の適用を可能にする。
項目
次に、任意で番号を振った項目1から56として本発明を説明するが、これらは、本発明の実施形態として考慮されたい。本発明は、添付の特許請求の範囲を参照してさらに定義される。
1.生物配列の可能性の高い供給源を同定する方法であって、
a)供給源から配列またはショートリードのサブセットをサンプリングするステップと、
b)サブセットからの配列をk−merに断片化するステップと、
c)前記サブセットからのk−merを、参照配列のk−merを含むデータベースに対して問い合わせるステップと、
d)いずれの参照がk−merを含有するか決定するステップと、
e)可能性の高い供給源参照の記述を返すステップと
を含む方法。
2.生物配列またはショートリードが、アミノ酸配列である、項目1に記載の方法。
3.生物配列またはショートリードが、DNAまたはRNA配列である、項目1に記載の方法。
4.k−mer問い合わせが、問い合わせおよび参照k−merの間の正確なマッチの決定を含む、前記項目のいずれかに記載の方法。
5.問い合わせステップが、参照配列におけるk−merの位置を決定するステップをさらに含む、前記項目のいずれかに記載の方法。
6.存在および位置が使用されて、参照配列における問い合わせk−merの連続性を決定する、前記項目のいずれかに記載の方法。
7.問い合わせが、少なくとも1種の供給源配列またはショートリード、好ましくは、少なくとも50、例えば、少なくとも100、例えば、少なくとも150、例えば、少なくとも200、例えば、少なくとも250、例えば、少なくとも300、例えば、少なくとも400、例えば、少なくとも500、例えば、少なくとも750、例えば、少なくとも1000、例えば、少なくとも1500、例えば、少なくとも2000、例えば、少なくとも2500、例えば、少なくとも5000種以上の配列に由来するあらゆるk−merの問い合わせを含む、前記項目のいずれかに記載の方法。
8.供給源配列が、少なくとも50塩基、好ましくは、少なくとも100塩基、例えば、少なくとも150塩基、例えば、少なくとも200塩基、例えば、少なくとも250塩基、例えば、少なくとも300塩基、例えば、少なくとも400、少なくとも500以上の塩基のヌクレオチド配列である、前記項目のいずれかに記載の方法。
9.配列のサブセットが、少なくとも1%、例えば、少なくとも2%、例えば、少なくとも4%、例えば、少なくとも5%、例えば、少なくとも6%、例えば、少なくとも7.5%、例えば、少なくとも10%、例えば、少なくとも15%、例えば、少なくとも25%、例えば、少なくとも30%、例えば、少なくとも35%、例えば、少なくとも40%、例えば、少なくとも50%の離散した配列を含む、前記項目のいずれかに記載の方法。
10.配列の1種または複数のさらなるサブセットを選択するステップと、これらを項目1のステップa)〜e)に付すステップとをさらに含む、前記項目のいずれかに記載の方法。
11.サブセットが、ランダムであるまたはフィルターをかけられている、前記項目のいずれかに記載の方法。
12.k−merが、サイズ4、8、12、16、20、24、28、32、36、40、44、48、52、56、60、64以上のものである、前記項目のいずれかに記載の方法。
13.k−merが、連続している、前記項目のいずれかに記載の方法。
14.k−merが、重複しており、少なくとも1、例えば、少なくとも2、例えば、少なくとも3、例えば、少なくとも4、例えば、少なくとも5、例えば、少なくとも6以上の塩基またはアミノ酸ずつ漸増する、前記項目のいずれかに記載の方法。
15.k−merが、互いに素な部分配列の連結である、前記項目のいずれかに記載の方法。
16.所定の配列に由来するk−merが、データベースに対して問い合わせされて、1種または複数の参照配列におけるk−merの存在および前記1種または複数の参照配列におけるk−merの位置を決定する、前記項目のいずれかに記載の方法。
17.位置が、k−merが存在する場合にのみ問い合わせされる、項目16に記載の方法。
18.返された参照のスコアが算出される、前記項目のいずれかに記載の方法。
19.同定された参照配列のスコアが算出され、スコアが、所定の参照配列に見出される1種または複数の配列に由来するk−merの数に相関する、前記項目のいずれかに記載の方法。
20.同定された参照のスコアが算出され、スコアが、参照配列に見出される1種または複数の配列に由来するk−merの局所的濃度の平均による連続性または近似連続性に相関する、前記項目のいずれかに記載の方法。
21.同定された参照のスコアが算出され、スコアが、供給源に由来するk−merのサブセットにも存在する参照配列におけるk−merの数に相関する、前記項目のいずれかに記載の方法。
22.可能性の高い供給源参照が、前記スコアまたは複数のスコアに従ってランク付けされる、項目18〜21のいずれかに記載の方法。
23.1種の供給源配列またはショートリードに由来するあらゆるk−merが問い合わせされ、前記供給源配列またはショートリードの1種または複数のスコアが算出される、前記項目のいずれかに記載の方法。
24.第2の供給源配列またはショートリード、好ましくは、第3の供給源配列またはショートリード等に由来するあらゆるk−merを問い合わせるステップをさらに含む、項目23に記載の方法。
25.定義済みの統計的確率により参照生物が同定されたら、データベース問い合わせを中止することができる、前記項目のいずれかに記載の方法。
26.k−merの定義済みの画分が、データベースに見出されない場合、データベース問い合わせを中止することができる、前記項目のいずれかに記載の方法。
27.データベースが、1種または複数の可能性の高い参照に関する次の情報:可能性の高い参照の分類学的名称、前記可能性の高い参照の近縁、前記参照の供給源、さらなる関係する参照の群のうち1種または複数を出力する、前記項目のいずれかに記載の方法。
28.データベースが、最も可能性の高い参照の配列を出力し、好ましくは、データベースが、最も可能性の高い参照種の完全ゲノム配列を出力する、前記項目のいずれかに記載の方法。
29.非常に類似した配列を有する参照からの結果またはさらなる関係する参照からの結果が、出力においてグループ化される、前記項目のいずれかに記載の方法。
30.第1の反復において、最も豊富な参照を同定し、供給源配列またはショートリードから前記最も豊富な参照に由来する配列を除去するステップ等、方法の数回の反復が行われる、前記項目のいずれかに記載の方法。
31.第2の反復において、2番目に最も豊富な参照を同定し、前記2番目に最も豊富な参照に由来する配列を除去するステップ等をさらに含む、項目30に記載の方法。
32.第2の反復において、挿入の可能性の高い参照を同定するステップをさらに含む、項目30に記載の方法。
33.定義済みの参照に由来する配列とアライメントする供給源配列を最初に除去するステップをさらに含む、前記項目のいずれかに記載の方法。
34.ある1供給源配列またはショートリードに由来する定義済みの数のk−merが、データベースに存在しない場合、前記供給源配列またはショートリードに由来するk−merを無視するステップを含む、前記項目のいずれかに記載の方法。
35.問い合わせが、1種または複数の定義済みの参照に由来するk−merの無視を含む、前記項目のいずれかに記載の方法。
36.未加工の配列が核酸シーケンサーから得られると、問い合わせされる、前記項目のいずれかに記載の方法。
37.参照配列のk−merを含む、データベースであって、
a.参照配列からのk−merの第1のコレクションと、
b.参照配列における各k−merの位置の第2のコレクションと
を含むデータベース。
38.所定の参照に関連する全長配列、および/または前記参照の供給源、および/または前記参照の1種もしくは複数の分類学的記述子に関する情報をさらに含む、項目37に記載のデータベース。
39.データベースにおけるk−merが、各特有のk−merに特有のキーを割り当てるハッシュ関数に付される、項目37〜38のいずれかに記載のデータベース。
40.第1のコレクションにおける各特有のk−merが、k−merが存在するこれらの参照に関する情報へのベクトルによって関連付けされる、項目37〜39のいずれかに記載のデータベース。
41.第2のコレクションにおける各特有のk−merが、存在する場合、各参照におけるその位置に関する情報へのベクトルによって関連付けされる、項目37〜40のいずれかに記載のデータベース。
42.k−merが、長さ4、8、12、16、20、24、28、32、36、40、44、48、52、56、60、64以上のものである、項目37〜41のいずれかに記載のデータベース。
43.k−merが、非重複である、項目37〜42のいずれかに記載のデータベース。
44.k−merが重複し、少なくとも1、例えば、少なくとも2、例えば、少なくとも3、例えば、少なくとも4、例えば、少なくとも5、例えば、少なくとも6以上の塩基またはアミノ酸ずつ漸増する、項目37〜43のいずれかに記載のデータベース。
45.各参照の完全配列に由来するk−merを含む、項目37〜44のいずれかに記載のデータベース。
46.ヒト、動物、哺乳動物、鳥類、魚類、真菌、昆虫、植物、細菌、古細菌、ウイルスおよび/またはプラスミドに由来する配列情報を含む、項目37〜46のいずれかに記載のデータベース。
47.数個の異なるサーバーに保存されるサブデータベースに分けられる、項目37〜46のいずれかに記載のデータベース。
48.門、綱、目、科、属および種から選択される1種もしくは複数の分類学的記述子、または供給源、分布、起源および過去の問い合わせ頻度等の1種もしくは複数の環境的記述子に従ってサブデータベースへと組織化される、項目37〜47のいずれかに記載のデータベース。
49.入力デバイスと、中央処理ユニットと、メモリと、出力デバイスとを含む、供給源配列の可能性の高い供給源を同定するためのデータ処理システムであって、前記データ処理システムが、実行されると項目1〜36に記載の方法を実施させる命令シーケンスを表すデータを内部に保存し、メモリが、項目37〜49のいずれかに記載のデータベースをさらに含むデータ処理システム。
50.データベースが、サーバーに保存され、入力および出力デバイスが、クライアントであり、クライアントおよびサーバーが、データ通信接続を介して接続されている、項目49に記載のシステム。
51.クライアントが、パーソナルコンピュータ、固定型PC、ポータブルPC、スマートフォン等の携帯型計算デバイスから選択される、項目49〜50のいずれかに記載のシステム。
52.クライアントは、クライアントが、供給源配列のサブセットをサンプリングし、これらをk−merに断片化し、これらをサーバーに伝達することを可能にする命令シーケンスを含む、項目49〜51のいずれかに記載のシステム。
53.クライアントが、クライアントが、サーバーからクライアントへと伝達された配列に基づき、1種または複数のより大型の配列への供給源配列のアセンブリを実行することを可能にする命令シーケンスをさらに含む、項目49〜52に記載のシステム。
54.データ接続を介して配列決定装置に接続されている、項目49〜53のいずれかに記載のシステム。
55.実行されると項目1〜36に記載の方法を実施させる命令シーケンスを含有するコンピュータソフトウェア製品。
56.実行されると項目1〜36に記載の方法を実施させる命令シーケンスを含有する集積回路製品。
k−merによる配列の迅速な同定
そこで、本出願人らは、DNAまたはRNAの可能性の高い起源を迅速に指し示すことができ、DNAシーケンサーから得られた未加工のリードにおいて直接作業することができる新規方法、Tapirを提示する。本出願人らのシステムは、公知DNAを参照するサーバーと、認定しようとするDNAデータを有するクライアントに存する。使用を実証するために、本出願人らは、数千種の細菌ゲノム、ファージゲノム、ファージおよびプラスミドと共に、ヒトゲノム、マウスゲノム、A.thalianaおよび真菌、古細菌に由来する様々な配列を参照した。本出願人らは、ウェブブラウザにおいてランできるクライアントも実行し、これはポータブル計算デバイスからギガ塩基のデータを処理することができる。本方法は、k−merのインデックス付けと、サーバーへの限られた量のデータの移行に頼る。これは、Androidスマートフォンから数秒以内でそのタスクを行うことができ、サーバーと通信する中程度の量の帯域幅を消費し、本出願人らの知る限りにおいて、いずれかの現存するツールとは異なり使用に単純さをもたらす。これは、配列決定ランにおけるルーチンの即時品質検査のために本出願人らのコア設備において使用されており、http://tapir.cbs.dtu.dkにおいて利用することができる。
序文
DNAの配列決定は、これを重ねて主張することそれ自体が、絶対的に陳腐なコメントとなるほどに、過去10年間にわたってますます手頃なものとなった[13]。今日のハイエンドシーケンサーは、数種類のヒトゲノムまたは数百種類の細菌の均等物を処理する容量を有し、また、次世代のシーケンサーが、既に利用できるようになり始めており、これは必要とされる初期投資がさらに少なく、配列決定容積に及ぶ柔軟性をもたらす。完全細菌分離株の配列決定は、一日がかりの仕事であるが、直ぐに数時間の仕事となるであろう。ナノポア配列決定[12]に関する近年の発表は、DNAを直接的に配列決定することができる、配列決定デバイスが使い捨て型となるため前例のない低レベルの資本投資の、USBから電源供給されるデバイスを提示した。この将来的な製品の背後に存在する会社であるOxford Nanoporeは、2012年にリリースを発表した[8]。DNAの抽出は、相対的に単純な手順であり、DNA配列決定が、直ぐに分子生物学におけるルーチンで安価な手順となるであろうことが予見できる。患者は、ルーチンに配列決定され、感染病原体の大流行は、それらのDNAによって追跡され、水および食物の品質も、DNA配列決定によりモニターされるであろう。
分析論の側面において、Smith−Watermanアルゴリズム[14]等、先駆的ツールによる配列の局所的アライメントは、バイオインフォマティクスの礎石であった。問い合わせおよび参照のコレクションの間に適用されると、これは、アライメントのランク付けを可能にし、研究者に、既に現存する配列とのその類似性から、新たに配列決定されたDNAまたはRNAの起源および機能を推論させる。この方法論は、時に不正確であることが批判にさらされたが[2、11]、その人気は、依然として疑いの余地がなく、公開データベースにおける多数の機能的アノテーションは、「配列相同性による」との言及を有する。しかし、データベースに保存記録されている現存する参照と新たに得られたDNAとのアライメントは、依然として、相対的に要求が多い計算的タスクである。BLAST[1]および後のBLAT[5]は、スピードを改善したが、未だに、現在利用できる配列の数により、公知配列のプールに対する新たな配列の検索は、ウェブ検索エンジンがほとんど即時に結果を返す時代において、相対的に長い時間を要し得る。2つだけ名前を挙げるとすれば、Bowtie[6]およびBWA[7]等、ショートリード配列決定のために設計された新たなツールが以来開発されたが、これらのツールは、所定の参照に対してあらゆる配列決定リードをアライメントするために設計されている。スピードを達成するために、かかるツールは、メモリへと参照のインデックスをロードし、これにより、取り扱うことができる参照DNAの量を限定する。
本出願人らは、問い合わせ配列および参照のコレクションの間に絶対的な最良のアライメントを見出すことを計算的に要求するタスクと、問い合わせ配列のセットからの大部分がマッチする参照を迅速に同定することとの間にギャップを観察した。本出願人らが知る限り、DNAシーケンサーから出てきたリード等、短いDNAまたはRNA配列のセットを採取し、セットが代表する完全ゲノムまたは個々の遺伝子のいずれかの参照のリストを返すような、単純なツールは存在しない。これを行うために、本出願人らは、数秒以内にDNA配列の供給源を幾分正確に同定するために、BLATおよびSSAHA[9、10]の両方におけるアライメントシードならびにMUSCLE[3]におけるk−mer計数とは別個の仕方でk−merを使用することを提案する。
材料と方法
EBIおよびNCBIから利用できる公表されているゲノム、コンティグ、プラスミドおよび個々の遺伝子をダウンロードして、本出願人らの参照DNAとした。各参照配列を重複k−merに分割し、あらゆる参照にわたるあらゆるk−merに対し、キー値保存またはNoSQLデータベース(本出願人らは、KyotoCabinet[4]を使用した)を作成し、各k−mer(データベースにおけるキー)に、該k−merを有する参照に相当する識別子のリストを関連付けた(図1)。本出願人らは、これを存在データベースと呼んだ。同様に、k−merが見出される参照における位置を、本出願人らが位置データベースと呼ぶ場所に保存した(図1)。記述ラインおよびデータの供給源等、参照識別子および情報の間の関連を、別々のSQLデータベースに保存した。
短い問い合わせ配列またはリードのセットをスコアリングするために、本出願人らは、それらのランダム試料を通して反復する(図2)。配列毎に、本出願人らは、配列にわたり幅kのウィンドウをスライドさせることにより得られる、連続したk−merにわたって反復する。k−mer毎に、これが前に計数されておらず、存在データベースに見出される場合、本出願人らは、参照の位置を問い合わせる。リードのあらゆるk−merが処理されたら、本出願人らは、参照においてマッチした近接位置の数を調べ、あらゆるマッチする参照にわたり同じリードに起源をもつマッチするk−merの最大の濃度である、マッチの最大のクラスターのみを考慮する。かかるクラスター毎に、本出願人らは、恐らく以前に該参照に加えられた数に、k−merの数を加え、既に計数されたk−merのリストをアップデートする。続いて、次の配列またはリードを処理する。本出願人らは、マッチすることが判明したk−merの計数が関連付けされた参照のリストを得る。ペア<参照、計数>毎に、計数を、問い合わせセットにおける特有のk−merの数で割り、所定の参照によりマッチした問い合わせにおけるDNAの量の大雑把なスコアを得る。問い合わせセットが、配列に完全にマッチする場合、該スコアは、1となり、そうでなければ、これはより小さくなるであろう;例えば、問い合わせセットが、2種の参照の等しい割合の混合物である場合、両方の参照のスコアは、0.5前後となるであろう。該計数をまた、参照のサイズ(参照配列における特有のk−merの数)で割り、問い合わせによって表される参照の画分の大雑把なスコアを得る;この第2のスコアは、マッチする参照の選別および最大の参照へのバイアスの回避に役立つ。最終スコアは、これら2種のスコアの加重和であり、デフォルトは、等しい加重である。問い合わせセットが大型である場合、例えば、本出願人らが、DNA配列決定ランから得られるあらゆるリードを考慮する場合、該セットのランダム試料のみを使用する。
サービスの使用を容易にするために、ウェブブラウザにおけるページとしてランするHTML5/Javascript(登録商標)クライアントを実行した。書き出しの時点において、Firefox 15.0は、あらゆる必要とされる特色を実行する唯一のブラウザであり、本出願人らは、Linux(登録商標)、Mac OS X、Microsoft Windows(登録商標)およびAndroid 4.0において作業するために検査した。
配列決定データにおける細菌を同定するために本来設計された本出願人らのシステムをベンチマーク評価するために、本出願人らは、747種の細菌ゲノムである、2012年の初めにEBIから利用できる細菌に由来するあらゆる配列を反復的に採取した。DNAシーケンサーからのリードをシミュレートするために、ゲノム毎に、本出願人らは、ゲノム配列からランダムな恐らく重複する部分配列を作成した;長さ50、100、150、200および250塩基の部分配列を使用した。本出願人らは、現実の試料における配列決定エラーのクラスおよび規則的な(punctual)突然変異の存在の両方をシミュレートするために、0%(エラーなし)、1%、5%および10%の率による塩基の均一なランダム置換も導入した。ゲノム、長さおよび置換率毎に、100種の部分配列またはリードのランダム試料を採取し、このサンプリングを10回繰り返した。
結果
細菌ゲノム毎に、本出願人らは、100種のランダムなシミュレートされたリードを採取し、本出願人らの方法を使用して、他の参照の中から、これらの細菌ゲノムを含むデータベースに対してこれらをスコアリングし、25種の最良のスコアのリストにおける問い合わせゲノムのランクを記録する。平均ランクおよびランクの標準偏差を図4に示す。
平均ランクが1に近いほど、スコアリングはより優れ、ランクの標準偏差が小さいほど、サンプリング効果に対する合理性は低くなる。各個々のパネルに書き出される見逃しランクの数は、25種の最高のスコアに存在しなかったゲノムの数に相当する。
50塩基の長さのリードでは、性能は最適に満たないが、低い置換率の上位5種における、およびより高い置換率の上位15種におけるときの97%から99%の間の問い合わせゲノムにより、既に、100塩基のリードによる劇的な改善が存在する。最大250塩基までのリードの長さの増加は、平均ランクにおけるより高い置換率のマイナス効果の補償を助けた。
本出願人らが使用した長さおよび置換率の範囲は、Illumina(約0.1〜1%の誤り率による100塩基)、Life TechnologiesのSOLiD 5500(0.01%の誤り率による75ntリード)、Ion Torrent PGM(1%の誤り率による200〜300塩基)、またはPacific Bioscience(15%の誤り率による3,000塩基)等、次世代配列決定プラットフォームから得られる範囲に匹敵する。本出願人らの方法は、これらの範囲内で優れた性能を示し、本出願人らは、より長いリードの代用を提供するために使用される技法であるペアエンド(paired-end)配列決定の支持を加えることによりさらに性能を向上させることが実施されると考えている。本出願人らの方法は、塩基置換等、配列決定エラーに対し相対的に感度が低いと思われ、本出願人らの検査問い合わせに予想される低ランクは、置換率が増加するにつれて最小に影響された。
NoSQLデータベースの使用のおかげで、本出願人らは、ゲノムデータがますます豊富になるにつれてのスケールアップを予測し、相対的に手頃なコンピュータシステムにおける参照のますます大型化するコレクションのインデックス付けおよび問い合わせが可能となり続ける。
本出願人らの方法の使用を容易にするために、本出願人らは、ブラウザに基づくクライアントを開発した。本出願人らは、未加工のFASTQファイル最大2Gbのサイズにより検査し、これをモニターして、RAMにおける200Mb強のみを使用し、20秒未満で結果を返した。
結論
TAPIRの根底にある概念は、幾分単純である。DNAデータベースのサイズの増加が、少なくとも10年間にわたり発表および観察されてきたが、DNA配列決定技術における近年の発達は、データの素早く手頃な作成を現実のものとした。本出願人らは、あらゆる公知のDNAに対する実験的に得られたDNA配列のマッチングが、バイオインフォマティクスにおける最も重要な課題の1つであることを主張する。本明細書において、本出願人らは、インターネットウェブ検索大手(giants)が一般向けに使用できるようにしたものにマッチするスピードおよび容易さでこれを行うことができることを示す。デスクトップDNAシーケンサーによる、患者における感染、生物テロ防御または食物安全性等のリアルタイムサーベイランス等、タスクを考慮する場合、本出願人らの方法は、検索空間を絞り込み、より高度な解析方法を後に行うことができる、最初期ステップを提供する。
(実施例2)
本実施例において、細菌、ウイルス、ファージ、プラスミドと共に、ヒト、マウス、植物、真菌および古細菌に由来する数万種のゲノムおよびゲノム領域が参照された。本出願人らは、ウェブブラウザにおいてランするクライアントも実行し、サーバーと通信する中程度の量の帯域幅を消費しながら、数秒以内に商品ポータブル計算デバイスから数ギガバイトの未加工の配列決定データを処理および同定するためのクライアントの使用を実証した。よって、本実施例において、未加工のリードに由来するDNAの同定が、検索エンジンの問い合わせと同じほどに容易となり得ることが示される。
参照の包括的コレクションに対する問い合わせDNA配列のセットのマッチング
アライメントプログラムを調べる主観的な仕方は、これらを2種の主要カテゴリーに分割することである:その一方は、公知参照のコレクションに対する1個の問い合わせ配列のマッピングに全力を尽くすことであり(例えば、BLAST)、もう一方は、可能な限り迅速に1個の指定の参照に対する多数の短い配列のマッピングを試みることである(例えば、bowtieまたはBWA)。本出願人らは、多数の短い配列のために優れた参照を同定することができる中間的アプローチを提案する;本出願人らは、参照配列のコレクションに対し複数の配列をマッチさせ、いずれの参照が、問い合わせセットにおいて最も表されるか採択する。
本実施例において提示されているアプローチは、k−merのインデックス付けにおけるいかなる選択ステップを含まず、この特色は、配列のコレクションから構築する際の複雑性を大幅に単純化する。これは、空間を犠牲にし、情報価値が低い可能性があるk−merをインデックス付けするが、次の利益により相殺される:プロセスは、参照のコレクションの合計サイズにおいて直線的であり、自明に並列化され得る。これは、あらゆる公知DNAのインデックス付けを最終的に妥当なものとする(インターネットにおけるあらゆるドキュメントのウェブ検索エンジンのインデックス付けに類似)。
この実施例において、本出願人らのアルゴリズムは、k−merの単なる計数以上のことを行うが、完全マッピングまたはアライメントのいずれも実行しない。アルゴリズムは、各リードの文脈内におけるk−merのマッチングを考慮に入れると共に、マッチするk−mer同士を互いに近くにクラスター形成させる。
本実施例において、図5に示す通り、本出願人らは、インデックス付けのために非重複k−merを使用した一方で、問い合わせにおいて重複k−merを使用したが、本出願人らは、これを実施詳細として考慮し、マッチする参照にスコアを与えるために同じ指針を維持しながら、インデックス付けのために重複k−merを、問い合わせにおいて非重複k−merを容易に使用することができる。
k−merを使用してインデックス付けされたサイズuの参照における長さpの文字列のn発生の位置づけの時間計算量は、kインデックス付けおよびルックアップにツリーまたはハッシュが使用される場合、O(p+n log u)またはO(p+n)の計算量を有する。
診断目的のためにシーケンサーからの未加工のリード等、DNAデータの問い合わせセットを同定する際に、本出願人らは、包括的参照データベースに対するあらゆるリードのマッピングに存する総当たりアプローチが、2つの主要な不利益を有すると考慮する:配列決定設備から計算センターへと移行される数百メガバイトまたは数ギガバイトの多さのデータと、タスクの実行に必要な計算資源が著しいこと。参照コレクションが、10,000種のE.coliサイズの細菌を含有し、BWAおよびbowtie2等の最適化されたアライナが、250M塩基の未加工の配列決定データ(ゲノムが4M塩基のサイズである場合、平均カバー度における約60×)を処理するのに30秒間を要すると仮定すると、CPUにおいて3日半を要するであろうが、複数のCPUにおいて自明に並列化することができる。
時間計算量に加えて、データ移行は、250M塩基のDNAとなり、参照を保持するデータセンターに配列決定データを移動させた。k−merに基づく本出願人らのアプローチは、リードのマッピングまたはSNP呼び出し、あるいはさらには鋳型に基づくde−novoアセンブリ等、詳細な調査を、参照の小型のセットへと低下させる。性能を評価する際に、本出願人らは、正しい答えが、5種の提案したマッチのセット内に存在する場合、最初に単に検索を成功と考慮することを任意で選んだ。いずれが最良にマッチするか正確に同定するための、これらの参照に対するあらゆるリードのマッピングのタスクは、上述の試料当たり3日半の予見にもかかわらず、同じCPUにおいて12分間で実行することができる、あるいは強力なマルチコアアーキテクチャを取得した場合さらに短時間で実行することができる。あらゆるゲノムの移行は、約20M塩基のDNAを表し、これは、3Gモバイルインターネット接続により容易に実行することができる。本出願人らのアプローチは、Ion bus[15]等のモバイル配列決定設備に、遠隔地において重大な診断または科学的タスクを実行させることができる。プラスミド、ビルレンス遺伝子、ウイルスまたは細菌の混合物等、より小型の領域の存在のために、マッピングされていないリードが存在する場合、これらのリードを同様に処理し、数回の反復により完全な内容を同定することができる。
ベンチマークの構築
配列決定データにおける細菌を同定するために本来設計された本出願人らのシステムをベンチマーク評価するために、本出願人らは、およそ2012年の初めにEBIデータベースから利用できる細菌に由来するあらゆる配列を反復的に採取したが、これはすなわち、747種の細菌ゲノムであり、これらに加えて参照の完全データベースは、次のものを含有した:NCBIに由来する細菌参照、ファージおよびウイルス、プラスミドならびにヒトゲノム(下表1を参照)。表1は、2012年の初めにおけるゲノム参照のスナップショット(参照の供給源および数)を示す。参照は、完全ゲノムまたはプラスミド、およびコンティグまたは遺伝子等のゲノム断片の混合物である。
DNAシーケンサーから得られるリードをシミュレートするために、ゲノム毎に、本出願人らは、ゲノム配列からランダムな恐らく重複する部分配列を作成した;長さ50、100、150、200および250塩基の部分配列を使用した。本出願人らは、現実の試料における配列決定エラーのクラスおよび規則的な突然変異の存在の両方をシミュレートするために、0%(エラーなし)、1%、5%および10%の率による塩基の均一なランダム置換も導入した。ゲノム、長さおよび置換率毎に、100種の部分配列またはリードのランダム試料を採取し、このサンプリングを5回繰り返した。
本出願人らの目的は、いかなる公知DNAが試料中に存在するかを見出すことができるか、あるいは配列決定エラーまたは突然変異等の不確実性を計数する場合、ゲノムが十分に近いか評価することである。
予測性能
細菌ゲノム毎に、本出願人らは、100種のランダムなシミュレートされたリードを採取し、本出願人らの方法を使用して、他の細菌、ファージ、植物、真菌、ウイルスおよび哺乳動物に由来する配列およびゲノムのより大型のコレクションの中から、該細菌ゲノムを含むデータベースに対してこれらをスコアリングし、25種の最良のマッチする参照のリストにおける問い合わせゲノムのランクを記録した。検査細菌ゲノム毎の結果の可変性を評価するために、これをゲノム毎に5回繰り返し、平均ランクおよびランクの標準偏差を図9に提示する。
性能は、50ヌクレオチドの長さのリードでは相対的に低かったが、本出願人らは、リードの長さを増加させた場合に劇的な改善を観察し、配列決定された塩基における長さ100のリードは、既に最大の性能に近かった。最良の結果は、正しいゲノムが、低い置換率を有する上位5種における、およびより高い置換率を有する上位15種における、より低い誤り率のときの97%を超えて結果のリストに存在することを示している。リードの長さを250塩基まで増加させることは、増加する誤り率のマイナス効果の補償を助けた。同定のために送られたランダム試料におけるリードの数の増加は、多くの効果を持たなかった。図7を参照:100種のリードは、少量のデータであるが、多数の事例におけるDNAの同定に十分であると思われる。
先に詳述されている通り、本出願人らの方法は、提案されたマッチのセット内の正しい参照を返すことを目標とし、これを為すことにより、総当たりアプローチが計算的に要求する手順による探索を必要とする検索空間を単純化する。全25種の解析のランは、徹底検索と比較しても依然として有意であるため、上位5種の結果内の問い合わせ配列を見出すよう自身に制限を課すことは、ほぼ確実に必要以上に厳密であるが、本方法が既に、答え候補の非常に小型のセット内で正しい答えを返すことができることを指摘する。
反復性検索および同定の文脈において、正しく正確な系統またはゲノム参照ではないとしても、正しい細菌種の指摘は、既に相対的に成功した答えであると考慮することができる。図6は、本出願人らの同定手順が、50ヌクレオチドを上回るリードにより非常に優れた性能を示すことを示す。
本出願人らが使用した長さおよび置換率の範囲は、Illumina(約0.1〜1%の誤り率による最大で150塩基)、Life TechnologiesのSOLiD 5500(0.01%の誤り率による最大で75ntのリード)、Ion Torrent PGM(1%の誤り率による最大で200〜300塩基)またはPacific Bioscience(15%の誤り率による3,000塩基)等、次世代配列決定プラットフォームから得られる範囲に匹敵する。本出願人らの方法は、これらの範囲内で優れた性能を示し、本出願人らは、ペアエンド配列決定(より長いリードの代用を提供するために使用される技法)の支持を加えることによりさらに増加する性能を予測する。本出願人らの方法は、塩基置換等、配列決定エラーに対し相対的に感度が低いと思われ、本出願人らの検査問い合わせに予想される低ランクは、置換率が増加するにつれて最小に影響された。
本出願人らは、ウイルスおよび細菌分離株からメタゲノミクス混合物に及ぶ試料に由来するIon Torrent PGMからの配列決定データにおいてもアプローチを試みた。同じ種の複数の系統等、インデックス付けされた参照のコレクションにおける非常に類似したゲノムは、正しい参照ゲノムよりも低いランクにより密接に関係するゲノムを有する確率を増加させることにより、性能の劣化に寄与し得る。これは、正確な参照ではなく種を考慮する場合の性能の増加によって確認され、第2の反復において曖昧さをなくすことができる中等度の不自由である。最後に、本出願人らは、単離された実体ではなくリードの文脈内のk−merを考慮したため、多様な哺乳動物に由来する試料からの配列決定により非常に有望な結果を得た。そして近い将来、これらを確実に同定することを予測する。
計算性能
サーバー:
サーバーにおけるメモリ使用は、ディスクに基づくキー値保存を使用することにより最小に維持することができ、チューニング性能は、これらを、それをランするコンピュータにおいて利用できるメモリにキャッシュすることにより達成することができる。NoSQLデータベースの使用のおかげで、本出願人らは、ゲノムデータがますます豊富になるにつれての優れたスケールアップも予測し、相対的に手頃なコンピュータシステムにおける参照のますます大型化するコレクションのインデックス付けおよび問い合わせが可能となり続ける。
本実行では、インデックス付けシステムおよびサーバーの両方は、Pythonにおいて実行され、44G塩基の参照DNAのインデックス付けは、8コア(Intel Xeon、2.93GHz)を使用して数時間で行われ、1着信試料の処理は、数秒間を要する。有意な加速は、Cに移動されたボトルネック等、最適化努力により達成することができるが、必要が明らかになった場合、さらなるコアを捧げることによりさらなる要求の取り扱いにおける網羅的性能を増加させることも可能である。
クライアント:
本出願人らの方法の使用を容易にするために、本出願人らは、http://tapir.cbs.dtu.dkにおいてアクセスすることができるJavascript(登録商標)およびHTML5特色を使用して、ブラウザに基づくクライアントを開発した。クライアントは、現在、最新のFirefoxリリース(バージョン15以上)において稼働している。
2.53GHzにおいて達成されるIntel Core i5 CPUによる相対的に中程度のラップトップにおいてランするFirefoxにより、最大2GbのサイズのFASTQファイルにおける未加工のリードは、30秒未満で処理することができ、ファイルが小さいほど最速となり、RAMにおける300Mb弱を使用して、サーバーとの通信に数秒間を要した。
本出願人らは、コンソールに基づくコマンドラインツールをさらに実行して、本出願人らのアルゴリズムおよびその後のアライメントを行った。実行は、一般的なソフトウェアリポジトリにおいて利用できる:https://bitbucket.org/lgautier/dnasnout-client。実行は、フェッチ参照ゲノムに本出願人らのアルゴリズムを使用し、bowtie2によりこれらのインデックス付けおよびあらゆるリードのマッピングを行う。10種の上位リードを考慮する場合、完全反復は1分未満を要し、事例の98%において1回の反復で十分である。ブラウザの迅速な開発により、本出願人らは、ウェブブラウザのみを使用してデスクトップ配列決定ランにより疫学研究室が行うものと類似のワークフローを実行することが間もなく可能になると予測する。
考察
本出願人らは、あらゆる公知DNAに対する実験的に得られたDNA配列のマッチングが、バイオインフォマティクスにおける最も重要な課題の1つであることを主張する。本明細書において、本出願人らは、インターネットウェブ検索大手が一般向けに使用できるようにしたものにマッチするスピードおよび容易さでこれを行うことができることを示してきた。患者における感染、生物テロ防御または食物安全性等、リアルタイムサーベイランス等のタスクを考慮する場合、Ion Torrent PGMまたはIllumina MiSeq等、今日のデスクトップDNAシーケンサーは、既にタスクに耐えることができ、本出願人らの方法は、DNA配列決定を行う研究室と計算設備との間で大量の未加工のデータを移行させる必要がなく、検索空間を絞り込み、より高度な解析方法を後に局所的に行うことができる最初期ステップを提供する。
方法
ゲノム参照の供給源:
EBIおよびNCBIから利用できる、公表されているゲノム、コンティグ、プラスミドおよび個々の遺伝子をダウンロードして、本出願人らの参照DNAとした。参照の正確な組成は、時間と共に拡大しつつあるが、本出願人らは本実施例に使用したスナップショットを表1にリストアップした。
参照のインデックス付け:
各参照配列を非重複k−merに分割し、あらゆる参照に及ぶあらゆるk−merに対し、キー値保存またはNoSQLデータベース(本出願人らはKyotoCabinet[4]を使用)を作成し、各k−mer(データベースにおけるキー)に、該k−merを有する参照に相当する識別子のリストを関連付けた。本出願人らは、これを存在データベースと呼んだ。同様に、本出願人らが位置データベースと呼ぶものに、k−merが見出される参照における位置を保存した。これが満足のいく結果を生じたため、また、4の倍数がビットパッキングに良く適していたため、kは、16に等しくなるよう選んだ。記述ラインおよびデータの供給源等、参照識別子および情報間の関連は、別々のSQLデータベースに保存した。
スコアリング:
短い問い合わせ配列またはリードのセットをスコアリングするために、本出願人らは、これらのランダム試料を通して反復した。試料サイズが大きいほど、これはより確かに正確になるであろう。配列毎に、本出願人らは、配列にわたり幅kのウィンドウをスライドさせることにより得られる、連続したk−merにわたり反復した。k−mer毎に、これが以前に計数されておらず、存在データベースに見出される場合、本出願人らは、参照の位置を問い合わせた。リードのあらゆるk−merが処理されたら、本出願人らは、参照においてマッチした近接位置の数を調べ、あらゆるマッチする参照にわたる同じリードに起源をもつマッチするk−merの最大の濃度である、マッチの最大のクラスターのみを考慮した。かかるクラスター毎に、本出願人らは、該参照に対し恐らく以前に加えられた数にk−merの数を加え、既に計数されたk−merのリストをアップデートした。続いて、次の配列またはリードを処理した。あらゆるリードが処理されたら、マッチすることが判明したk−merの計数が関連付けされた参照のリストが得られる。ペア<参照、計数>毎に、計数を、問い合わせセットにおける特有のk−merの数で割り、所定の参照によりマッチした問い合わせにおけるDNAの量の大雑把なスコアを得た。図解されているスコアリング原理により、問い合わせセットが、配列と完全にマッチしている場合、該スコアは、1となり、そうでなければ、これはより小さくなるであろう;例えば、問い合わせセットが、2種の参照の等しい割合の混合物である場合、両方の参照のスコアは、0.5前後となるであろう。該計数をまた、参照のサイズで割り、問い合わせによって表される参照の画分の大雑把なスコアを得る;この第2のスコアは、マッチする参照の選別および最大の参照へのバイアスの回避に役立つ。等しい加重を使用して、これら2スコアの加重和として最終スコアを算出した。問い合わせセットが大型である場合、例えば、本出願人らが、DNA配列決定ランから得られるあらゆるリードを考慮する場合、該セットのランダム試料のみを使用する。
クライアントの実行:
サービスの使用を容易にするために、本出願人らは、ウェブブラウザにおいてページとしてランするHTML5/Javascript(登録商標)クライアントを実行した。本研究のために、Firefoxバージョン15を使用し、本出願人らは、Linux(登録商標)、Mac OS X、Microsoft Windows(登録商標)(様々なラップトップおよびデスクトップ)と共にAndroid 4.0(タブレットASUS TF101−本出願人らは、ハイエンドスマートフォンからも作業できると予測する)において作業するためにこれを検査した。しかし、当業者であれば、他の適したブラウザも同様に有用となり得ることを認められよう。クライアントは、容易な評価ならびに現存するワークフローおよびパイプラインにおける統合のためのPythonライブラリおよびコマンドラインツールとしても実行される。
他の技術仕様:
KyotoCabinet等、ライブラリへの結合の例外において、サーバーサイドにおいてPythonバージョン2.7.3を使用して、あらゆる実行を行った。ウェブ適用は、マイクロフレームワーク(micro-framework)Flaskを使用しており、lighttpによって提供されている。クライアントサイドライブラリおよびコマンドラインツールをPythonバージョン3.3のために開発した。
当業者であれば、アルゴリズムまたはアルゴリズムの部分の実行が、例えば、Cプログラミング言語等、他の適した一般に公知のプログラミング言語において行うことができ、これが、問い合わせに使用される時間を減少させることにより本方法の性能を改善し得ることを認められよう。
参考文献

Claims (63)

  1. ショートリード等、生物配列の可能性の高い供給源を同定する方法であって、
    a)供給源から配列またはショートリードのサブセットをサンプリングするステップと、
    b)該サブセットからの配列をk−merに断片化するステップと、
    c)該サブセットからの1種または複数のk−merを、参照配列のk−merを含む第1のコレクションに対して問い合わせるステップと、
    d)該サブセットからの1種または複数のk−merを、参照配列におけるk−merの位置を含む第2のコレクションに対して問い合わせるステップと、
    e)いずれの参照が該1種または複数のk−merを含有するか決定するステップと、
    f)可能性の高い供給源参照の記述を返すステップと
    を含み、参照配列のk−merを含む該第1のコレクションが、参照配列におけるk−merの位置を含む該第2のコレクションとは別々である方法。
  2. スコアリングマトリクスを使用するアライメントアルゴリズム等、配列データにおけるアライメントアルゴリズムの使用を含まない、請求項1に記載の方法。
  3. 前記問い合わせステップが、前記参照配列におけるk−merの位置を決定するステップをさらに含む、前記請求項のいずれかに記載の方法。
  4. 存在および位置が使用されて、参照配列における問い合わせk−merの連続性を決定する、前記請求項のいずれかに記載の方法。
  5. 前記生物配列が、アミノ酸配列である、前記請求項のいずれかに記載の方法。
  6. 前記生物配列が、DNAまたはRNA配列である、請求項1から4に記載の方法。
  7. k−mer問い合わせが、問い合わせおよび参照k−merの間の正確なマッチの決定を含む、前記請求項のいずれかに記載の方法。
  8. 問い合わせが、少なくとも1種の供給源配列またはショートリード、好ましくは、少なくとも50、例えば、少なくとも100、例えば、少なくとも150、例えば、少なくとも200、例えば、少なくとも250、例えば、少なくとも300、例えば、少なくとも400、例えば、少なくとも500、例えば、少なくとも750、例えば、少なくとも1000、例えば、少なくとも1500、例えば、少なくとも2000、例えば、少なくとも2500、例えば、少なくとも5000種以上の配列に由来するあらゆるk−merの問い合わせを含む、前記請求項のいずれかに記載の方法。
  9. 前記供給源配列が、少なくとも50塩基、好ましくは、少なくとも100塩基、例えば、少なくとも150塩基、例えば、少なくとも200塩基、例えば、少なくとも250塩基、例えば、少なくとも300塩基、例えば、少なくとも400、少なくとも500以上の塩基のヌクレオチド配列である、前記請求項のいずれかに記載の方法。
  10. 配列の前記サブセットが、少なくとも1%、例えば、少なくとも2%、例えば、少なくとも4%、例えば、少なくとも5%、例えば、少なくとも6%、例えば、少なくとも7.5%、例えば、少なくとも10%、例えば、少なくとも15%、例えば、少なくとも25%、例えば、少なくとも30%、例えば、少なくとも35%、例えば、少なくとも40%、例えば、少なくとも50%の離散した配列を含む、前記請求項のいずれかに記載の方法。
  11. 配列の1種または複数のさらなるサブセットを選択するステップと、これらを請求項1に記載のステップa)〜f)に付すステップとをさらに含む、前記請求項のいずれかに記載の方法。
  12. 前記サブセットが、ランダムであるまたはフィルターをかけられている、前記請求項のいずれかに記載の方法。
  13. 前記k−merが、サイズ4、8、12、16、20、24、28、32、36、40、44、48、52、56、60、64以上のものである、前記請求項のいずれかに記載の方法。
  14. 前記k−merが、連続している、前記請求項のいずれかに記載の方法。
  15. 前記k−merが、重複しており、少なくとも1、例えば、少なくとも2、例えば、少なくとも3、例えば、少なくとも4、例えば、少なくとも5、例えば、少なくとも6以上の塩基またはアミノ酸ずつ漸増する、前記請求項のいずれかに記載の方法。
  16. k−merが、互いに素な部分配列の連結である、前記請求項のいずれかに記載の方法。
  17. 所定の配列に由来するk−merが、データベースに対して問い合わせされて、1種または複数の参照配列におけるk−merの存在および該1種または複数の参照配列におけるk−merの位置を決定する、前記請求項のいずれかに記載の方法。
  18. 位置が、前記k−merが存在する場合にのみ問い合わせされる、請求項17に記載の方法。
  19. 返された参照のスコアが算出される、前記請求項のいずれかに記載の方法。
  20. 同定された参照配列のスコアが算出され、該スコアが、所定の参照配列に見出される1種または複数の配列に由来するk−merの数に相関する、前記請求項のいずれかに記載の方法。
  21. 同定された参照のスコアが算出され、該スコアが、参照配列に見出される1種または複数の配列に由来するk−merの局所的濃度の平均による連続性または近似連続性に相関する、前記請求項のいずれかに記載の方法。
  22. 同定された参照のスコアが算出され、前記スコアが、前記供給源に由来するk−merの前記サブセットにも存在する参照配列におけるk−merの数に相関する、前記請求項のいずれかに記載の方法。
  23. 可能性の高い供給源参照が、前記スコアまたは複数のスコアに従ってランク付けされる、請求項19から22のいずれかに記載の方法。
  24. 1種の供給源配列またはショートリードに由来するあらゆるk−merが問い合わせされ、該供給源配列またはショートリードの1種または複数のスコアが算出される、前記請求項のいずれかに記載の方法。
  25. 参照配列に対してマッチするk−merの計数が得られる、前記請求項のいずれかに記載の方法。
  26. 参照配列に対してマッチするk−merの計数を、問い合わせたサブセットにおける特有のk−merの数で割ることにより、スコアが得られる、前記請求項のいずれかに記載の方法。
  27. 参照配列に対してマッチするk−merの計数を、該参照配列のサイズで割ることにより、スコアが得られる、請求項24から26に記載の方法。
  28. 参照配列のスコアが、請求項26および27に記載のスコアの加重和として算出される、請求項24から27に記載の方法。
  29. 第2の供給源配列、好ましくは、第3の供給源配列に由来するあらゆるk−merを問い合わせるステップをさらに含む、前記請求項のいずれかに記載の方法。
  30. 定義済みの統計的確率により参照生物が同定されたら、前記データベース問い合わせを中止することができる、前記請求項のいずれかに記載の方法。
  31. k−merの定義済みの画分が、前記データベースに見出されない場合、前記データベース問い合わせを中止することができる、前記請求項のいずれかに記載の方法。
  32. 前記データベースが、1種または複数の可能性の高い参照に関する次の情報:配列、コード配列、調節配列のいずれかのアノテーション、該可能性の高い参照の分類学的名称、該可能性の高い参照の近縁、前記参照の供給源、さらなる関係する参照の群、参照が得られた場所(土壌、海、腸または下水管等)、前記参照配列が得られた時期、分類学的分類、近縁種、参照配列がダウンロードされたデータベースに関する情報(NCBIまたはEBI/Sangerデータベース等)のうち1種または複数を出力する、前記請求項のいずれかに記載の方法。
  33. 前記データベースが、最も可能性の高い参照の配列を出力し、好ましくは、前記データベースが、最も可能性の高い参照種の完全ゲノム配列を出力する、前記請求項のいずれかに記載の方法。
  34. 非常に類似した配列を有する参照からの結果またはさらなる関係する参照からの結果が、前記出力においてグループ化される、前記請求項のいずれかに記載の方法。
  35. 前記方法の数回の反復が行われる、前記請求項のいずれかに記載の方法だって、例えば、第1の反復において、最も豊富な参照を同定し、供給源配列またはショートリードから前記最も豊富な参照に由来する配列を除去する、方法。
  36. 第2の反復において、2番目に豊富な参照を同定し、該2番目豊富な参照に由来する配列を除去するステップ等をさらに含む、請求項35に記載の方法。
  37. 第2の反復において、挿入の可能性の高い参照を同定するステップをさらに含む、請求項36に記載の方法。
  38. 定義済みの参照に由来する配列とアライメントする供給源配列を最初に除去するステップをさらに含む、前記請求項のいずれかに記載の方法。
  39. 1種の供給源配列に由来する定義済みの数のk−merが、前記データベースに存在しない場合、前記供給源配列に由来するk−merを無視するステップを含む、前記請求項のいずれかに記載の方法。
  40. 問い合わせが、1種または複数の定義済みの参照に由来するk−merの無視を含む、前記請求項のいずれかに記載の方法。
  41. 核酸シーケンサーから得られるような未加工の配列が、問い合わせされる、前記請求項のいずれかに記載の方法。
  42. 適応サンプリングが使用される、前記請求項のいずれかに記載の方法。
  43. 参照配列のk−merを含む、請求項1から42によって定義される方法における使用のためのデータベースであって、
    a)参照配列からのk−merの第1のコレクションと、
    b)該参照配列における各k−merの位置の第2のコレクションと
    を含む、データベース。
  44. 所定の参照に関連する全長配列、および/または該参照の供給源、および/または該参照の1種もしくは複数の分類学的記述子に関する情報をさらに含む、請求項43に記載のデータベース。
  45. 前記データベースにおけるk−merが、各特有のk−merに特有のキーを割り当てるハッシュ関数に付される、請求項43から44のいずれかに記載のデータベース。
  46. 前記第1のコレクションにおける各特有のk−merが、前記k−merが存在するこれらの参照に関する情報へのベクトルによって関連付けされる、請求項43から45のいずれかに記載のデータベース。
  47. 前記第2のコレクションにおける各特有のk−merが、存在する場合、各参照におけるその位置に関する情報へのベクトルによって関連付けされる、請求項43から46のいずれかに記載のデータベース。
  48. 参照識別子と、記述ライン、データの供給源、配列、コード配列、調節配列のいずれかのアノテーション、可能性の高い参照の分類学的名称、該可能性の高い参照の近縁、前記参照の供給源、さらなる関係する参照の群、参照が得られた場所(土壌、海、腸、下水管等)、前記参照配列が得られた時期、分類学的分類、近縁種、前記参照配列がダウンロードされたデータベースに関する情報(NCBIまたはEBI/Sangerデータベース等)からなる群から選択される情報の種類とを有する、第3のコレクションまたはデータベースをさらに含む、請求項43から47のいずれかに記載のデータベース。
  49. 前記k−merが、長さ4、8、12、16、20、24、28、32、36、40、44、48、52、56、60、64以上のものである、請求項43から48のいずれかに記載のデータベース。
  50. 前記k−merが、重複していない、請求項43から49のいずれかに記載のデータベース。
  51. 前記k−merが重複し、少なくとも1、例えば、少なくとも2、例えば、少なくとも3、例えば、少なくとも4、例えば、少なくとも5、例えば、少なくとも6以上の塩基またはアミノ酸ずつ漸増する、請求項43から50のいずれかに記載のデータベース。
  52. 各参照の完全配列に由来するk−merを含む、請求項43から51のいずれかに記載のデータベース。
  53. ヒト、動物、哺乳動物、鳥類、魚類、真菌、昆虫、植物、細菌、古細菌、ウイルスおよび/またはプラスミドに由来する配列情報を含む、請求項43から52のいずれかに記載のデータベース。
  54. 数個の異なるサーバーに保存されるサブデータベースに分けられる、請求項43から53のいずれかに記載のデータベース。
  55. 門、綱、目、科、属および種から選択される1種もしくは複数の分類学的記述子、または供給源、分布、起源および過去の問い合わせ頻度等の1種もしくは複数の環境的記述子に従ってサブデータベースへと組織化される、請求項43から54のいずれかに記載のデータベース。
  56. 入力デバイスと、中央処理ユニットと、メモリと、出力デバイスとを含む、供給源配列の可能性の高い供給源を同定するためのデータ処理システムであって、該データ処理システムが、実行されると請求項1から42に記載の方法を実施させる命令シーケンスを表すデータを内部に保存し、該メモリが、請求項43から55のいずれかに記載のデータベースをさらに含む、データ処理システム。
  57. 前記データベースが、サーバーに保存され、前記入力デバイスおよび出力デバイスが、クライアントであり、該クライアントおよびサーバーが、データ通信接続を介して接続されている、請求項56に記載のシステム。
  58. 前記クライアントが、パーソナルコンピュータ、固定型PC、ポータブルPC、スマートフォン等の携帯型計算デバイスから選択される、請求項56から57のいずれかに記載のシステム。
  59. 前記クライアントは、前記クライアントが、供給源配列のサブセットをサンプリングし、これらをk−merに断片化し、これらを前記サーバーに伝達することを可能にする命令シーケンスを含む、請求項56から58のいずれかに記載のシステム。
  60. 前記クライアントは、前記クライアントが、前記サーバーから前記クライアントへと伝達された配列に基づき、1種または複数のより大型の配列への供給源配列のアセンブリを実行することを可能にする命令シーケンスをさらに含む、請求項56から59に記載のシステム。
  61. データ接続を介して配列決定装置に接続されている、請求項56から60のいずれかに記載のシステム。
  62. 実行されると請求項1から42に記載の方法を実施させる命令シーケンスを含有するコンピュータソフトウェア製品。
  63. 実行されると請求項1から42に記載の方法を実施させる命令シーケンスを含有する集積回路製品。
JP2015536149A 2012-10-15 2013-10-11 未加工のシーケンシングデータのデータベースにより駆動される一次解析 Pending JP2016502162A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12188538.8 2012-10-15
EP12188538 2012-10-15
PCT/EP2013/071280 WO2014060305A1 (en) 2012-10-15 2013-10-11 Database-driven primary analysis of raw sequencing data

Publications (2)

Publication Number Publication Date
JP2016502162A true JP2016502162A (ja) 2016-01-21
JP2016502162A5 JP2016502162A5 (ja) 2016-12-01

Family

ID=47357889

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015536149A Pending JP2016502162A (ja) 2012-10-15 2013-10-11 未加工のシーケンシングデータのデータベースにより駆動される一次解析

Country Status (5)

Country Link
US (1) US20150294065A1 (ja)
EP (1) EP2915084A1 (ja)
JP (1) JP2016502162A (ja)
CN (1) CN104919466A (ja)
WO (1) WO2014060305A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023515248A (ja) * 2020-04-02 2023-04-12 上海之江生物科技股▲ふん▼有限公司 微生物の標的断片における特異的領域の識別方法、装置及び応用

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10691775B2 (en) 2013-01-17 2020-06-23 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9792405B2 (en) 2013-01-17 2017-10-17 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9679104B2 (en) 2013-01-17 2017-06-13 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10847251B2 (en) 2013-01-17 2020-11-24 Illumina, Inc. Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis
US10068054B2 (en) 2013-01-17 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
WO2014113736A1 (en) 2013-01-17 2014-07-24 Edico Genome Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
KR102004335B1 (ko) * 2013-09-26 2019-07-26 파이브3 제노믹스, 엘엘씨 바이러스-연관 종양을 위한 시스템, 방법, 및 조성물
NL2011817C2 (en) * 2013-11-19 2015-05-26 Genalice B V A method of generating a reference index data structure and method for finding a position of a data pattern in a reference data structure.
US9697327B2 (en) 2014-02-24 2017-07-04 Edico Genome Corporation Dynamic genome reference generation for improved NGS accuracy and reproducibility
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
WO2016100049A1 (en) 2014-12-18 2016-06-23 Edico Genome Corporation Chemically-sensitive field effect transistor
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
WO2016154154A2 (en) 2015-03-23 2016-09-29 Edico Genome Corporation Method and system for genomic visualization
EP3286359A4 (en) * 2015-04-24 2018-12-26 University of Utah Research Foundation Methods and systems for multiple taxonomic classification
EP3101574A1 (en) * 2015-06-05 2016-12-07 Limbus Medical Technologies GmbH Data quality management system and method
US11194778B2 (en) * 2015-12-18 2021-12-07 International Business Machines Corporation Method and system for hybrid sort and hash-based query execution
US20170270245A1 (en) 2016-01-11 2017-09-21 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
US10068183B1 (en) 2017-02-23 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on a quantum processing platform
EP3414348A4 (en) * 2016-02-11 2019-10-09 The Board of Trustees of the Leland Stanford Junior University SEQUENCING ALIGNMENT ALGORITHM OF THE THIRD GENERATION
WO2017201081A1 (en) 2016-05-16 2017-11-23 Agilome, Inc. Graphene fet devices, systems, and methods of using the same for sequencing nucleic acids
US10597714B2 (en) 2017-12-29 2020-03-24 Clear Labs, Inc. Automated priming and library loading device
GB2589159B (en) 2017-12-29 2023-04-05 Clear Labs Inc Nucleic acid sequencing apparatus
US10246704B1 (en) 2017-12-29 2019-04-02 Clear Labs, Inc. Detection of microorganisms in food samples and food processing facilities
US11314781B2 (en) 2018-09-28 2022-04-26 International Business Machines Corporation Construction of reference database accurately representing complete set of data items for faster and tractable classification usage
US11830580B2 (en) 2018-09-30 2023-11-28 International Business Machines Corporation K-mer database for organism identification
CN111128303B (zh) * 2018-10-31 2023-09-15 深圳华大生命科学研究院 基于已知序列确定目标物种中对应序列的方法和系统
US11347810B2 (en) 2018-12-20 2022-05-31 International Business Machines Corporation Methods of automatically and self-consistently correcting genome databases
US11515011B2 (en) * 2019-08-09 2022-11-29 International Business Machines Corporation K-mer based genomic reference data compression
KR20230069046A (ko) * 2020-09-15 2023-05-18 일루미나, 인코포레이티드 소프트웨어 가속 게놈 판독 매핑
CN113744806B (zh) * 2021-06-23 2024-03-12 杭州圣庭医疗科技有限公司 一种基于纳米孔测序仪的真菌测序数据鉴定方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060286566A1 (en) 2005-02-03 2006-12-21 Helicos Biosciences Corporation Detecting apparent mutations in nucleic acid sequences
US8478544B2 (en) * 2007-11-21 2013-07-02 Cosmosid Inc. Direct identification and measurement of relative populations of microorganisms with direct DNA sequencing and probabilistic methods
US20120000411A1 (en) 2010-07-02 2012-01-05 Jim Scoledes Anchor device for coral rock
CN102332064B (zh) * 2011-10-07 2013-11-06 吉林大学 基于基因条形码的生物物种识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023515248A (ja) * 2020-04-02 2023-04-12 上海之江生物科技股▲ふん▼有限公司 微生物の標的断片における特異的領域の識別方法、装置及び応用

Also Published As

Publication number Publication date
WO2014060305A1 (en) 2014-04-24
US20150294065A1 (en) 2015-10-15
EP2915084A1 (en) 2015-09-09
CN104919466A (zh) 2015-09-16

Similar Documents

Publication Publication Date Title
JP2016502162A (ja) 未加工のシーケンシングデータのデータベースにより駆動される一次解析
Bağcı et al. DIAMOND+ MEGAN: fast and easy taxonomic and functional analysis of short and long microbiome sequences
Ren et al. Alignment-free sequence analysis and applications
Schbath et al. Mapping reads on a genomic sequence: an algorithmic overview and a practical comparative analysis
Mount Using the basic local alignment search tool (BLAST)
Al-Ghalith et al. NINJA-OPS: fast accurate marker gene alignment using concatenated ribosomes
Jajou et al. Towards standardisation: comparison of five whole genome sequencing (WGS) analysis pipelines for detection of epidemiologically linked tuberculosis cases
WO2005036369A2 (en) Database for microbial investigations
Xiang et al. A genome-wide MeSH-based literature mining system predicts implicit gene-to-gene relationships and networks
Ames et al. Using populations of human and microbial genomes for organism detection in metagenomes
Grant et al. Building a phylogenomic pipeline for the eukaryotic tree of life-addressing deep phylogenies with genome-scale data
US11830580B2 (en) K-mer database for organism identification
US11809498B2 (en) Optimizing k-mer databases by k-mer subtraction
Pappas et al. Virus bioinformatics
Panda et al. EumicrobeDBLite: a lightweight genomic resource and analytic platform for draft oomycete genomes
Avino et al. Tree shape‐based approaches for the comparative study of cophylogeny
Shen et al. A novel algorithm for detecting multiple covariance and clustering of biological sequences
Kim et al. GarlicESTdb: an online database and mining tool for garlic EST sequences
Rebholz-Schuhmann et al. Evaluating gold standard corpora against gene/protein tagging solutions and lexical resources
Nawaz et al. PSAC-PDB: Analysis and classification of protein structures
Catanho et al. BioParser: a tool for processing of sequence similarity analysis reports
Dodson et al. Genetic sequence matching using D4M big data approaches
Arango-Argoty et al. MetaMLP: A fast word embedding based classifier to profile target gene databases in metagenomic samples
Kopylova et al. Deciphering metatranscriptomic data
CN116825182B (zh) 一种基于基因组ORFs筛选细菌耐药特征的方法及应用

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161011

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171005

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180104

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180511