JP2016502162A

JP2016502162A - 未加工のシーケンシングデータのデータベースにより駆動される一次解析

Info

Publication number: JP2016502162A
Application number: JP2015536149A
Authority: JP
Inventors: ローレントゴーティエ，; オーレルンド，
Original assignee: Danmarks Tekniskie Universitet
Current assignee: Danmarks Tekniskie Universitet
Priority date: 2012-10-15
Filing date: 2013-10-11
Publication date: 2016-01-21
Also published as: WO2014060305A1; US20150294065A1; EP2915084A1; CN104919466A

Abstract

本発明は、未加工のシークエンシングリードから生物配列含有試料の供給源を同定するための方法に関する。本方法を使用して、未知ＤＮＡの供給源を同定することができ、診断、生物テロ防御、食物安全性および品質ならびに衛生適用に使用することができる。別の態様において、本発明は、本発明の方法において使用することができる、参照配列のデータベースに関する。本方法は、事前にインデックス付けされた参照配列のコレクションと、配列決定機器からのリード等、生物配列の着信した問い合わせセットをスコアリングするシステムと、問い合わせセットの部分を提出するシステムに頼る。

Description

本発明は、生物配列の可能性の高い供給源を同定するための方法に関する。さらなる態様において、本発明は、この目的のために使用されるように適合されたデータベースに関する。

ＤＮＡ配列決定は、塩基（Ａ、Ｔ、ＣまたはＧ）の配列を同定する実験プロセスである。現在、数千個の塩基を超えてＤＮＡの分子全体を配列決定することができる技術は存在せず、大部分の技術は、１００〜２００塩基の間を配列決定する。細菌ゲノムは、数百万個の塩基を優に含有し得る。ここ数年間、配列決定のコストは大幅に低下され、これにより、ヒトの健康、食物の品質管理または微生物群集の研究等の目的のための試料に由来するＤＮＡの大規模配列決定をますます一般的なものとした。処置を可能な限り個別化するために、全ヒトゲノムの配列決定が治療法においてより頻繁に使用されることや、ルーチンの配列決定が行われて、特異的な生体の有無を管理することが想定できる。それ自体を最終目標として、あるいはより複雑なデータ解析への足掛かりまたはより費用のかかる解析に取り組む前の配列決定データの品質管理ステップとして、可能性の高い起源ＤＮＡを迅速に同定することは、急速に必要なものとなりつつある。

一次解析は、参照ゲノムと配列をアライメントすること（参照種の配列が公知であることが必要とされる）、あるいはモデルなしでジグソーパズルの再構成を試みること（いわゆる配列決定タグのｄｅ−ｎｏｖｏアセンブリ−未知試料の内容の同定（indentifying）は、補足的ステップを必要とするであろう）による、配列決定から得られる相対的に短い配列（ショートリードと呼ばれる）の解明からなる。参照に対するアライメントは、ｄｅｎｏｖｏアセンブリよりも計算的にさらに容易なタスクであると考えられる。

非特異的または全ゲノム配列決定が手頃に利用できるようになる前には、先ず特異的領域を丹念に配列決定し、アセンブルし、対象とする推定領域を同定していた。最も単純な方法は、ＲＮＡをタンパク質に翻訳するための開始コドン（ＡＴＧ／ＡＵＧ）および翻訳を終結する終止コドンのうち１個（ＴＡＧ／ＵＡＧ、ＴＡＡ／ＵＡＡ、ＴＧＡ／ＵＧＡ）によって定義される区間を見出すことによる、オープンリーディングフレーム（ＯＲＦ）の探索である。次に、ＯＲＦをあらゆる公知遺伝子のリストに対してアライメントさせた。アライメントのための方法は、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズム、ＢＬＡＳＴアルゴリズムおよびプログラム、ＳＳＡＨＡならびにＢＬＡＴ等、アライメントアルゴリズムおよびプログラムを含む。これらの目標は、インデックス付き配列のデータベースにおける最適なアライメントを見出し、あらゆるアライメントに対するスコアのランク付けにより、最良のマッチ、したがって、問い合わせ配列に最も可能性の高い機能を見出すことである。異なる生物学的機能を有する同様のマッチの数の増加は、機能アノテーションの目的のための、「最良にマッチする遺伝子の群」またはオルソロガス遺伝子のクラスター（ＣＯＧ）を構築することによる該原理の拡大をもたらす。完全ゲノムが徐々に利用し易くなってきたため、Ｍｕｍｍｅｒアルゴリズムを設計して、完全ゲノムのペアをアライメントし、遺伝的に関係する種間で全体的なゲノム構造が比較される様子を可視化した。

データベースにおいて現在利用できる配列の数のため、公知配列の莫大なプールに対する新たな配列のアライメントは、相対的に長い時間を要することがあり、ＢＬＡＳＴは、ほぼ最適な結果を見出しつつ以前のアルゴリズムを加速させたという意味においてブレークスルーであった。しかし、ウェブに基づく検索エンジンがほぼ即座に検索結果を返すことができる時代において、あらゆる公知配列に対する検索は、依然として相対的に時間がかかる。

Ningら２００１年、（Genome：１１巻：１７２５〜１７２９頁）は、数ギガ塩基のＤＮＡを含有するデータベースにおいて速いアライメントを実行するためのアルゴリズム、ＳＳＡＨＡ（ハッシュ化アルゴリズムによる配列検索およびアライメント（ｓｅｑｕｅｎｃｅｓｅａｒｃｈａｎｄａｌｉｇｎｍｅｎｔｂｙｈａｓｈｉｎｇａｌｇｏｒｉｔｈｍ））について記載する。ＳＳＡＨＡは、アライナである；したがって、完全問い合わせ配列毎に、これが、参照配列のコレクションにおける各エントリーとマッチする位置およびどの程度マッチしているか報告するタスクを有する。ＳＳＡＨＡ方法は、問い合わせ配列の全長にわたり可能な限り多くのマッチ見出すためのものである。データベースにおける配列は、これらをｋ個の近接塩基の連続したｋ個組（k-tuple）へと切断し、次にハッシュ表を使用して各ｋ個組の各発生の位置を保存することにより前処理される。データベースにおける問い合わせ配列の検索は、ハッシュ表から、問い合わせ配列におけるｋ個組毎の「ヒット」を得て、次に結果における選別を実行することにより行われる。ＳＳＡＨＡアルゴリズムは、ハイスループット一塩基多型検出および非常に大規模な配列アセンブリに使用される。ＳＳＡＨＡにおいて、各ｋ個組の存在および位置は、同じルックアップ（lookup）構造において保存され、該構造は、コンピュータシステムのメモリにロードされる。

公知のマッピングまたはアライメントアルゴリズムおよびプログラムは、Ｅｒｌａｎｄ、Ｃｏｒｏｎａ、ＢＦＡＳＴ、Ｂｏｗｔｉｅ、ＢＷＡ、ＮｏｖｏＡｌｉｇｎ等の方法を含む。これらの目標は、公知参照におけるリードの位置を見出すことである。延いては、マッチを見出すことができなかったリードは、この配列に由来せずとフラグ付けすることができる。これらのプログラムおよびアルゴリズムは、問い合わせセットにおける全ての配列、すなわち、全てのシークエンシングリードを評価すること、また、その全てに対し、ショートリードで作業する際のアライメントと呼ばれることが多い最適なアライメントを見出すよう試みることの両方による、長い検索時間の弱点も抱える。興味深いことに、上述のプログラムは全て、厳密性をスピードに引き換える発見的技術研究（heuristics）を使用するため、見出す結果が異なる。

ＵＳ２００６２８６５６６は、突然変異を検出するためにｋ−ｍｅｒを使用する方法を開示する。この方法は、標的核酸配列の一部を第２の配列セグメントと比較して、標的核酸配列の一部に対するマッチを検出することによる、標的核酸配列における明らかな突然変異の検出を含む。

ＵＳ２０１２０００４１１は、配列情報の短い文字列をマッチさせて、参照ゲノムデータベースに由来するゲノムを同定することに基づく、試料内の生物の集団を特徴付けすることができるシステムおよび方法を開示する。この特許出願は、参照配列における短い文字列の１コレクションにおいて短い文字列の存在が検索され、参照配列における位置の別の１コレクションにおいて位置が検索される方法を開示していない。

米国特許出願公開第２００６／２８６５６６号明細書米国特許出願公開第２０１２／０００４１１号明細書

Ningら２００１年、Genome：１１巻：１７２５〜１７２９頁

本発明は、配列決定機器から得られるＤＮＡリード（またはショートリード）あるいはＮもしくはＣ末端配列決定または質量分析から得られるタンパク質配列等、未加工の配列の供給源を同定するための新規方法を提供する。本方法は、事前にインデックス付けされた参照配列のコレクションと、配列決定機器からのリード等、生物配列の着信した問い合わせセットをスコアリングするシステムと、問い合わせセットの部分を提出するシステムに頼る。これは、クライアント・サーバーに基づくアプローチを使用することによって行うことができ、サーバー実体は、参照のコレクションを保持し、スコアリングを実行し、一方、クライアントは、問い合わせ配列のサブセットを提出する。

本発明によって提供されるアプローチは、試料中に見出されるＤＮＡの異なる供給源の迅速な決定を可能にし、供給源配列や参照配列の所定の遺伝子の完全配列の知識に頼らない。

ショートリードは、それが由来する完全参照を表さないにもかかわらず、該参照の特徴的なシグナルを保持する。ショートリードは、部分配列（ｋ−ｍｅｒまたはｋ個組と呼ばれる）へとさらに分解することができ、かかるｋ−ｍｅｒは、未加工の配列決定データの供給源を同定するために、インデックス付けされたｋ−ｍｅｒのコレクションにおいて検索される。

第１の態様において、本発明は、生物配列の可能性の高い供給源を同定する方法であって、
ａ）供給源から配列またはショートリードのサブセットをサンプリングするステップと、
ｂ）サブセットからの配列をｋ−ｍｅｒに断片化するステップと、
ｃ）前記サブセットからのｋ−ｍｅｒを、参照配列のｋ−ｍｅｒを含むデータベースに対して問い合わせるステップと、
ｄ）いずれの参照が、ｋ−ｍｅｒを含有するか決定するステップと、
ｅ）可能性の高い供給源参照の記述を返すステップと
を含む方法に関する。

本方法は、完全問い合わせセットのアライメントに着目する、したがって、入力装置（クライアント等）からアライメントを実行できるデータベースおよびスコアリングユニット（サーバー等）へと配列全体の伝達を要求する伝統的なアライメントおよびマッピングアルゴリズムを上回るいくつかの利点を有する。本発明において、配列のサブセットのみが、断片化および問い合わせに付され、これにより、データ伝達の必要を最小化する。伝達されるサブセットは、例えば、固定されたサイズのランダムサブセット、フィルターをかけたサブセット、適応サンプリング、入力およびスコアリング実体間の反復性同期的もしくは非同期的ダイアログまたはこれらのいずれかの組合せとなり得るが、これらに限定されない。

シークエンシングリードのアセンブリまたはゲノム構築と続く検索に基づく方法、あるいは参照のコレクションにわたるあらゆるリードをマッピングする方法と比較すると、本方法は、完全アライメントの実行を試みず、データのサブセットにおいて作業することにより、相当に低いコンピュータ処理能力を要求し、これにより、数秒以内に結果を得ることができる。よって、本発明の方法は、例えば、クライアントとして低いコンピュータ処理能力を有するタブレットまたは携帯型装置（例えば、携帯電話等）を用いたクライアント・サーバーアプローチを使用してランすることができる。１サブセットのデータに対し相対的に速く結果を得ることができるため、追加的なサブセットのデータの検索に要求される時間は、相当に低減する。このように、試料におけるＤＮＡの異なる供給源の同一性は、配列全体のアライメントに基づく従来方法と比較して、相当に低減した期間において決定することができる。

その最も広範な態様において、本発明は、データベースにおける存在のみの問い合わせに関する。しかし、好ましい実施形態において、データベースは、参照配列におけるｋ−ｍｅｒの位置も問い合わせされ、よって、供給源ｋ−ｍｅｒの連続性の計算を可能にし、評価をより正確なものとする。生物は、互いに遺伝的に関係することが多く、本発明は、参照配列のコレクションにおける密接な親を見出すこともできる。

２種の別々のデータベースまたはコレクションにおけるデータのコンパイルは、参照におけるｋ−ｍｅｒの存在の検索を位置の検索から分断し、永続的保存よりも検索が速くなり得る、メモリへの可能な限り多くの存在の検索のキャッシュ化等、最適化を考慮することを可能にする。ｋ−ｍｅｒが存在することが判明した場合、また、十分な時間がある場合は補足的最適化ステップにおいて、所定の参照における位置の検索を行うことができる。よって、本発明の好ましい実施形態は、生物配列の可能性の高い供給源を同定する方法であって、
ａ）供給源から配列のサブセットをサンプリングするステップと、
ｂ）サブセットからの配列をｋ−ｍｅｒに断片化するステップと、
ｃ）前記サブセットからのｋ−ｍｅｒを、参照配列のｋ−ｍｅｒを含む第１のコレクションに対して問い合わせるステップと、
ｄ）前記サブセットからのｋ−ｍｅｒを、参照配列におけるｋ−ｍｅｒの位置を含む第２のコレクションに対して問い合わせるステップと、
ｅ）いずれの参照がｋ−ｍｅｒを含有するか決定するステップと、
ｆ）可能性の高い供給源参照の記述を返すステップと
を含み、参照配列のｋ−ｍｅｒを含むコレクションが、参照配列におけるｋ−ｍｅｒの位置を含むコレクションとは別々である方法に関する。

よって、本発明の好ましい実施形態は、生物配列の可能性の高い供給源を同定する方法であって、
ａ）供給源から配列またはショートリードのサブセットをサンプリングするステップと、
ｂ）サブセットからの配列をｋ−ｍｅｒに断片化するステップと、
ｃ）前記サブセットからのｋ−ｍｅｒを、参照配列のｋ−ｍｅｒを含む第１のコレクションに対して問い合わせるステップと、
ｄ）前記サブセットからのｋ−ｍｅｒを、参照配列におけるｋ−ｍｅｒの位置を含む第２のコレクションに対して問い合わせるステップと、
ｅ）いずれの参照がｋ−ｍｅｒを含有するか決定するステップと、
ｆ）可能性の高い供給源参照の記述を返すステップと
を含み、参照配列のｋ−ｍｅｒを含む前記コレクションが、参照配列におけるｋ−ｍｅｒの位置を含むコレクションとは別々である方法に関する。

本発明の注目すべき一特色は、可能性の高い参照が同定されたら、可能性の高い参照に関する情報が使用者に返されることである。返された情報は、例えば、可能性の高い種およびその起源もしくは供給源、ならびに／または可能性の高い種の完全ゲノム配列に関する情報になり得る。これにより、使用者は、突然変異および挿入等、僅かな変動を同定するために、最先端のアライメントまたはゲノム構築アルゴリズムを使用して、参照配列に対し未知試料に由来する残りの未加工のリードをアライメントさせることができる。

さらなる態様において、本発明は、参照配列のｋ−ｍｅｒを含むデータベースであって、
ａ）参照配列からのｋ−ｍｅｒの第１のコレクションと、
ｂ）参照配列における各ｋ−ｍｅｒの位置の第２のコレクションと
を含むデータベースに関する。

２種の別々のデータベースまたはコレクションにおけるデータのコンパイルは、参照におけるｋ−ｍｅｒの存在の検索を位置の検索から分断し、永続的保存よりも検索が速くなり得る、メモリへの可能な限り多くの存在の検索のキャッシュ化等、最適化を考慮することを可能にする。ｋ−ｍｅｒが存在することが判明した場合、また、十分な時間がある場合は補足的最適化ステップにおいて、所定の参照における位置の検索を行うことができる。

第３の態様において、本発明は、入力デバイスと、中央処理ユニットと、メモリと、出力デバイスとを好ましくは含む、供給源配列の可能性の高い供給源を同定するためのデータ処理システムであって、前記データ処理システムが、実行されると本発明の方法を実施させる命令シーケンスを表すデータを内部に保存し、メモリが、本発明に係るデータベースをさらに含むシステムに関する。

図３は、本発明のシステムの一実施形態の要点を図解する。要点とは、サンプリングが「クライアント」において行われ、最小量の情報が伝達されるようにすることである。最も可能性の高い参照の記述子の使用は、本図において図解されていない。

デバイス（入力、出力、メモリ、ＣＰＵ）は、携帯型、固定型、クラウドおよび／またはオンラインベースとなり得る。

好ましくは、データベースは、サーバーに保存され、入力および出力デバイスは、１個または複数のクライアントであり、クライアントおよびサーバーは、データ通信接続を介して接続されており、サーバーの共有は、参照のコレクションの集中化と、別々のプロセスまたはいっそ別々の機器において実行する場合、クライアントにわたるサーバーにおける演算能力の分布を可能にする。かかる実施形態において、クライアントは、クライアントが、供給源配列のサブセットをサンプリングし、これらをｋ−ｍｅｒに断片化し、これらをサーバーに伝達することを可能にする命令シーケンスを含むことができる。

クライアントは、クライアントが、サーバーとダイアログして、サンプリング手順を適応または妨害する、あるいはサーバーからクライアントに伝達された配列に基づき、１個または複数のより大型の配列への供給源配列のアセンブリを実行することを可能にする命令シーケンスをさらに含むことができる。

一実行において、本システムは、データ接続を介して配列決定装置に接続されている。

さらなる態様において、本発明は、実行されると本発明の方法を実施させる命令シーケンスを含有するコンピュータソフトウェア製品、および実行されると本発明の方法を実施させる命令シーケンスを含有する集積回路製品に関する。

図１は、「存在」および「位置」データベースの構築を示す図である。図２は、典型的には、配列決定からの未加工のリードである、問い合わせＤＮＡ断片のセットのスコアリングを示す図である。図２は、典型的には、配列決定からの未加工のリードである、問い合わせＤＮＡ断片のセットのスコアリングを示す図である。図３は、本発明のシステムのアーキテクチャの概要を示す図である。図４は、変動するリードサイズ（行）およびランダム置換率（列）に従った、問い合わせとして使用したデータベースにおける７４７種の細菌ゲノムの平均ランク（ｘ軸）およびランクの標準偏差（ｙ軸）を示す図である。図４は、変動するリードサイズ（行）およびランダム置換率（列）に従った、問い合わせとして使用したデータベースにおける７４７種の細菌ゲノムの平均ランク（ｘ軸）およびランクの標準偏差（ｙ軸）を示す図である。図５は、実施例１および２においても使用される、インデックス付けおよびスコアリング手順の特定例の全体像を示す図である。（Ａ）参照配列のコレクションのインデックス付けにおいて、非重複ｋ−ｍｅｒは、２種の別個のキー値保存へとインデックス付けされ、そのうち一方は、ｋ−ｍｅｒが見出された参照とｋ−ｍｅｒとを関連付け（「存在」）、もう一方は、ｋ−ｍｅｒが見出された参照における位置とｋ−ｍｅｒとを関連付ける（「位置」）。（Ｂ）問い合わせセットにおけるシークエンシングリードを処理する際に、重複ｋ−ｍｅｒは、「存在」保存においてルックアップした。重複ｋ−ｍｅｒの使用は、リードの始まりおよび参照配列の始まりの間で（点線）、相対的に迅速にミスアライメント（ｍｉｓａｌｉｇｎｍｅｎｔ）の解消を可能にする。本図において、ｋ−ｍｅｒのサブセットのみが、インデックス付けステップによるフェーズにあり、したがって、これらのみが、「存在」に見出され得る。（Ｃ）所定のリードのため、十分なリードにマッチする可能性がある参照を保持するためだけに閾値が適用される。非常に大型の参照が、哺乳動物ゲノムに対する細菌リード等、互いに素な（disjoint）散乱したｋ−ｍｅｒを含有する状況は、例えば、参照における最小領域内の最高濃度のｋ−ｍｅｒを使用して、「位置」保存が問い合わせされる最後のステップにおいて解消される。図６は、細菌リードを示す図である。７４７種のゲノムのセットにおける細菌ゲノム毎に、本出願人らは、数種のリード長（５０ヌクレオチド（ｎｔ）、７５ｎｔ、１００ｎｔ、１５０ｎｔ、２００ｎｔ、２５０ｎｔ）および数種の置換誤り率（０％、１％、５％、１０％）をシミュレートした。各問い合わせにおいて１００種のランダムリードを使用し、リストにおける正しい参照のランクの分布を記録した；１のランクは、正しい参照が、リストの最上部に存在したことを意味する。返されたヒットのリストは、２５の最大の長さに設定され、本出願人らは、リストに全く存在しない場合、「見当たらない」として参照を計数した。正しい検査細菌ゲノムのパーセンテージは、各パネルの右側に入れ子されたバーで表される。本図は、予想通り、誤り率が増加するにつれて性能が劣化することを示すが、長さ５０のリードは、相対的に減少した性能を有すると思われることも示す。１００ヌクレオチドを超えるリード長の増加は、１００ヌクレオチドのリードと比較して、僅かな改善しかもたらさず、誤り率における限定的な補整効果を有する。図６は、細菌リードを示す図である。７４７種のゲノムのセットにおける細菌ゲノム毎に、本出願人らは、数種のリード長（５０ヌクレオチド（ｎｔ）、７５ｎｔ、１００ｎｔ、１５０ｎｔ、２００ｎｔ、２５０ｎｔ）および数種の置換誤り率（０％、１％、５％、１０％）をシミュレートした。各問い合わせにおいて１００種のランダムリードを使用し、リストにおける正しい参照のランクの分布を記録した；１のランクは、正しい参照が、リストの最上部に存在したことを意味する。返されたヒットのリストは、２５の最大の長さに設定され、本出願人らは、リストに全く存在しない場合、「見当たらない」として参照を計数した。正しい検査細菌ゲノムのパーセンテージは、各パネルの右側に入れ子されたバーで表される。本図は、予想通り、誤り率が増加するにつれて性能が劣化することを示すが、長さ５０のリードは、相対的に減少した性能を有すると思われることも示す。１００ヌクレオチドを超えるリード長の増加は、１００ヌクレオチドのリードと比較して、僅かな改善しかもたらさず、誤り率における限定的な補整効果を有する。図７は、細菌リード（リードの数）を示す図である。７４７種のゲノムのセットにおける細菌ゲノム毎に、本出願人らは、数種のリード長（５０ｎｔ、７５ｎｔ、１００ｎｔ、１５０ｎｔ、２００ｎｔ、２５０ｎｔ）および数種の置換誤り率（０％、１％、５％、１０％）をシミュレートした。各問い合わせにおいて１００、２００または３００種のランダムリードを使用し、リストにおける正しい参照のランクの分布を記録した；１のランクは、正しい参照が、リストの最上部に存在したことを意味する。曲線は、１００、２００および３００種のリードを表示する。１００種のリードから３００種のリードに由来するランダム試料におけるリード数の増加が、性能の相対的に僅かな増加をもたらすことが理解できる。誤り率またはリード長は、さらにより強い効果を有した。図７は、細菌リード（リードの数）を示す図である。７４７種のゲノムのセットにおける細菌ゲノム毎に、本出願人らは、数種のリード長（５０ｎｔ、７５ｎｔ、１００ｎｔ、１５０ｎｔ、２００ｎｔ、２５０ｎｔ）および数種の置換誤り率（０％、１％、５％、１０％）をシミュレートした。各問い合わせにおいて１００、２００または３００種のランダムリードを使用し、リストにおける正しい参照のランクの分布を記録した；１のランクは、正しい参照が、リストの最上部に存在したことを意味する。曲線は、１００、２００および３００種のリードを表示する。１００種のリードから３００種のリードに由来するランダム試料におけるリード数の増加が、性能の相対的に僅かな増加をもたらすことが理解できる。誤り率またはリード長は、さらにより強い効果を有した。図８は、細菌リード、性能の可変性を示す図である。７４７種の検査細菌ゲノムの同定手順の１反復を５回実行した場合の、真の参照の平均ランク（ランク、ｘ軸）およびランクの標準偏差（Ｓランク、ｙ軸）。平均ランクが１に最も近いと、パーフェクトな性能に最も近くなり、ランクの標準偏差が最も小さいと、サンプリング効果に対し合理性が最も低くなる。検査した多数の細菌ゲノムが、散乱において等しいまたは近似した座標（coordinate）を生じる場合、明確さを増加させるために、本出願人らは、六角形のビニング（ｈｅｘａｇｏｎａｌｂｉｎｎｉｎｇ）を使用し、それに応じてその区域を着色する。各散布図の右側の垂直なバーは、上位２５マッチ以内でない検査ゲノムの数を示し、六角形のビニングと同じスケールで着色する。異なるリードサイズ（行）および誤り率（ランダム置換、列）を試行し、散布図のマトリクスを生じる。図８は、細菌リード、性能の可変性を示す図である。７４７種の検査細菌ゲノムの同定手順の１反復を５回実行した場合の、真の参照の平均ランク（ランク、ｘ軸）およびランクの標準偏差（Ｓランク、ｙ軸）。平均ランクが１に最も近いと、パーフェクトな性能に最も近くなり、ランクの標準偏差が最も小さいと、サンプリング効果に対し合理性が最も低くなる。検査した多数の細菌ゲノムが、散乱において等しいまたは近似した座標（coordinate）を生じる場合、明確さを増加させるために、本出願人らは、六角形のビニング（ｈｅｘａｇｏｎａｌｂｉｎｎｉｎｇ）を使用し、それに応じてその区域を着色する。各散布図の右側の垂直なバーは、上位２５マッチ以内でない検査ゲノムの数を示し、六角形のビニングと同じスケールで着色する。異なるリードサイズ（行）および誤り率（ランダム置換、列）を試行し、散布図のマトリクスを生じる。図９は、細菌リード、同じ種を示す図である。マッチのパーセンテージは、正しい種、すなわち、図７に示す正しく厳密に同じ参照ではなく、同じ種の細菌に属する本出願人らのコレクションにおける参照と、正しい種が上位２５マッチ内ではない事例のパーセンテージをもたらす。より短いリード（５０ｎｔ）の性能は相対的に低く、ノイズがこれをさらに減少させる（最初の行におけるバー・プロット）が、１００ｎｔから非常に良好になり、ノイズに対しロバスト状態を維持する。図９は、細菌リード、同じ種を示す図である。マッチのパーセンテージは、正しい種、すなわち、図７に示す正しく厳密に同じ参照ではなく、同じ種の細菌に属する本出願人らのコレクションにおける参照と、正しい種が上位２５マッチ内ではない事例のパーセンテージをもたらす。より短いリード（５０ｎｔ）の性能は相対的に低く、ノイズがこれをさらに減少させる（最初の行におけるバー・プロット）が、１００ｎｔから非常に良好になり、ノイズに対しロバスト状態を維持する。

本発明は、試料に存在するタンパク質、ＤＮＡまたはＲＮＡに由来する生物配列情報の可能性の高い供給源の同定の実行におけるスピードおよび精度のバランスを保つ。

本発明の方法において使用されるべき配列情報は、例えば、核酸配列決定機器から、またはタンパク質のＣもしくはＮ末端配列決定から、もしくは質量分析タンパク質配列決定からの未加工のリードとなり得る。よって、本発明の文脈における単語、試料配列は、ショートリードとも呼ばれるかかる未加工のリードを指す。

特定の一実施形態において、図２において説明されている本発明は、次の事柄得る。
・参照ＤＮＡによるデータベースの作成（図１を参照）。データベースは、２部構成である：１）参照に関してインデックス付けされたあらゆる参照ＤＮＡのｋ−ｍｅｒのデータベース、および２）データベース１に由来するｋ−ｍｅｒと参照配列における位置との間の関連のデータベース。よって、参照ｋ−ｍｅｒＩＤおよび位置は、２種の異なるデータベースにおいて保存される。

図１は、データベース構築の一実施形態を図解する。データベースを作成するための入力データは、公開または独自データベースに由来するＤＮＡである。次に、これらは、好ましくは空間を節約するために非重複的となり得るＫ−ｍｅｒに分割される。ｋ−ｍｅｒは、さらに２ビットにビットパッキングすることができ、これは、各塩基が２ビットのメモリのみを占めることを意味する。ｋ−ｍｅｒの保存を加速させるため、これらは、好ましくは、データベースにおける挿入前に選別される。さらに、ｋ−ｍｅｒが由来する参照配列における名称および該配列における位置は、別々のデータベースにおいて保存することができる。

・参照データベースに対する、供給源に由来するｋ−ｍｅｒの問い合わせ配列に分解されたリードの選択の検索。

・主要スコアは、データベースにおける所定の参照配列に見出すことができる、問い合わせ配列に由来するｋ−ｍｅｒの数から計算される。

・示唆される配列が使用者に返され、これをより重い伝統的な解析（ｍｏｒｅｈｅａｖｙａｎｄｔｒａｄｉｔｉｏｎａｌａｎａｌｙｓｉｓ）に使用することができる。

本発明の本実行の特徴を次に示す。
・検索において、ｋ−ｍｅｒの正確なマッチのみが登録される。
・問い合わせリードは、例えば、長さ１６の多数のｋ−ｍｅｒに分解される。各ｋ−ｍｅｒの出発点は、１ずつ漸進される。
・「伝統的」ではない、ｄｅｎｏｖｏアライメントまたはマッピング方法。

図２は、ｋ−ｍｅｒデータベースを検索するための可能なアルゴリズムの１種を図解する。リードは、ステップサイズ１によるスライドウィンドウを使用してｋ−ｍｅｒに分割される。ｋ−ｍｅｒが、現検索において既に遭遇（ビジット）していた場合、次のｋ−ｍｅｒが選択される。次に、ｋ−ｍｅｒデータベースにおいてｋ−ｍｅｒをルックアップする。これがデータベースに存在する場合、参照配列の同一性および該配列における位置を情報検索する。次に、リードの近似連続性を算出し、最大の連続したセグメントが閾値を超える場合、ヒット計数が増加する。リードにおけるあらゆるｋ−ｍｅｒに対しこれを繰り返す。リード毎に、問い合わせ配列の長さで割ったヒットの数（ヒット計数）としてスコアを算出し、次に、マッチする参照配列の長さで割ったヒット計数を算出する。これは、多数のリードに対して繰り返され、得られたスコアに応じて先験的にまたは動的に定義することができる。スコアを選別し、最良のマッチを使用者に返す。

正確なマッチは、リードのレベルにおいて為されない。スコアリングは、リードに沿ったｋ−ｍｅｒマッチの見逃しを可能にする（そのため、生物学的試料における配列決定エラーおよび突然変異に対するロバスト性が確実になる）。

システムの全体像を次に示す。
・あらゆる公知の参照ＤＮＡ配列をｋ−ｍｅｒにインデックス付けし、参照（例えば、種）および参照配列における位置を保存する。本ステップは、好ましくは、新たな配列の追加またはさらなる配列情報の追加により、参照ＤＮＡ配列がアップデートされた場合にのみ行われる。
・配列をｋ−ｍｅｒに分割し、データベースに対しマッチングさせ、参照配列のヒット数を計数し、好ましくは、位置情報によりマッチングを精密化することにより、ＤＮＡの短い配列を保存することができるクライアント。

得られた参照は、次の目的のためにその後に使用することができる。
・参照にマッチするリードを取り除き、別の異なる参照に由来するより少ない存在量のＤＮＡが存在するか見出す。
・該参照に対するアライメントを実行する、あるいはデータベースにおける参照を使用してより大型の断片を反復的に構築し、以前にアセンブルされた参照を活用することによるｄｅ−ｎｏｖｏアセンブリよりもさらに優れた性能をもたらす；さらに、データベースのサイズが増加し、より多くのアセンブルした参照が追加されるにつれ、性能が高まるであろう。
・様々な生物または遺伝子（例えば、診断目的に関連）の可能性の高い存在を同定する。

未加工のリードの副試料（sub-sample）のみが必要とされるため、これは、感染病原体の同定等、初歩的診断を行うために移行させるデータの量を減少させることができる。より小型の配列実験の場合、これは、解析の一部が、商品ハードウェアにおけるクライアントにより行われることも可能にする。

ロースループット（low-throughput）デスクトップシーケンサー（または使い捨て配列決定ユニット）の開発と、より安価なＧＰＵまたはＦＰＧＡユニットの登場により、本技法は、配列決定データのリアルタイムまたはほとんどリアルタイムの一次解析を可能にする。

アルゴリズム
一態様において、本発明は、生物配列の可能性の高い供給源を同定する方法であって、
ａ）供給源から配列またはショートリードのサブセットをサンプリングするステップと、
ｂ）サブセットからの配列をｋ−ｍｅｒに断片化するステップと、
ｃ）前記サブセットからのｋ−ｍｅｒを、参照配列のｋ−ｍｅｒを含むデータベースに対して問い合わせるステップと、
ｄ）いずれの参照が、ｋ−ｍｅｒを含有するか決定するステップと、
ｅ）可能性の高い供給源参照の記述を返すステップと
を含む方法に関する。

用語「供給源に由来する配列」は、生物配列を含む試料から得られる配列を示すために使用される。試料は、環境試料、患者等の対象に由来する試料、犯罪現場に由来する試料、食物試料、水試料その他となり得る。試料は、最先端のＤＮＡ／ＲＮＡまたはタンパク質単離および配列決定方法に付される。その結果は、該試料に特徴的な配列（リードとも呼ばれる）のセットである。配列は、典型的には、ある特定の区間内のランダムな長さである。配列は、また、典型的には、ランダムに重複している。供給源配列と呼ばれる試料に由来する配列のそれぞれを本発明の方法に付すことができる。

本発明における用語「参照」は、データベースに保存されている配列の記述子を含む。参照の典型例は、特定の種または品種または分離株の完全ゲノム配列である。参照は、特定の種または種の特定の状態のトランスクリプトームまたはプロテオームからなることもできる。種のトランスクリプトームおよびプロテオームは、年齢および環境条件に応答して経時的に変化し得るが、例えば、種のゲノム配列は、程度の差はあるが、経時的に一定であり続ける。データベースは、参照に関する追加的な情報を保存することができる。

本発明の方法は、アミノ酸配列ならびにＤＮＡおよびＲＮＡ配列等のヌクレオチド配列等、いかなる生物配列情報に適用することもできる。好ましい実施形態において、配列は、ＤＮＡ配列である。

その最も広範な態様において、本発明は、問い合わせまたは供給源配列に由来するｋ−ｍｅｒの存在の同定のみに頼る。この場合、アルゴリズムからの出力は、参照と、参照において同定されたヒットの相当する数のリストである。しかし、ヒトゲノムや特に一部の植物ゲノム等、一部のゲノムの規模のために、多くのｋ−ｍｅｒは、これらの非常に大型のゲノムに偶然に存在し得る。したがって、好ましい実施形態において、問い合わせは、参照配列におけるｋ−ｍｅｒの位置の決定をさらに含む。これは、存在および位置が、参照配列における問い合わせｋ−ｍｅｒの連続性の決定に使用されることを可能にする。これにより、存在および局所性の両方に基づき、スコアとして問い合わせがより正確になる、あるいは参照におけるｋ−ｍｅｒの近似連続性を使用することができる。

よって、本発明の好ましい実施形態は、生物配列の可能性の高い供給源を同定する方法であって、
ａ）供給源から配列またはショートリードのサブセットをサンプリングするステップと、
ｂ）サブセットからの配列をｋ−ｍｅｒに断片化するステップと、
ｃ）前記サブセットからの１種または複数のｋ−ｍｅｒを、参照配列のｋ−ｍｅｒを含む第１のコレクションに対して問い合わせるステップと、
ｄ）前記サブセットからの１種または複数のｋ−ｍｅｒを、参照配列におけるｋ−ｍｅｒの位置を含む第２のコレクションに対して問い合わせるステップと、
ｅ）いずれの参照がｋ−ｍｅｒを含有するか決定するステップと、
ｆ）可能性の高い供給源参照の記述を返すステップと
を含み、参照配列のｋ−ｍｅｒを含むコレクションが、参照配列におけるｋ−ｍｅｒの位置を含むコレクションとは別々である方法に関する。

本発明のさらにより好ましい実施形態において、参照配列におけるｋ−ｍｅｒの位置を含む第２のコレクションに対する問い合わせは、参照配列のｋ−ｍｅｒを含む第１のコレクションにおいて所定のｋ−ｍｅｒが見出された（すなわち、存在する）場合にのみ行われる（図２を参照）。

本発明の好ましい実施形態において、上述のステップａ）〜ｆ）が使用される場合、所定のｋ−ｍｅｒの存在および位置は、その後のｋ−ｍｅｒの問い合わせに先立ち決定される。よって、本発明の好ましい実施形態は、生物配列の可能性の高い供給源を同定する方法であって、
ａ）供給源から配列またはショートリードのサブセットをサンプリングするステップと、
ｂ）サブセットからの配列をｋ−ｍｅｒに断片化するステップと、
ｃ）前記サブセットからのｋ−ｍｅｒを、参照配列のｋ−ｍｅｒを含む第１のコレクションに対して問い合わせるステップと、
ｄ）前記サブセットからの前記ｋ−ｍｅｒを、参照配列におけるｋ−ｍｅｒの位置を含む第２のコレクションに対して問い合わせるステップと、
ｅ）いずれの参照がｋ−ｍｅｒを含有するか決定するステップと、
ｆ）可能性の高い供給源参照の記述を返すステップと
を含み、参照配列のｋ−ｍｅｒを含むコレクションが、参照配列におけるｋ−ｍｅｒの位置を含むコレクションとは別々である方法に関する。

本発明の注目すべき特色の１つは、配列決定から得られる配列のサブセットのみが、データベースの問い合わせに使用されることである。この構成は、非常に大型のゲノムが配列決定され問い合わせされる際の律速ステップとなり得るデータの移行を最小化する。よって、配列のサブセットは、少なくとも１％、例えば、少なくとも２％、例えば、少なくとも４％、例えば、少なくとも５％、例えば、少なくとも６％、例えば、少なくとも７．５％、例えば、少なくとも１０％、例えば、少なくとも１５％、例えば、少なくとも２５％、例えば、少なくとも３０％、例えば、少なくとも３５％、例えば、少なくとも４０％、例えば、少なくとも５０％の離散した配列を含むことができる。

本発明の特徴の１つは、ｋ−ｍｅｒ問い合わせが、問い合わせおよび参照ｋ−ｍｅｒの間の正確なマッチの決定を含むことである。

供給源配列またはショートリードが問い合わせされる場合、好ましくは、問い合わせは、少なくとも１種の供給源配列に由来するあらゆるｋ−ｍｅｒの問い合わせを含む。この構成は、連続性または近似連続性の最良の計算を可能にする。好ましくは、少なくとも５０種の供給源配列、例えば、少なくとも１００、例えば、少なくとも１５０、例えば、少なくとも２００、例えば、少なくとも２５０、例えば、少なくとも３００、例えば、少なくとも４００、例えば、少なくとも５００、例えば、少なくとも７５０、例えば、少なくとも１０００、例えば、少なくとも１５００、例えば、少なくとも２０００、例えば、少なくとも２５００、例えば、少なくとも５０００種以上の配列に由来するあらゆるｋ−ｍｅｒが問い合わせされる。問い合わせされる供給源配列の正確な数は、とりわけ、ネットワークおよび計算能力、時間的制約、統計的要件および完全供給源配列のサイズおよび異なる参照に対する供給源の関係性により決定される。

実施例において実証される通り、各供給源配列は、好ましくは、供給源生物、変種、品種または分離株の特徴的なフィンガープリントを与えるための、所定の最小の長さのものである。ヌクレオチド配列である供給源配列の場合、供給源配列は、好ましくは、少なくとも５０ヌクレオチド塩基、より好ましくは、少なくとも７５ヌクレオチド塩基、例えば、７５〜２００ヌクレオチド塩基等、例えば、７５ヌクレオチド塩基〜１００ヌクレオチド塩基または１００ヌクレオチド塩基〜１２５ヌクレオチド塩基または１２５ヌクレオチド塩基〜１５０ヌクレオチド塩基または１５０ヌクレオチド塩基〜１７５ヌクレオチド塩基または１７５ヌクレオチド塩基〜２００ヌクレオチド塩基、さらにより好ましくは、例えば、少なくとも１００ヌクレオチド塩基、例えば、１００〜３００ヌクレオチド塩基、例えば、１００ヌクレオチド塩基〜１５０ヌクレオチド塩基または１５０ヌクレオチド塩基〜２００ヌクレオチド塩基または２００ヌクレオチド塩基〜２５０ヌクレオチド塩基または２５０ヌクレオチド塩基〜３００ヌクレオチド塩基、例えば、少なくとも１００ヌクレオチド塩基、例えば、１００ヌクレオチド塩基、例えば、２００ヌクレオチド塩基等、例えば、少なくとも２５０ヌクレオチド塩基、例えば、３００ヌクレオチド塩基、例えば、４００ヌクレオチド塩基、少なくとも５００以上のヌクレオチド塩基のものである。

多くの実際的な実行において、配列の１種のサブセットが、最初に問い合わせされる。これが、十分に高い確実性による参照の決定に十分でない場合、本方法は、配列の１種または複数のさらなるサブセットを選択するステップと、これらを、本発明の方法のステップａ）〜ｅ）またはａ）〜ｆ）に付すステップとをさらに含むことができる。

原則的に、本方法は、いかなるサイズのｋ−ｍｅｒまたはｋ個組の使用も可能にする。しかし、好ましい実施形態において、ｋ−ｍｅｒのサイズは、４で割ることができる。したがって、ｋ−ｍｅｒは、サイズ４、８、１２、１６、２０、２４、２８、３２、３６、４０、４４、４８、５２、５６、６０、６４以上のものとなり得る。より好ましくは、ｋ−ｍｅｒは、１６から６４の間、より好ましくは、１６から３２の間の長さのものとなり得る。より長いｋ−ｍｅｒは、本方法の配列決定エラーに対する感度をより高め、より短いｋ−ｍｅｒは、ランダムヒットの数を増加させ、これにより、ノイズを生じる。

一実施形態において、ｋ−ｍｅｒは連続しており、好ましくは、データベースに保存されているｋ−ｍｅｒは、参照配列全体を網羅するために連続している。

好ましくは、供給源配列に由来するｋ−ｍｅｒは、重複しており、少なくとも１、例えば、少なくとも２、例えば、少なくとも３、例えば、少なくとも４、例えば、少なくとも５、例えば、少なくとも６以上の塩基またはアミノ酸ずつ漸増する。これは、配列にわたる幅ｋのウィンドウのスライドに相当する。ウィンドウは、配列にわたり１、２個以上の塩基／アミノ酸ずつスライドさせることができる。例えば、一塩基突然変異／エラーのどちらかの側におけるｋ−ｍｅｒを問い合わせにおいて同定できるであろうことから、供給源配列から重複する漸増ｋ−ｍｅｒを作成することにより、本方法は、配列決定エラーまたは点突然変異に対する感度が低くなる。したがって、連続性は、より高い精度で算出することができる。

供給源配列における互いに素な部分配列の連結に起因する互いに素なｋ−ｍｅｒの使用も可能である。

好ましくは、本方法において、所定の配列に由来するｋ−ｍｅｒが、データベースに対して問い合わせされて、１種または複数の参照配列におけるｋ−ｍｅｒの存在と、前記１種または複数の参照配列におけるｋ−ｍｅｒの位置を決定する。データベース使用を最適化するために、位置は、好ましくは、ｋ−ｍｅｒがデータベースに存在する場合にのみ問い合わせされる。

問い合わせの定量的評価を可能にするために、本方法は、同定された参照配列のスコアを算出するステップを含み、該スコアは、所定の参照配列に見出される１種または複数の配列に由来するｋ−ｍｅｒの数に相関する。このスコアは、例えば、供給源配列の長さで割ることができる。同定された参照のさらなるスコアを算出することができ、該さらなるスコアは、参照配列に見出される１種または複数の配列に由来するｋ−ｍｅｒの連続性に相関する。例えば、スコアは、データベースにおいて見出される１種の供給源配列に由来するｋ−ｍｅｒおよびデータベースにおける１種の参照配列において見出されるｋ−ｍｅｒの最長の配列のパーセンテージとなり得る。

同様に、同定された参照配列毎に、同定された参照のスコアを算出することができ、該スコアは、供給源に由来するｋ−ｍｅｒのサブセットにも存在する参照配列におけるｋ−ｍｅｒの数に相関する。一例は、供給源配列において見出されるデータベースにおける１種の参照に由来するｋ−ｍｅｒのパーセンテージとなり得る。多くの実際の適用において、満足のいく確実性を得るために、数百種の供給源配列が問い合わせおよびスコアリングされる。このスコアは、同定されたｋ−ｍｅｒの連続性に基づくスコアを含むこともできる。

これらのスコアは、好ましくは、別個の供給源配列毎に算出され、例えば、１種の供給源配列に由来するあらゆるｋ−ｍｅｒが問い合わせされ、前記供給源配列の１個または複数のスコアが算出される。好ましくは、本方法は、第２の供給源配列、好ましくは、第３の供給源配列等に由来するあらゆるｋ−ｍｅｒの問い合わせをさらに含む。異なる供給源配列のスコアは、例えば、供給源配列の長さによりこれらを秤量することにより組み合わせることができる。

本発明の一実施形態において、リードのために作成されたあらゆるｋ−ｍｅｒが処理されたら、参照においてマッチした近接位置の数を使用して、マッチの最大のクラスター、すなわち、あらゆるマッチする参照にわたる同じリードに起源をもつマッチするｋ−ｍｅｒの最大の濃度を単離する。かかるクラスター毎に、所定の参照配列の計数に、クラスターにおけるｋ−ｍｅｒの数を加えることにより、計数が算出される。所定の試料に由来する２種以上のリードにわたり本方法が反復される場合、先のリードから得られた参照配列の計数に、クラスターにおけるｋ−ｍｅｒの数を加えることにより、計数をアップデートすることができる。すなわち、該参照のｋ−ｍｅｒの数を加えることにより、計数をアップデートすることができ、既に計数されたｋ−ｍｅｒのリストがアップデートされる。続いて、次の配列またはリードを処理することができる。マッチすることが判明したｋ−ｍｅｒの計数が関連付けされた参照のリストが得られる。ペア＜参照、計数＞毎に、計数を、問い合わせセットにおける特有のｋ−ｍｅｒの数で割り、所定の参照によりマッチした問い合わせたサブセットにおけるＤＮＡの量の大雑把なスコアを得る。問い合わせたサブセットが、配列に完全にマッチする場合、該スコアは、１となり、そうでなければ、これはより小さくなる；例えば、問い合わせたサブセットが、２種の参照の等しい割合の混合物である場合、両方の参照のスコアは、０．５前後となるであろう。該計数は、参照のサイズ（または参照配列における特有のｋ−ｍｅｒの数）で割って、問い合わせたサブセットによって表される参照の画分の大雑把なスコアを得ることもできる；該第２のスコアは、マッチする参照の選別および最大の参照へのバイアスの回避に役立つ。最終スコアは、例えば、スコア毎に等しい加重が使用された、これら２スコアの加重和である。

本発明の一実施形態において、予め選択された数の供給源配列を問い合わせし、結果を返す。しかし、他の実施形態において、データベース問い合わせは、定義済みの統計的確率により参照生物が同定されたら中止することができる。同様に、ｋ−ｍｅｒの定義済みの画分が、データベースにおいて見出されない、またはさらなる供給源配列により伸長される、あるいはスコアが緩和パラメータにより算出される場合、データベース問い合わせは中止することができる。これは、ジャンク配列、多くの配列決定エラーを有する配列または完全な未知配列の場合に生じ得る。

問い合わせプロセスからの出力は、前記スコアまたは複数のスコアのうち１種または複数に従ってランク付けされた可能性の高い供給源参照のリストとなり得る。データベース出力の他の例として、１種または複数の可能性の高い参照に関する次の情報のうち１種または複数が挙げられる：可能性の高い参照の分類学的名称、前記可能性の高い参照の近縁、前記参照の供給源、遺伝連鎖情報、ＳＮＰに関する情報、配列における遺伝子の位置およびアノテーション。

特定の実施形態において、データベースは、最も可能性の高い参照の配列を出力し、好ましくは、データベースは、最も可能性の高い参照種の完全ゲノム配列を出力する。これにより、使用者は、最先端のアライメントアルゴリズムを使用して最も可能性の高い種の完全ゲノム配列に対して供給源配列をアライメントし、突然変異または挿入または染色体異常、異常性もしくは異状が存在するかさらに調査することができる。しかし、本発明の一実施形態において、本発明の方法は、例えば、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズム［１４］、ＢＬＡＳＴ［１］、ＢＬＡＴ［５］、Ｂｏｗｔｉｅ、ＢＷＡ、ＳＨＲｉＭＰ［１６］または当業者に公知の他のアライメントアルゴリズム等、例えば、スコアリングマトリクスを使用するアライメントアルゴリズム等、配列データに関するアライメントアルゴリズムの使用を含まない。

微生物配列が問い合わせされる場合等、多くの場合、データベースは、多くの密接に関係する配列、例えば、同じ種の異なる分離株に由来する配列を含むことができる。かかる事例において、非常に類似した配列を有する参照からの結果は、出力においてグループ化することができる。これは、使用者が、より少量で存在する別の種または異なる種に由来する挿入ＤＮＡの小片をより容易に同定することも可能にできる。

多くの場合、試料は種の混合集団を含有し、全ゲノムの配列決定は、複数の種に由来するゲノムＤＮＡの混合物をもたらすであろう。このような場合、本方法は、第１の反復における最も豊富な参照の同定等、本方法の数回の反復の実行を含み得る。第２の反復において、最も豊富な種に由来する配列は、データベースを問い合わせる前に供給源配列から除去することができる、あるいは本方法は、該種に由来するさらなる結果の無視を含み得る。

あるいは、本発明の方法の１回の反復からの出力は、同定された全参照の情報およびスコアを含むことができる。この場合のスコアは、異なる参照間のパーセンテージ分布を含むことができる。

本実施形態は、ウイルス挿入、導入遺伝子または別の細菌種に由来する挿入等、挿入の参照を同定するために使用することもできる。

多くの実施形態において、使用者は最初に、１種の参照に由来する配列またはショートリードが、試料に存在することを知ることになり、続くタスクは、試料に存在する任意の他の配列またはショートリードの可能性の高い参照を同定することになる。これは、試料がヒトＤＮＡおよび潜在的病原体に由来するＤＮＡの両方を含有する診断の場合となり得る。他の例として、試料が食物供給源（例えば、サラダ、トマト、キュウリ、特定の種に由来する肉）に由来するＤＮＡを含有することが公知の、食物試料における有害細菌の同定が挙げられ、タスクは、いずれかの混入ＤＮＡの存在および同一性を同定することである。かかる方法において、本方法は、定義済み参照に由来する配列とアライメントする供給源配列を最初に除去することを含み得る。あるいは、本方法は、１種または複数の定義済み参照に由来するｋ−ｍｅｒの無視を含み得る。

一実施形態において、本方法は、核酸シーケンサーから得られる未加工のリードのサンプリングおよび問い合わせを含む。

診断目的のためにシーケンサーからのショートリードまたは未加工のリード等、同定するためのＤＮＡデータの問い合わせセットを有する場合、本出願人らは、包括的参照データベースに対するあらゆるリードのマッピングまたはアライメントに存する総当たり（brute-force）アプローチが、２つの主要な不利益を有すると考慮する：第１に、配列決定設備から計算センターに移行される、数百メガバイトまたは数ギガバイトもの多さのデータ、第２に、タスクの実行に必要とされる計算資源が著しいこと。参照コレクションが、１０，０００種のＥ．ｃｏｌｉサイズの細菌を含有すること、また、ＢＷＡおよびｂｏｗｔｉｅ２等、最適化されたアライナが、２５０Ｍ塩基の未加工の配列決定データ（ゲノムが４Ｍ塩基のサイズである場合、平均カバー度における約６０×）を処理するために３０秒を要することを仮定すると、これはＣＰＵにおいて３日半を要するであろうが、複数のＣＰＵにおいて自明に並列化することができる。ゲノムのかかる連結の精密化を行うことができるが、但し、増え続ける量のメモリ、最初の参照ゲノムにマッピング位置を割り当てるための後処理計算と、ショートリードアライナが落ち着かないことが多い、近縁のゲノムが参照される際に必然的な複数のマッチの要求を代償とする。ＦＭ−インデックスを使用した、サイズｕの参照における長さｐの文字列のｎ発生の位置づけの時間計算量は、上界Ｏ（ｐ＋ｎｌｏｇε ｕ）を有し、これは、ｌｏｇεにおける項により、計算量は、参照のサイズが増加するにつれて徐々に増していくが、高度に類似したゲノムの数と共に直線的に増していくことを意味する。本出願人らのアプローチは、莫大な参照データベースの展望を包含し、１台のコンピュータの全ＲＡＭにおけるその維持を試みない。

データベース
一態様において、本発明は、参照配列のｋ−ｍｅｒを含むデータベースであって、
ａ．参照配列からのｋ−ｍｅｒの第１のコレクションと、
ｂ．参照配列における各ｋ−ｍｅｒの位置の第２のコレクションと
を含むデータベースに関する。

データベースアーキテクチャは、添付の実施例において図解されている通り、供給源配列に由来するｋ−ｍｅｒの非常に迅速な問い合わせを可能にし、数秒の間に結果が返され得ることを実証する。

データベースは、所定の参照に関連する全長配列、および／または前記参照の供給源および／または前記参照の１種もしくは複数の分類学的記述子に関する情報をさらに含むことができる。保存することができる追加的な情報は、ＤＮＡ配列においてアノテートされる遺伝子に関する情報である。

データベースを構築する場合、ｋ−ｍｅｒは、各特有のｋ−ｍｅｒに特有のキーを割り当てるハッシュ関数に付すことができる。他の可能性は、探索木またはハッシュ関数および探索木の組合せを含む。特有のキーは、ｋ−ｍｅｒが存在するこれらの参照に関する情報に関連し得る。

第２のコレクションにおいて、第２のコレクションにおける各特有のｋ−ｍｅｒは、キーとして使用することもでき、ハッシュ表、探索木またはこれらの組合せにより、存在するのであれば、各参照におけるｋ−ｍｅｒの位置に関する情報に関連付けることもできる。このコレクションは、コード配列、調節配列等、配列のいずれかのアノテーションへの関連等、ｋ−ｍｅｒが存在する位置に関するさらなる情報を含むことができる。

配列、コード配列、調節配列のいずれかのアノテーションへの関連、可能性の高い参照の分類学的名称、前記可能性の高い参照の近縁、前記参照の供給源、さらなる関係する参照の群、参照が得られた場所（土壌、海、腸、下水管等）、参照配列が得られた時期、分類学的分類、近縁種、参照配列がダウンロードされたデータベースに関する情報（例えば、ＮＣＢＩ、ＥＢＩ／Ｓａｎｇｅｒ）または他の情報等、所定のｋ−ｍｅｒが存在する参照配列に関する１種または複数のさらなる情報は、ＳＱＬデータベース等、本発明に係る参照配列に関する情報の情報検索に追加的に使用することができる別々のデータベースにおいて保存することもできる。

用語により、「さらなる関係する配列の群」は、土壌、海、腸、下水管等、類似の環境において採取された試料に由来する配列を意味する。

よって、本発明の一実施形態において、参照配列のｋ−ｍｅｒを含むデータベースは、
ａ）参照配列からのｋ−ｍｅｒの第１のコレクションと、
ｂ）参照配列における各ｋ−ｍｅｒの位置の第２のコレクション。
ｃ）参照識別子と、記述ライン（ｄｅｓｃｒｉｐｔｉｏｎｌｉｎｅ）、データの供給源、可能性の高い参照の分類学的名称、前記可能性の高い参照の近縁、前記参照の供給源、さらなる関係する参照の群の情報、参照が得られた場所（土壌、海、腸、下水管等）、参照配列が得られた時期、分類学的分類、近縁種、参照配列がダウンロードされたデータベースに関する情報（例えば、ＮＣＢＩ、ＥＢＩ／Ｓａｎｇｅｒまたは他のデータベース）からなる群から選択される１または複数の情報とを有する第３のコレクションまたはデータベース
を含む。

好ましい実施形態において、図１に示す通り、ｋ−ｍｅｒの第１のコレクションは、各ｋ−ｍｅｒ（データベースにおけるキー）に、該ｋ−ｍｅｒを有する参照に相当する識別子のリストを関連付けるキー値保存またはＮｏＳＱＬデータベース（例えば、ＫｙｏｔｏＣａｂｉｎｅｔ）である。参照配列におけるｋ−ｍｅｒの位置の第２のコレクションは、キー値保存またはＮｏＳＱＬデータベース、例えば、ＫｙｏｔｏＣａｂｉｎｅｔにおいて保存することもできる（図１を参照）。参照間の関連、識別子ならびに記述ラインおよびデータの供給源等の情報部分は、別々のＳＱＬデータベースにおいて保存される。

データベースにおけるｋ−ｍｅｒの長さは、適切なルックアップを仮定するが、好ましくは、供給源配列におけるｋ−ｍｅｒの長さにマッチする。しかし、データベースにおけるｋ−ｍｅｒは、好ましくは、重複していない。重複ｋ−ｍｅｒの使用は、データ処理時間を増加させるであろう。

本発明において、データベースにおける参照配列のインデックス付けされたｋ−ｍｅｒは、重複または非重複となり得る。好ましい実施形態において、インデックス付けされた参照配列のｋ−ｍｅｒは、非重複である。当業者であれば、類似のスコアリング原理が、参照配列における非重複または重複ｋ−ｍｅｒのインデックス付けされたデータベースに使用され得ることを認められよう。

ｋ−ｍｅｒでインデックス付けされたサイズｕの参照における長さｐの文字列のｎ発生の位置づけの時間計算量は、ｋインデックス付けおよびルックアップにツリーまたはハッシュが使用される場合、Ｏ（ｐ＋ｎｌｏｇｕ）またはＯ（ｐ＋ｎ）の計算量を有する。

これは、ｋ−ｍｅｒが重複し、少なくとも１、例えば、少なくとも２、例えば少なくとも３、例えば、少なくとも４、例えば、少なくとも５、例えば、少なくとも６以上の塩基またはアミノ酸ずつ漸進する実施形態を除外しない。

好ましい実施形態において、所定の参照の完全ゲノム配列は、ｋ−ｍｅｒに断片化され、データベースにアップロードされる。所定の参照のトランスクリプトームまたは所定の参照のプロテオームのみに基づきデータベースを構築することも考え得る。

目的が、単に、供給源配列の可能性の高い参照を同定することである場合、データベースは、完全である必要はない。特定の参照に由来するゲノムＤＮＡのランダムな選択を提供すれば十分となり得る。選択は、非ランダムとなることもでき、例えば、繰り返しＤＮＡおよびいわゆるジャンクＤＮＡのストレッチを除外する。

生物配列、タンパク質、ＲＮＡ、ＤＮＡの種類毎に、あらゆる利用できる情報を含有する１種のデータベースを構築することができる。他の実施形態において、特化したデータベースは、目的が、単に供給源配列に由来する所定の参照配列の有無を同定することである場合等、特化した目的のために構築することができる。例えば、データベースは、ヒト、動物、哺乳動物、鳥類、魚類、真菌、昆虫、植物、細菌、古細菌、ウイルスおよび／またはプラスミドに由来する配列情報を含むことができる。十分に高いスコアでマッチする参照を見出さない場合、データベースのネットワークは、１個のサーバーによって１個または数個の他に送られるリードに関する要求により構築することもできる。

スピードを損なうことなくハードウェア資源の最適な使用を為すために、データベースは、数個の異なるサーバーに保存されるサブデータベース（sub-database）に分けることができる。

他の実施形態において、データベースは、門、綱、目、科、属および種から選択される１種もしくは複数の分類学的記述子、または供給源、分布、起源および通常の検索頻度等の１種もしくは複数の環境的記述子に従ってサブデータベースへと組織化される。

データベースは、図１に説明されている通りに構築し、キー値保存（例えば、ＢＳＤＤＢ、ＫｙｏｔｏＣａｂｉｎｅｔ、ＬｅｖｅｌＤＢ、ＭｏｎｇｏＤＢその他）として公知のデータベースエンジンを使用して保存することができる。よって、本発明の一実施形態において、データベースは、ＢＳＤＤＢ、ＫｙｏｔｏＣａｂｉｎｅｔ、ＬｅｖｅｌＤＢ、ＭｏｎｇｏＤＢからなる群から選択されるキー値保存を使用して保存される。

アルゴリズムの適用
本発明の方法およびシステムは、試料において見出されるＤＮＡの可能性の高い供給源を同定する必要がある数多くの適用において使用することができる。

診断
内科的治療法において、感染の可能性の高い供給源を迅速に同定する必要がある。これは、本発明に係る方法を使用して行うことができる。これにより、最も有効な様式で最小の副作用により感染を処置するであろう、適した処置を選択することができる。

さらに別の診断適用は、がん細胞におけるウイルス挿入の同定に関する。この適用において、未加工のリードにおいて得られる配列から完全ヒト配列をフィルターにかけること、あるいはデータベースにおいて同定されるあらゆるヒトのヒットを単純に無視することが有利となり得る。これは、ヒトゲノムにおける相対的に小型のウイルス挿入の同定を可能にするであろう。

生物テロ防御
生物テロ防御適用において、遭遇した感染性または病原性因子の種の速くて信頼できる同定の必要がある。本発明は、供給源の予備的知識がない状態で、供給源の迅速な同定の可能性を提供する。本発明の方法は、病原体の種の予備的知識がない状態で、種の識別を可能にする。

生物テロ防御におけるさらなる適用は、例えば、毒性導入遺伝子が挿入されたトランスジェニック病原体の同定を含む。データベースは、有利には、最先端のプラスミドに由来する配列情報も含有する。これは、挿入の隣接領域の容易な同定を可能にする。導入遺伝子が、データベースに見出される生物に由来する場合、導入遺伝子の供給源を同定することも可能になる。このような場合、データベースは、病原体の名称、導入遺伝子が由来する生物の名称、導入遺伝子にコードされる遺伝子および導入遺伝子の挿入に使用されたプラスミドを返すことができる。

食物安全性および品質
食物における潜在的に有害な感染を同定するための現在の方法は、時間がかかる（感染性生物の単離および成長に基づく）、あるいは感染の供給源の事前の知識を必要とする（ＰＣＲに基づく方法）。本方法は、そのいずれも必要とせず、権限を持つ者および製造業者が、ゲノムＤＮＡを単純に単離し、ＤＮＡを配列決定し、本発明の方法を操作することができるシステムに未加工のリードをアップロードすることを可能にする。

食物の試料における細菌、真菌またはウイルスを探す場合、細菌、真菌またはウイルスに由来する配列のみを含有するデータベースの画分を問い合わせることが有利となり得る。このようにして、食物（野菜、果実、肉）に由来するいかなるゲノム配列もデータベースに存在しないものとして同定され、これにより、本方法の性能を改善するであろう。

他の適用として品質管理が挙げられる。可能な適用の１つは、ひき肉、パテ、調理済みの食事、インスタント食品等、肉の種の同定である。牛肉またはラム肉等の高価な肉が、豚肉等のより安価な肉に置き換えられたまたは「希釈された」、不正を試みた数多くの例がある。

他の可能な品質管理適用として、ブドウ、リンゴ、ジャガイモ等、植物の変種の決定が挙げられる。

さらに他の可能性として、水質の管理が挙げられる。

衛生および予防法
本発明は、クリーニング手順に関連して採取された試料におけるＤＮＡの供給源の迅速な同定を可能にすることによる衛生管理の可能性を提供する。さらなる適用は、混入の可能性の高い供給源の同定を含み、これにより、特定の感染病原体の排除に最も適した衛生学的技法の適用を可能にする。

項目
次に、任意で番号を振った項目１から５６として本発明を説明するが、これらは、本発明の実施形態として考慮されたい。本発明は、添付の特許請求の範囲を参照してさらに定義される。

１．生物配列の可能性の高い供給源を同定する方法であって、
ａ）供給源から配列またはショートリードのサブセットをサンプリングするステップと、
ｂ）サブセットからの配列をｋ−ｍｅｒに断片化するステップと、
ｃ）前記サブセットからのｋ−ｍｅｒを、参照配列のｋ−ｍｅｒを含むデータベースに対して問い合わせるステップと、
ｄ）いずれの参照がｋ−ｍｅｒを含有するか決定するステップと、
ｅ）可能性の高い供給源参照の記述を返すステップと
を含む方法。

２．生物配列またはショートリードが、アミノ酸配列である、項目１に記載の方法。

３．生物配列またはショートリードが、ＤＮＡまたはＲＮＡ配列である、項目１に記載の方法。

４．ｋ−ｍｅｒ問い合わせが、問い合わせおよび参照ｋ−ｍｅｒの間の正確なマッチの決定を含む、前記項目のいずれかに記載の方法。

５．問い合わせステップが、参照配列におけるｋ−ｍｅｒの位置を決定するステップをさらに含む、前記項目のいずれかに記載の方法。

６．存在および位置が使用されて、参照配列における問い合わせｋ−ｍｅｒの連続性を決定する、前記項目のいずれかに記載の方法。

７．問い合わせが、少なくとも１種の供給源配列またはショートリード、好ましくは、少なくとも５０、例えば、少なくとも１００、例えば、少なくとも１５０、例えば、少なくとも２００、例えば、少なくとも２５０、例えば、少なくとも３００、例えば、少なくとも４００、例えば、少なくとも５００、例えば、少なくとも７５０、例えば、少なくとも１０００、例えば、少なくとも１５００、例えば、少なくとも２０００、例えば、少なくとも２５００、例えば、少なくとも５０００種以上の配列に由来するあらゆるｋ−ｍｅｒの問い合わせを含む、前記項目のいずれかに記載の方法。

８．供給源配列が、少なくとも５０塩基、好ましくは、少なくとも１００塩基、例えば、少なくとも１５０塩基、例えば、少なくとも２００塩基、例えば、少なくとも２５０塩基、例えば、少なくとも３００塩基、例えば、少なくとも４００、少なくとも５００以上の塩基のヌクレオチド配列である、前記項目のいずれかに記載の方法。

９．配列のサブセットが、少なくとも１％、例えば、少なくとも２％、例えば、少なくとも４％、例えば、少なくとも５％、例えば、少なくとも６％、例えば、少なくとも７．５％、例えば、少なくとも１０％、例えば、少なくとも１５％、例えば、少なくとも２５％、例えば、少なくとも３０％、例えば、少なくとも３５％、例えば、少なくとも４０％、例えば、少なくとも５０％の離散した配列を含む、前記項目のいずれかに記載の方法。

１０．配列の１種または複数のさらなるサブセットを選択するステップと、これらを項目１のステップａ）〜ｅ）に付すステップとをさらに含む、前記項目のいずれかに記載の方法。

１１．サブセットが、ランダムであるまたはフィルターをかけられている、前記項目のいずれかに記載の方法。

１２．ｋ−ｍｅｒが、サイズ４、８、１２、１６、２０、２４、２８、３２、３６、４０、４４、４８、５２、５６、６０、６４以上のものである、前記項目のいずれかに記載の方法。

１３．ｋ−ｍｅｒが、連続している、前記項目のいずれかに記載の方法。

１４．ｋ−ｍｅｒが、重複しており、少なくとも１、例えば、少なくとも２、例えば、少なくとも３、例えば、少なくとも４、例えば、少なくとも５、例えば、少なくとも６以上の塩基またはアミノ酸ずつ漸増する、前記項目のいずれかに記載の方法。

１５．ｋ−ｍｅｒが、互いに素な部分配列の連結である、前記項目のいずれかに記載の方法。

１６．所定の配列に由来するｋ−ｍｅｒが、データベースに対して問い合わせされて、１種または複数の参照配列におけるｋ−ｍｅｒの存在および前記１種または複数の参照配列におけるｋ−ｍｅｒの位置を決定する、前記項目のいずれかに記載の方法。

１７．位置が、ｋ−ｍｅｒが存在する場合にのみ問い合わせされる、項目１６に記載の方法。

１８．返された参照のスコアが算出される、前記項目のいずれかに記載の方法。

１９．同定された参照配列のスコアが算出され、スコアが、所定の参照配列に見出される１種または複数の配列に由来するｋ−ｍｅｒの数に相関する、前記項目のいずれかに記載の方法。

２０．同定された参照のスコアが算出され、スコアが、参照配列に見出される１種または複数の配列に由来するｋ−ｍｅｒの局所的濃度の平均による連続性または近似連続性に相関する、前記項目のいずれかに記載の方法。

２１．同定された参照のスコアが算出され、スコアが、供給源に由来するｋ−ｍｅｒのサブセットにも存在する参照配列におけるｋ−ｍｅｒの数に相関する、前記項目のいずれかに記載の方法。

２２．可能性の高い供給源参照が、前記スコアまたは複数のスコアに従ってランク付けされる、項目１８〜２１のいずれかに記載の方法。

２３．１種の供給源配列またはショートリードに由来するあらゆるｋ−ｍｅｒが問い合わせされ、前記供給源配列またはショートリードの１種または複数のスコアが算出される、前記項目のいずれかに記載の方法。

２４．第２の供給源配列またはショートリード、好ましくは、第３の供給源配列またはショートリード等に由来するあらゆるｋ−ｍｅｒを問い合わせるステップをさらに含む、項目２３に記載の方法。

２５．定義済みの統計的確率により参照生物が同定されたら、データベース問い合わせを中止することができる、前記項目のいずれかに記載の方法。

２６．ｋ−ｍｅｒの定義済みの画分が、データベースに見出されない場合、データベース問い合わせを中止することができる、前記項目のいずれかに記載の方法。

２７．データベースが、１種または複数の可能性の高い参照に関する次の情報：可能性の高い参照の分類学的名称、前記可能性の高い参照の近縁、前記参照の供給源、さらなる関係する参照の群のうち１種または複数を出力する、前記項目のいずれかに記載の方法。

２８．データベースが、最も可能性の高い参照の配列を出力し、好ましくは、データベースが、最も可能性の高い参照種の完全ゲノム配列を出力する、前記項目のいずれかに記載の方法。

２９．非常に類似した配列を有する参照からの結果またはさらなる関係する参照からの結果が、出力においてグループ化される、前記項目のいずれかに記載の方法。

３０．第１の反復において、最も豊富な参照を同定し、供給源配列またはショートリードから前記最も豊富な参照に由来する配列を除去するステップ等、方法の数回の反復が行われる、前記項目のいずれかに記載の方法。

３１．第２の反復において、２番目に最も豊富な参照を同定し、前記２番目に最も豊富な参照に由来する配列を除去するステップ等をさらに含む、項目３０に記載の方法。

３２．第２の反復において、挿入の可能性の高い参照を同定するステップをさらに含む、項目３０に記載の方法。

３３．定義済みの参照に由来する配列とアライメントする供給源配列を最初に除去するステップをさらに含む、前記項目のいずれかに記載の方法。

３４．ある１供給源配列またはショートリードに由来する定義済みの数のｋ−ｍｅｒが、データベースに存在しない場合、前記供給源配列またはショートリードに由来するｋ−ｍｅｒを無視するステップを含む、前記項目のいずれかに記載の方法。

３５．問い合わせが、１種または複数の定義済みの参照に由来するｋ−ｍｅｒの無視を含む、前記項目のいずれかに記載の方法。

３６．未加工の配列が核酸シーケンサーから得られると、問い合わせされる、前記項目のいずれかに記載の方法。

３７．参照配列のｋ−ｍｅｒを含む、データベースであって、
ａ．参照配列からのｋ−ｍｅｒの第１のコレクションと、
ｂ．参照配列における各ｋ−ｍｅｒの位置の第２のコレクションと
を含むデータベース。

３８．所定の参照に関連する全長配列、および／または前記参照の供給源、および／または前記参照の１種もしくは複数の分類学的記述子に関する情報をさらに含む、項目３７に記載のデータベース。

３９．データベースにおけるｋ−ｍｅｒが、各特有のｋ−ｍｅｒに特有のキーを割り当てるハッシュ関数に付される、項目３７〜３８のいずれかに記載のデータベース。

４０．第１のコレクションにおける各特有のｋ−ｍｅｒが、ｋ−ｍｅｒが存在するこれらの参照に関する情報へのベクトルによって関連付けされる、項目３７〜３９のいずれかに記載のデータベース。

４１．第２のコレクションにおける各特有のｋ−ｍｅｒが、存在する場合、各参照におけるその位置に関する情報へのベクトルによって関連付けされる、項目３７〜４０のいずれかに記載のデータベース。

４２．ｋ−ｍｅｒが、長さ４、８、１２、１６、２０、２４、２８、３２、３６、４０、４４、４８、５２、５６、６０、６４以上のものである、項目３７〜４１のいずれかに記載のデータベース。

４３．ｋ−ｍｅｒが、非重複である、項目３７〜４２のいずれかに記載のデータベース。

４４．ｋ−ｍｅｒが重複し、少なくとも１、例えば、少なくとも２、例えば、少なくとも３、例えば、少なくとも４、例えば、少なくとも５、例えば、少なくとも６以上の塩基またはアミノ酸ずつ漸増する、項目３７〜４３のいずれかに記載のデータベース。

４５．各参照の完全配列に由来するｋ−ｍｅｒを含む、項目３７〜４４のいずれかに記載のデータベース。

４６．ヒト、動物、哺乳動物、鳥類、魚類、真菌、昆虫、植物、細菌、古細菌、ウイルスおよび／またはプラスミドに由来する配列情報を含む、項目３７〜４６のいずれかに記載のデータベース。

４７．数個の異なるサーバーに保存されるサブデータベースに分けられる、項目３７〜４６のいずれかに記載のデータベース。

４８．門、綱、目、科、属および種から選択される１種もしくは複数の分類学的記述子、または供給源、分布、起源および過去の問い合わせ頻度等の１種もしくは複数の環境的記述子に従ってサブデータベースへと組織化される、項目３７〜４７のいずれかに記載のデータベース。

４９．入力デバイスと、中央処理ユニットと、メモリと、出力デバイスとを含む、供給源配列の可能性の高い供給源を同定するためのデータ処理システムであって、前記データ処理システムが、実行されると項目１〜３６に記載の方法を実施させる命令シーケンスを表すデータを内部に保存し、メモリが、項目３７〜４９のいずれかに記載のデータベースをさらに含むデータ処理システム。

５０．データベースが、サーバーに保存され、入力および出力デバイスが、クライアントであり、クライアントおよびサーバーが、データ通信接続を介して接続されている、項目４９に記載のシステム。

５１．クライアントが、パーソナルコンピュータ、固定型ＰＣ、ポータブルＰＣ、スマートフォン等の携帯型計算デバイスから選択される、項目４９〜５０のいずれかに記載のシステム。

５２．クライアントは、クライアントが、供給源配列のサブセットをサンプリングし、これらをｋ−ｍｅｒに断片化し、これらをサーバーに伝達することを可能にする命令シーケンスを含む、項目４９〜５１のいずれかに記載のシステム。

５３．クライアントが、クライアントが、サーバーからクライアントへと伝達された配列に基づき、１種または複数のより大型の配列への供給源配列のアセンブリを実行することを可能にする命令シーケンスをさらに含む、項目４９〜５２に記載のシステム。

５４．データ接続を介して配列決定装置に接続されている、項目４９〜５３のいずれかに記載のシステム。

５５．実行されると項目１〜３６に記載の方法を実施させる命令シーケンスを含有するコンピュータソフトウェア製品。

５６．実行されると項目１〜３６に記載の方法を実施させる命令シーケンスを含有する集積回路製品。

ｋ−ｍｅｒによる配列の迅速な同定
そこで、本出願人らは、ＤＮＡまたはＲＮＡの可能性の高い起源を迅速に指し示すことができ、ＤＮＡシーケンサーから得られた未加工のリードにおいて直接作業することができる新規方法、Ｔａｐｉｒを提示する。本出願人らのシステムは、公知ＤＮＡを参照するサーバーと、認定しようとするＤＮＡデータを有するクライアントに存する。使用を実証するために、本出願人らは、数千種の細菌ゲノム、ファージゲノム、ファージおよびプラスミドと共に、ヒトゲノム、マウスゲノム、Ａ．ｔｈａｌｉａｎａおよび真菌、古細菌に由来する様々な配列を参照した。本出願人らは、ウェブブラウザにおいてランできるクライアントも実行し、これはポータブル計算デバイスからギガ塩基のデータを処理することができる。本方法は、ｋ−ｍｅｒのインデックス付けと、サーバーへの限られた量のデータの移行に頼る。これは、Ａｎｄｒｏｉｄスマートフォンから数秒以内でそのタスクを行うことができ、サーバーと通信する中程度の量の帯域幅を消費し、本出願人らの知る限りにおいて、いずれかの現存するツールとは異なり使用に単純さをもたらす。これは、配列決定ランにおけるルーチンの即時品質検査のために本出願人らのコア設備において使用されており、http://tapir.cbs.dtu.dkにおいて利用することができる。

序文
ＤＮＡの配列決定は、これを重ねて主張することそれ自体が、絶対的に陳腐なコメントとなるほどに、過去１０年間にわたってますます手頃なものとなった［１３］。今日のハイエンドシーケンサーは、数種類のヒトゲノムまたは数百種類の細菌の均等物を処理する容量を有し、また、次世代のシーケンサーが、既に利用できるようになり始めており、これは必要とされる初期投資がさらに少なく、配列決定容積に及ぶ柔軟性をもたらす。完全細菌分離株の配列決定は、一日がかりの仕事であるが、直ぐに数時間の仕事となるであろう。ナノポア配列決定［１２］に関する近年の発表は、ＤＮＡを直接的に配列決定することができる、配列決定デバイスが使い捨て型となるため前例のない低レベルの資本投資の、ＵＳＢから電源供給されるデバイスを提示した。この将来的な製品の背後に存在する会社であるＯｘｆｏｒｄＮａｎｏｐｏｒｅは、２０１２年にリリースを発表した［８］。ＤＮＡの抽出は、相対的に単純な手順であり、ＤＮＡ配列決定が、直ぐに分子生物学におけるルーチンで安価な手順となるであろうことが予見できる。患者は、ルーチンに配列決定され、感染病原体の大流行は、それらのＤＮＡによって追跡され、水および食物の品質も、ＤＮＡ配列決定によりモニターされるであろう。

分析論の側面において、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズム［１４］等、先駆的ツールによる配列の局所的アライメントは、バイオインフォマティクスの礎石であった。問い合わせおよび参照のコレクションの間に適用されると、これは、アライメントのランク付けを可能にし、研究者に、既に現存する配列とのその類似性から、新たに配列決定されたＤＮＡまたはＲＮＡの起源および機能を推論させる。この方法論は、時に不正確であることが批判にさらされたが［２、１１］、その人気は、依然として疑いの余地がなく、公開データベースにおける多数の機能的アノテーションは、「配列相同性による」との言及を有する。しかし、データベースに保存記録されている現存する参照と新たに得られたＤＮＡとのアライメントは、依然として、相対的に要求が多い計算的タスクである。ＢＬＡＳＴ［１］および後のＢＬＡＴ［５］は、スピードを改善したが、未だに、現在利用できる配列の数により、公知配列のプールに対する新たな配列の検索は、ウェブ検索エンジンがほとんど即時に結果を返す時代において、相対的に長い時間を要し得る。２つだけ名前を挙げるとすれば、Ｂｏｗｔｉｅ［６］およびＢＷＡ［７］等、ショートリード配列決定のために設計された新たなツールが以来開発されたが、これらのツールは、所定の参照に対してあらゆる配列決定リードをアライメントするために設計されている。スピードを達成するために、かかるツールは、メモリへと参照のインデックスをロードし、これにより、取り扱うことができる参照ＤＮＡの量を限定する。

本出願人らは、問い合わせ配列および参照のコレクションの間に絶対的な最良のアライメントを見出すことを計算的に要求するタスクと、問い合わせ配列のセットからの大部分がマッチする参照を迅速に同定することとの間にギャップを観察した。本出願人らが知る限り、ＤＮＡシーケンサーから出てきたリード等、短いＤＮＡまたはＲＮＡ配列のセットを採取し、セットが代表する完全ゲノムまたは個々の遺伝子のいずれかの参照のリストを返すような、単純なツールは存在しない。これを行うために、本出願人らは、数秒以内にＤＮＡ配列の供給源を幾分正確に同定するために、ＢＬＡＴおよびＳＳＡＨＡ［９、１０］の両方におけるアライメントシードならびにＭＵＳＣＬＥ［３］におけるｋ−ｍｅｒ計数とは別個の仕方でｋ−ｍｅｒを使用することを提案する。

材料と方法
ＥＢＩおよびＮＣＢＩから利用できる公表されているゲノム、コンティグ、プラスミドおよび個々の遺伝子をダウンロードして、本出願人らの参照ＤＮＡとした。各参照配列を重複ｋ−ｍｅｒに分割し、あらゆる参照にわたるあらゆるｋ−ｍｅｒに対し、キー値保存またはＮｏＳＱＬデータベース（本出願人らは、ＫｙｏｔｏＣａｂｉｎｅｔ［４］を使用した）を作成し、各ｋ−ｍｅｒ（データベースにおけるキー）に、該ｋ−ｍｅｒを有する参照に相当する識別子のリストを関連付けた（図１）。本出願人らは、これを存在データベースと呼んだ。同様に、ｋ−ｍｅｒが見出される参照における位置を、本出願人らが位置データベースと呼ぶ場所に保存した（図１）。記述ラインおよびデータの供給源等、参照識別子および情報の間の関連を、別々のＳＱＬデータベースに保存した。

短い問い合わせ配列またはリードのセットをスコアリングするために、本出願人らは、それらのランダム試料を通して反復する（図２）。配列毎に、本出願人らは、配列にわたり幅ｋのウィンドウをスライドさせることにより得られる、連続したｋ−ｍｅｒにわたって反復する。ｋ−ｍｅｒ毎に、これが前に計数されておらず、存在データベースに見出される場合、本出願人らは、参照の位置を問い合わせる。リードのあらゆるｋ−ｍｅｒが処理されたら、本出願人らは、参照においてマッチした近接位置の数を調べ、あらゆるマッチする参照にわたり同じリードに起源をもつマッチするｋ−ｍｅｒの最大の濃度である、マッチの最大のクラスターのみを考慮する。かかるクラスター毎に、本出願人らは、恐らく以前に該参照に加えられた数に、ｋ−ｍｅｒの数を加え、既に計数されたｋ−ｍｅｒのリストをアップデートする。続いて、次の配列またはリードを処理する。本出願人らは、マッチすることが判明したｋ−ｍｅｒの計数が関連付けされた参照のリストを得る。ペア＜参照、計数＞毎に、計数を、問い合わせセットにおける特有のｋ−ｍｅｒの数で割り、所定の参照によりマッチした問い合わせにおけるＤＮＡの量の大雑把なスコアを得る。問い合わせセットが、配列に完全にマッチする場合、該スコアは、１となり、そうでなければ、これはより小さくなるであろう；例えば、問い合わせセットが、２種の参照の等しい割合の混合物である場合、両方の参照のスコアは、０．５前後となるであろう。該計数をまた、参照のサイズ（参照配列における特有のｋ−ｍｅｒの数）で割り、問い合わせによって表される参照の画分の大雑把なスコアを得る；この第２のスコアは、マッチする参照の選別および最大の参照へのバイアスの回避に役立つ。最終スコアは、これら２種のスコアの加重和であり、デフォルトは、等しい加重である。問い合わせセットが大型である場合、例えば、本出願人らが、ＤＮＡ配列決定ランから得られるあらゆるリードを考慮する場合、該セットのランダム試料のみを使用する。

サービスの使用を容易にするために、ウェブブラウザにおけるページとしてランするＨＴＭＬ５／Ｊａｖａｓｃｒｉｐｔ（登録商標）クライアントを実行した。書き出しの時点において、Ｆｉｒｅｆｏｘ１５．０は、あらゆる必要とされる特色を実行する唯一のブラウザであり、本出願人らは、Ｌｉｎｕｘ（登録商標）、ＭａｃＯＳＸ、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）およびＡｎｄｒｏｉｄ４．０において作業するために検査した。

配列決定データにおける細菌を同定するために本来設計された本出願人らのシステムをベンチマーク評価するために、本出願人らは、７４７種の細菌ゲノムである、２０１２年の初めにＥＢＩから利用できる細菌に由来するあらゆる配列を反復的に採取した。ＤＮＡシーケンサーからのリードをシミュレートするために、ゲノム毎に、本出願人らは、ゲノム配列からランダムな恐らく重複する部分配列を作成した；長さ５０、１００、１５０、２００および２５０塩基の部分配列を使用した。本出願人らは、現実の試料における配列決定エラーのクラスおよび規則的な（punctual）突然変異の存在の両方をシミュレートするために、０％（エラーなし）、１％、５％および１０％の率による塩基の均一なランダム置換も導入した。ゲノム、長さおよび置換率毎に、１００種の部分配列またはリードのランダム試料を採取し、このサンプリングを１０回繰り返した。

結果
細菌ゲノム毎に、本出願人らは、１００種のランダムなシミュレートされたリードを採取し、本出願人らの方法を使用して、他の参照の中から、これらの細菌ゲノムを含むデータベースに対してこれらをスコアリングし、２５種の最良のスコアのリストにおける問い合わせゲノムのランクを記録する。平均ランクおよびランクの標準偏差を図４に示す。

平均ランクが１に近いほど、スコアリングはより優れ、ランクの標準偏差が小さいほど、サンプリング効果に対する合理性は低くなる。各個々のパネルに書き出される見逃しランクの数は、２５種の最高のスコアに存在しなかったゲノムの数に相当する。

５０塩基の長さのリードでは、性能は最適に満たないが、低い置換率の上位５種における、およびより高い置換率の上位１５種におけるときの９７％から９９％の間の問い合わせゲノムにより、既に、１００塩基のリードによる劇的な改善が存在する。最大２５０塩基までのリードの長さの増加は、平均ランクにおけるより高い置換率のマイナス効果の補償を助けた。

本出願人らが使用した長さおよび置換率の範囲は、Ｉｌｌｕｍｉｎａ（約０．１〜１％の誤り率による１００塩基）、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓのＳＯＬｉＤ５５００（０．０１％の誤り率による７５ｎｔリード）、ＩｏｎＴｏｒｒｅｎｔＰＧＭ（１％の誤り率による２００〜３００塩基）、またはＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅ（１５％の誤り率による３，０００塩基）等、次世代配列決定プラットフォームから得られる範囲に匹敵する。本出願人らの方法は、これらの範囲内で優れた性能を示し、本出願人らは、より長いリードの代用を提供するために使用される技法であるペアエンド（paired-end）配列決定の支持を加えることによりさらに性能を向上させることが実施されると考えている。本出願人らの方法は、塩基置換等、配列決定エラーに対し相対的に感度が低いと思われ、本出願人らの検査問い合わせに予想される低ランクは、置換率が増加するにつれて最小に影響された。

ＮｏＳＱＬデータベースの使用のおかげで、本出願人らは、ゲノムデータがますます豊富になるにつれてのスケールアップを予測し、相対的に手頃なコンピュータシステムにおける参照のますます大型化するコレクションのインデックス付けおよび問い合わせが可能となり続ける。

本出願人らの方法の使用を容易にするために、本出願人らは、ブラウザに基づくクライアントを開発した。本出願人らは、未加工のＦＡＳＴＱファイル最大２Ｇｂのサイズにより検査し、これをモニターして、ＲＡＭにおける２００Ｍｂ強のみを使用し、２０秒未満で結果を返した。

結論
ＴＡＰＩＲの根底にある概念は、幾分単純である。ＤＮＡデータベースのサイズの増加が、少なくとも１０年間にわたり発表および観察されてきたが、ＤＮＡ配列決定技術における近年の発達は、データの素早く手頃な作成を現実のものとした。本出願人らは、あらゆる公知のＤＮＡに対する実験的に得られたＤＮＡ配列のマッチングが、バイオインフォマティクスにおける最も重要な課題の１つであることを主張する。本明細書において、本出願人らは、インターネットウェブ検索大手（giants）が一般向けに使用できるようにしたものにマッチするスピードおよび容易さでこれを行うことができることを示す。デスクトップＤＮＡシーケンサーによる、患者における感染、生物テロ防御または食物安全性等のリアルタイムサーベイランス等、タスクを考慮する場合、本出願人らの方法は、検索空間を絞り込み、より高度な解析方法を後に行うことができる、最初期ステップを提供する。

（実施例２）
本実施例において、細菌、ウイルス、ファージ、プラスミドと共に、ヒト、マウス、植物、真菌および古細菌に由来する数万種のゲノムおよびゲノム領域が参照された。本出願人らは、ウェブブラウザにおいてランするクライアントも実行し、サーバーと通信する中程度の量の帯域幅を消費しながら、数秒以内に商品ポータブル計算デバイスから数ギガバイトの未加工の配列決定データを処理および同定するためのクライアントの使用を実証した。よって、本実施例において、未加工のリードに由来するＤＮＡの同定が、検索エンジンの問い合わせと同じほどに容易となり得ることが示される。

参照の包括的コレクションに対する問い合わせＤＮＡ配列のセットのマッチング
アライメントプログラムを調べる主観的な仕方は、これらを２種の主要カテゴリーに分割することである：その一方は、公知参照のコレクションに対する１個の問い合わせ配列のマッピングに全力を尽くすことであり（例えば、ＢＬＡＳＴ）、もう一方は、可能な限り迅速に１個の指定の参照に対する多数の短い配列のマッピングを試みることである（例えば、ｂｏｗｔｉｅまたはＢＷＡ）。本出願人らは、多数の短い配列のために優れた参照を同定することができる中間的アプローチを提案する；本出願人らは、参照配列のコレクションに対し複数の配列をマッチさせ、いずれの参照が、問い合わせセットにおいて最も表されるか採択する。

本実施例において提示されているアプローチは、ｋ−ｍｅｒのインデックス付けにおけるいかなる選択ステップを含まず、この特色は、配列のコレクションから構築する際の複雑性を大幅に単純化する。これは、空間を犠牲にし、情報価値が低い可能性があるｋ−ｍｅｒをインデックス付けするが、次の利益により相殺される：プロセスは、参照のコレクションの合計サイズにおいて直線的であり、自明に並列化され得る。これは、あらゆる公知ＤＮＡのインデックス付けを最終的に妥当なものとする（インターネットにおけるあらゆるドキュメントのウェブ検索エンジンのインデックス付けに類似）。

この実施例において、本出願人らのアルゴリズムは、ｋ−ｍｅｒの単なる計数以上のことを行うが、完全マッピングまたはアライメントのいずれも実行しない。アルゴリズムは、各リードの文脈内におけるｋ−ｍｅｒのマッチングを考慮に入れると共に、マッチするｋ−ｍｅｒ同士を互いに近くにクラスター形成させる。

本実施例において、図５に示す通り、本出願人らは、インデックス付けのために非重複ｋ−ｍｅｒを使用した一方で、問い合わせにおいて重複ｋ−ｍｅｒを使用したが、本出願人らは、これを実施詳細として考慮し、マッチする参照にスコアを与えるために同じ指針を維持しながら、インデックス付けのために重複ｋ−ｍｅｒを、問い合わせにおいて非重複ｋ−ｍｅｒを容易に使用することができる。

ｋ−ｍｅｒを使用してインデックス付けされたサイズｕの参照における長さｐの文字列のｎ発生の位置づけの時間計算量は、ｋインデックス付けおよびルックアップにツリーまたはハッシュが使用される場合、Ｏ（ｐ＋ｎｌｏｇｕ）またはＯ（ｐ＋ｎ）の計算量を有する。

診断目的のためにシーケンサーからの未加工のリード等、ＤＮＡデータの問い合わせセットを同定する際に、本出願人らは、包括的参照データベースに対するあらゆるリードのマッピングに存する総当たりアプローチが、２つの主要な不利益を有すると考慮する：配列決定設備から計算センターへと移行される数百メガバイトまたは数ギガバイトの多さのデータと、タスクの実行に必要な計算資源が著しいこと。参照コレクションが、１０，０００種のＥ．ｃｏｌｉサイズの細菌を含有し、ＢＷＡおよびｂｏｗｔｉｅ２等の最適化されたアライナが、２５０Ｍ塩基の未加工の配列決定データ（ゲノムが４Ｍ塩基のサイズである場合、平均カバー度における約６０×）を処理するのに３０秒間を要すると仮定すると、ＣＰＵにおいて３日半を要するであろうが、複数のＣＰＵにおいて自明に並列化することができる。

時間計算量に加えて、データ移行は、２５０Ｍ塩基のＤＮＡとなり、参照を保持するデータセンターに配列決定データを移動させた。ｋ−ｍｅｒに基づく本出願人らのアプローチは、リードのマッピングまたはＳＮＰ呼び出し、あるいはさらには鋳型に基づくｄｅ−ｎｏｖｏアセンブリ等、詳細な調査を、参照の小型のセットへと低下させる。性能を評価する際に、本出願人らは、正しい答えが、５種の提案したマッチのセット内に存在する場合、最初に単に検索を成功と考慮することを任意で選んだ。いずれが最良にマッチするか正確に同定するための、これらの参照に対するあらゆるリードのマッピングのタスクは、上述の試料当たり３日半の予見にもかかわらず、同じＣＰＵにおいて１２分間で実行することができる、あるいは強力なマルチコアアーキテクチャを取得した場合さらに短時間で実行することができる。あらゆるゲノムの移行は、約２０Ｍ塩基のＤＮＡを表し、これは、３Ｇモバイルインターネット接続により容易に実行することができる。本出願人らのアプローチは、Ｉｏｎｂｕｓ［１５］等のモバイル配列決定設備に、遠隔地において重大な診断または科学的タスクを実行させることができる。プラスミド、ビルレンス遺伝子、ウイルスまたは細菌の混合物等、より小型の領域の存在のために、マッピングされていないリードが存在する場合、これらのリードを同様に処理し、数回の反復により完全な内容を同定することができる。

ベンチマークの構築
配列決定データにおける細菌を同定するために本来設計された本出願人らのシステムをベンチマーク評価するために、本出願人らは、およそ２０１２年の初めにＥＢＩデータベースから利用できる細菌に由来するあらゆる配列を反復的に採取したが、これはすなわち、７４７種の細菌ゲノムであり、これらに加えて参照の完全データベースは、次のものを含有した：ＮＣＢＩに由来する細菌参照、ファージおよびウイルス、プラスミドならびにヒトゲノム（下表１を参照）。表１は、２０１２年の初めにおけるゲノム参照のスナップショット（参照の供給源および数）を示す。参照は、完全ゲノムまたはプラスミド、およびコンティグまたは遺伝子等のゲノム断片の混合物である。

ＤＮＡシーケンサーから得られるリードをシミュレートするために、ゲノム毎に、本出願人らは、ゲノム配列からランダムな恐らく重複する部分配列を作成した；長さ５０、１００、１５０、２００および２５０塩基の部分配列を使用した。本出願人らは、現実の試料における配列決定エラーのクラスおよび規則的な突然変異の存在の両方をシミュレートするために、０％（エラーなし）、１％、５％および１０％の率による塩基の均一なランダム置換も導入した。ゲノム、長さおよび置換率毎に、１００種の部分配列またはリードのランダム試料を採取し、このサンプリングを５回繰り返した。

本出願人らの目的は、いかなる公知ＤＮＡが試料中に存在するかを見出すことができるか、あるいは配列決定エラーまたは突然変異等の不確実性を計数する場合、ゲノムが十分に近いか評価することである。

予測性能
細菌ゲノム毎に、本出願人らは、１００種のランダムなシミュレートされたリードを採取し、本出願人らの方法を使用して、他の細菌、ファージ、植物、真菌、ウイルスおよび哺乳動物に由来する配列およびゲノムのより大型のコレクションの中から、該細菌ゲノムを含むデータベースに対してこれらをスコアリングし、２５種の最良のマッチする参照のリストにおける問い合わせゲノムのランクを記録した。検査細菌ゲノム毎の結果の可変性を評価するために、これをゲノム毎に５回繰り返し、平均ランクおよびランクの標準偏差を図９に提示する。

性能は、５０ヌクレオチドの長さのリードでは相対的に低かったが、本出願人らは、リードの長さを増加させた場合に劇的な改善を観察し、配列決定された塩基における長さ１００のリードは、既に最大の性能に近かった。最良の結果は、正しいゲノムが、低い置換率を有する上位５種における、およびより高い置換率を有する上位１５種における、より低い誤り率のときの９７％を超えて結果のリストに存在することを示している。リードの長さを２５０塩基まで増加させることは、増加する誤り率のマイナス効果の補償を助けた。同定のために送られたランダム試料におけるリードの数の増加は、多くの効果を持たなかった。図７を参照：１００種のリードは、少量のデータであるが、多数の事例におけるＤＮＡの同定に十分であると思われる。

先に詳述されている通り、本出願人らの方法は、提案されたマッチのセット内の正しい参照を返すことを目標とし、これを為すことにより、総当たりアプローチが計算的に要求する手順による探索を必要とする検索空間を単純化する。全２５種の解析のランは、徹底検索と比較しても依然として有意であるため、上位５種の結果内の問い合わせ配列を見出すよう自身に制限を課すことは、ほぼ確実に必要以上に厳密であるが、本方法が既に、答え候補の非常に小型のセット内で正しい答えを返すことができることを指摘する。

反復性検索および同定の文脈において、正しく正確な系統またはゲノム参照ではないとしても、正しい細菌種の指摘は、既に相対的に成功した答えであると考慮することができる。図６は、本出願人らの同定手順が、５０ヌクレオチドを上回るリードにより非常に優れた性能を示すことを示す。

本出願人らが使用した長さおよび置換率の範囲は、Ｉｌｌｕｍｉｎａ（約０．１〜１％の誤り率による最大で１５０塩基）、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓのＳＯＬｉＤ５５００（０．０１％の誤り率による最大で７５ｎｔのリード）、ＩｏｎＴｏｒｒｅｎｔＰＧＭ（１％の誤り率による最大で２００〜３００塩基）またはＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅ（１５％の誤り率による３，０００塩基）等、次世代配列決定プラットフォームから得られる範囲に匹敵する。本出願人らの方法は、これらの範囲内で優れた性能を示し、本出願人らは、ペアエンド配列決定（より長いリードの代用を提供するために使用される技法）の支持を加えることによりさらに増加する性能を予測する。本出願人らの方法は、塩基置換等、配列決定エラーに対し相対的に感度が低いと思われ、本出願人らの検査問い合わせに予想される低ランクは、置換率が増加するにつれて最小に影響された。

本出願人らは、ウイルスおよび細菌分離株からメタゲノミクス混合物に及ぶ試料に由来するＩｏｎＴｏｒｒｅｎｔＰＧＭからの配列決定データにおいてもアプローチを試みた。同じ種の複数の系統等、インデックス付けされた参照のコレクションにおける非常に類似したゲノムは、正しい参照ゲノムよりも低いランクにより密接に関係するゲノムを有する確率を増加させることにより、性能の劣化に寄与し得る。これは、正確な参照ではなく種を考慮する場合の性能の増加によって確認され、第２の反復において曖昧さをなくすことができる中等度の不自由である。最後に、本出願人らは、単離された実体ではなくリードの文脈内のｋ−ｍｅｒを考慮したため、多様な哺乳動物に由来する試料からの配列決定により非常に有望な結果を得た。そして近い将来、これらを確実に同定することを予測する。

計算性能
サーバー：
サーバーにおけるメモリ使用は、ディスクに基づくキー値保存を使用することにより最小に維持することができ、チューニング性能は、これらを、それをランするコンピュータにおいて利用できるメモリにキャッシュすることにより達成することができる。ＮｏＳＱＬデータベースの使用のおかげで、本出願人らは、ゲノムデータがますます豊富になるにつれての優れたスケールアップも予測し、相対的に手頃なコンピュータシステムにおける参照のますます大型化するコレクションのインデックス付けおよび問い合わせが可能となり続ける。

本実行では、インデックス付けシステムおよびサーバーの両方は、Ｐｙｔｈｏｎにおいて実行され、４４Ｇ塩基の参照ＤＮＡのインデックス付けは、８コア（ＩｎｔｅｌＸｅｏｎ、２．９３ＧＨｚ）を使用して数時間で行われ、１着信試料の処理は、数秒間を要する。有意な加速は、Ｃに移動されたボトルネック等、最適化努力により達成することができるが、必要が明らかになった場合、さらなるコアを捧げることによりさらなる要求の取り扱いにおける網羅的性能を増加させることも可能である。

クライアント：
本出願人らの方法の使用を容易にするために、本出願人らは、http://tapir.cbs.dtu.dkにおいてアクセスすることができるＪａｖａｓｃｒｉｐｔ（登録商標）およびＨＴＭＬ５特色を使用して、ブラウザに基づくクライアントを開発した。クライアントは、現在、最新のＦｉｒｅｆｏｘリリース（バージョン１５以上）において稼働している。

２．５３ＧＨｚにおいて達成されるＩｎｔｅｌＣｏｒｅｉ５ＣＰＵによる相対的に中程度のラップトップにおいてランするＦｉｒｅｆｏｘにより、最大２ＧｂのサイズのＦＡＳＴＱファイルにおける未加工のリードは、３０秒未満で処理することができ、ファイルが小さいほど最速となり、ＲＡＭにおける３００Ｍｂ弱を使用して、サーバーとの通信に数秒間を要した。

本出願人らは、コンソールに基づくコマンドラインツールをさらに実行して、本出願人らのアルゴリズムおよびその後のアライメントを行った。実行は、一般的なソフトウェアリポジトリにおいて利用できる：https://bitbucket.org/lgautier/dnasnout-client。実行は、フェッチ参照ゲノムに本出願人らのアルゴリズムを使用し、ｂｏｗｔｉｅ２によりこれらのインデックス付けおよびあらゆるリードのマッピングを行う。１０種の上位リードを考慮する場合、完全反復は１分未満を要し、事例の９８％において１回の反復で十分である。ブラウザの迅速な開発により、本出願人らは、ウェブブラウザのみを使用してデスクトップ配列決定ランにより疫学研究室が行うものと類似のワークフローを実行することが間もなく可能になると予測する。

考察
本出願人らは、あらゆる公知ＤＮＡに対する実験的に得られたＤＮＡ配列のマッチングが、バイオインフォマティクスにおける最も重要な課題の１つであることを主張する。本明細書において、本出願人らは、インターネットウェブ検索大手が一般向けに使用できるようにしたものにマッチするスピードおよび容易さでこれを行うことができることを示してきた。患者における感染、生物テロ防御または食物安全性等、リアルタイムサーベイランス等のタスクを考慮する場合、ＩｏｎＴｏｒｒｅｎｔＰＧＭまたはＩｌｌｕｍｉｎａＭｉＳｅｑ等、今日のデスクトップＤＮＡシーケンサーは、既にタスクに耐えることができ、本出願人らの方法は、ＤＮＡ配列決定を行う研究室と計算設備との間で大量の未加工のデータを移行させる必要がなく、検索空間を絞り込み、より高度な解析方法を後に局所的に行うことができる最初期ステップを提供する。

方法
ゲノム参照の供給源：
ＥＢＩおよびＮＣＢＩから利用できる、公表されているゲノム、コンティグ、プラスミドおよび個々の遺伝子をダウンロードして、本出願人らの参照ＤＮＡとした。参照の正確な組成は、時間と共に拡大しつつあるが、本出願人らは本実施例に使用したスナップショットを表１にリストアップした。

参照のインデックス付け：
各参照配列を非重複ｋ−ｍｅｒに分割し、あらゆる参照に及ぶあらゆるｋ−ｍｅｒに対し、キー値保存またはＮｏＳＱＬデータベース（本出願人らはＫｙｏｔｏＣａｂｉｎｅｔ［４］を使用）を作成し、各ｋ−ｍｅｒ（データベースにおけるキー）に、該ｋ−ｍｅｒを有する参照に相当する識別子のリストを関連付けた。本出願人らは、これを存在データベースと呼んだ。同様に、本出願人らが位置データベースと呼ぶものに、ｋ−ｍｅｒが見出される参照における位置を保存した。これが満足のいく結果を生じたため、また、４の倍数がビットパッキングに良く適していたため、ｋは、１６に等しくなるよう選んだ。記述ラインおよびデータの供給源等、参照識別子および情報間の関連は、別々のＳＱＬデータベースに保存した。

スコアリング：
短い問い合わせ配列またはリードのセットをスコアリングするために、本出願人らは、これらのランダム試料を通して反復した。試料サイズが大きいほど、これはより確かに正確になるであろう。配列毎に、本出願人らは、配列にわたり幅ｋのウィンドウをスライドさせることにより得られる、連続したｋ−ｍｅｒにわたり反復した。ｋ−ｍｅｒ毎に、これが以前に計数されておらず、存在データベースに見出される場合、本出願人らは、参照の位置を問い合わせた。リードのあらゆるｋ−ｍｅｒが処理されたら、本出願人らは、参照においてマッチした近接位置の数を調べ、あらゆるマッチする参照にわたる同じリードに起源をもつマッチするｋ−ｍｅｒの最大の濃度である、マッチの最大のクラスターのみを考慮した。かかるクラスター毎に、本出願人らは、該参照に対し恐らく以前に加えられた数にｋ−ｍｅｒの数を加え、既に計数されたｋ−ｍｅｒのリストをアップデートした。続いて、次の配列またはリードを処理した。あらゆるリードが処理されたら、マッチすることが判明したｋ−ｍｅｒの計数が関連付けされた参照のリストが得られる。ペア＜参照、計数＞毎に、計数を、問い合わせセットにおける特有のｋ−ｍｅｒの数で割り、所定の参照によりマッチした問い合わせにおけるＤＮＡの量の大雑把なスコアを得た。図解されているスコアリング原理により、問い合わせセットが、配列と完全にマッチしている場合、該スコアは、１となり、そうでなければ、これはより小さくなるであろう；例えば、問い合わせセットが、２種の参照の等しい割合の混合物である場合、両方の参照のスコアは、０．５前後となるであろう。該計数をまた、参照のサイズで割り、問い合わせによって表される参照の画分の大雑把なスコアを得る；この第２のスコアは、マッチする参照の選別および最大の参照へのバイアスの回避に役立つ。等しい加重を使用して、これら２スコアの加重和として最終スコアを算出した。問い合わせセットが大型である場合、例えば、本出願人らが、ＤＮＡ配列決定ランから得られるあらゆるリードを考慮する場合、該セットのランダム試料のみを使用する。

クライアントの実行：
サービスの使用を容易にするために、本出願人らは、ウェブブラウザにおいてページとしてランするＨＴＭＬ５／Ｊａｖａｓｃｒｉｐｔ（登録商標）クライアントを実行した。本研究のために、Ｆｉｒｅｆｏｘバージョン１５を使用し、本出願人らは、Ｌｉｎｕｘ（登録商標）、ＭａｃＯＳＸ、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）（様々なラップトップおよびデスクトップ）と共にＡｎｄｒｏｉｄ４．０（タブレットＡＳＵＳＴＦ１０１−本出願人らは、ハイエンドスマートフォンからも作業できると予測する）において作業するためにこれを検査した。しかし、当業者であれば、他の適したブラウザも同様に有用となり得ることを認められよう。クライアントは、容易な評価ならびに現存するワークフローおよびパイプラインにおける統合のためのＰｙｔｈｏｎライブラリおよびコマンドラインツールとしても実行される。

他の技術仕様：
ＫｙｏｔｏＣａｂｉｎｅｔ等、ライブラリへの結合の例外において、サーバーサイドにおいてＰｙｔｈｏｎバージョン２．７．３を使用して、あらゆる実行を行った。ウェブ適用は、マイクロフレームワーク（micro-framework）Ｆｌａｓｋを使用しており、ｌｉｇｈｔｔｐによって提供されている。クライアントサイドライブラリおよびコマンドラインツールをＰｙｔｈｏｎバージョン３．３のために開発した。

当業者であれば、アルゴリズムまたはアルゴリズムの部分の実行が、例えば、Ｃプログラミング言語等、他の適した一般に公知のプログラミング言語において行うことができ、これが、問い合わせに使用される時間を減少させることにより本方法の性能を改善し得ることを認められよう。

参考文献

Claims

ショートリード等、生物配列の可能性の高い供給源を同定する方法であって、
ａ）供給源から配列またはショートリードのサブセットをサンプリングするステップと、
ｂ）該サブセットからの配列をｋ−ｍｅｒに断片化するステップと、
ｃ）該サブセットからの１種または複数のｋ−ｍｅｒを、参照配列のｋ−ｍｅｒを含む第１のコレクションに対して問い合わせるステップと、
ｄ）該サブセットからの１種または複数のｋ−ｍｅｒを、参照配列におけるｋ−ｍｅｒの位置を含む第２のコレクションに対して問い合わせるステップと、
ｅ）いずれの参照が該１種または複数のｋ−ｍｅｒを含有するか決定するステップと、
ｆ）可能性の高い供給源参照の記述を返すステップと
を含み、参照配列のｋ−ｍｅｒを含む該第１のコレクションが、参照配列におけるｋ−ｍｅｒの位置を含む該第２のコレクションとは別々である方法。
スコアリングマトリクスを使用するアライメントアルゴリズム等、配列データにおけるアライメントアルゴリズムの使用を含まない、請求項１に記載の方法。
前記問い合わせステップが、前記参照配列におけるｋ−ｍｅｒの位置を決定するステップをさらに含む、前記請求項のいずれかに記載の方法。
存在および位置が使用されて、参照配列における問い合わせｋ−ｍｅｒの連続性を決定する、前記請求項のいずれかに記載の方法。
前記生物配列が、アミノ酸配列である、前記請求項のいずれかに記載の方法。
前記生物配列が、ＤＮＡまたはＲＮＡ配列である、請求項１から４に記載の方法。
ｋ−ｍｅｒ問い合わせが、問い合わせおよび参照ｋ−ｍｅｒの間の正確なマッチの決定を含む、前記請求項のいずれかに記載の方法。
問い合わせが、少なくとも１種の供給源配列またはショートリード、好ましくは、少なくとも５０、例えば、少なくとも１００、例えば、少なくとも１５０、例えば、少なくとも２００、例えば、少なくとも２５０、例えば、少なくとも３００、例えば、少なくとも４００、例えば、少なくとも５００、例えば、少なくとも７５０、例えば、少なくとも１０００、例えば、少なくとも１５００、例えば、少なくとも２０００、例えば、少なくとも２５００、例えば、少なくとも５０００種以上の配列に由来するあらゆるｋ−ｍｅｒの問い合わせを含む、前記請求項のいずれかに記載の方法。
前記供給源配列が、少なくとも５０塩基、好ましくは、少なくとも１００塩基、例えば、少なくとも１５０塩基、例えば、少なくとも２００塩基、例えば、少なくとも２５０塩基、例えば、少なくとも３００塩基、例えば、少なくとも４００、少なくとも５００以上の塩基のヌクレオチド配列である、前記請求項のいずれかに記載の方法。
配列の前記サブセットが、少なくとも１％、例えば、少なくとも２％、例えば、少なくとも４％、例えば、少なくとも５％、例えば、少なくとも６％、例えば、少なくとも７．５％、例えば、少なくとも１０％、例えば、少なくとも１５％、例えば、少なくとも２５％、例えば、少なくとも３０％、例えば、少なくとも３５％、例えば、少なくとも４０％、例えば、少なくとも５０％の離散した配列を含む、前記請求項のいずれかに記載の方法。
配列の１種または複数のさらなるサブセットを選択するステップと、これらを請求項１に記載のステップａ）〜ｆ）に付すステップとをさらに含む、前記請求項のいずれかに記載の方法。
前記サブセットが、ランダムであるまたはフィルターをかけられている、前記請求項のいずれかに記載の方法。
前記ｋ−ｍｅｒが、サイズ４、８、１２、１６、２０、２４、２８、３２、３６、４０、４４、４８、５２、５６、６０、６４以上のものである、前記請求項のいずれかに記載の方法。
前記ｋ−ｍｅｒが、連続している、前記請求項のいずれかに記載の方法。
前記ｋ−ｍｅｒが、重複しており、少なくとも１、例えば、少なくとも２、例えば、少なくとも３、例えば、少なくとも４、例えば、少なくとも５、例えば、少なくとも６以上の塩基またはアミノ酸ずつ漸増する、前記請求項のいずれかに記載の方法。
ｋ−ｍｅｒが、互いに素な部分配列の連結である、前記請求項のいずれかに記載の方法。
所定の配列に由来するｋ−ｍｅｒが、データベースに対して問い合わせされて、１種または複数の参照配列におけるｋ−ｍｅｒの存在および該１種または複数の参照配列におけるｋ−ｍｅｒの位置を決定する、前記請求項のいずれかに記載の方法。
位置が、前記ｋ−ｍｅｒが存在する場合にのみ問い合わせされる、請求項１７に記載の方法。
返された参照のスコアが算出される、前記請求項のいずれかに記載の方法。
同定された参照配列のスコアが算出され、該スコアが、所定の参照配列に見出される１種または複数の配列に由来するｋ−ｍｅｒの数に相関する、前記請求項のいずれかに記載の方法。
同定された参照のスコアが算出され、該スコアが、参照配列に見出される１種または複数の配列に由来するｋ−ｍｅｒの局所的濃度の平均による連続性または近似連続性に相関する、前記請求項のいずれかに記載の方法。
同定された参照のスコアが算出され、前記スコアが、前記供給源に由来するｋ−ｍｅｒの前記サブセットにも存在する参照配列におけるｋ−ｍｅｒの数に相関する、前記請求項のいずれかに記載の方法。
可能性の高い供給源参照が、前記スコアまたは複数のスコアに従ってランク付けされる、請求項１９から２２のいずれかに記載の方法。
１種の供給源配列またはショートリードに由来するあらゆるｋ−ｍｅｒが問い合わせされ、該供給源配列またはショートリードの１種または複数のスコアが算出される、前記請求項のいずれかに記載の方法。
参照配列に対してマッチするｋ−ｍｅｒの計数が得られる、前記請求項のいずれかに記載の方法。
参照配列に対してマッチするｋ−ｍｅｒの計数を、問い合わせたサブセットにおける特有のｋ−ｍｅｒの数で割ることにより、スコアが得られる、前記請求項のいずれかに記載の方法。
参照配列に対してマッチするｋ−ｍｅｒの計数を、該参照配列のサイズで割ることにより、スコアが得られる、請求項２４から２６に記載の方法。
参照配列のスコアが、請求項２６および２７に記載のスコアの加重和として算出される、請求項２４から２７に記載の方法。
第２の供給源配列、好ましくは、第３の供給源配列に由来するあらゆるｋ−ｍｅｒを問い合わせるステップをさらに含む、前記請求項のいずれかに記載の方法。
定義済みの統計的確率により参照生物が同定されたら、前記データベース問い合わせを中止することができる、前記請求項のいずれかに記載の方法。
ｋ−ｍｅｒの定義済みの画分が、前記データベースに見出されない場合、前記データベース問い合わせを中止することができる、前記請求項のいずれかに記載の方法。
前記データベースが、１種または複数の可能性の高い参照に関する次の情報：配列、コード配列、調節配列のいずれかのアノテーション、該可能性の高い参照の分類学的名称、該可能性の高い参照の近縁、前記参照の供給源、さらなる関係する参照の群、参照が得られた場所（土壌、海、腸または下水管等）、前記参照配列が得られた時期、分類学的分類、近縁種、参照配列がダウンロードされたデータベースに関する情報（ＮＣＢＩまたはＥＢＩ／Ｓａｎｇｅｒデータベース等）のうち１種または複数を出力する、前記請求項のいずれかに記載の方法。
前記データベースが、最も可能性の高い参照の配列を出力し、好ましくは、前記データベースが、最も可能性の高い参照種の完全ゲノム配列を出力する、前記請求項のいずれかに記載の方法。
非常に類似した配列を有する参照からの結果またはさらなる関係する参照からの結果が、前記出力においてグループ化される、前記請求項のいずれかに記載の方法。
前記方法の数回の反復が行われる、前記請求項のいずれかに記載の方法だって、例えば、第１の反復において、最も豊富な参照を同定し、供給源配列またはショートリードから前記最も豊富な参照に由来する配列を除去する、方法。
第２の反復において、２番目に豊富な参照を同定し、該２番目豊富な参照に由来する配列を除去するステップ等をさらに含む、請求項３５に記載の方法。
第２の反復において、挿入の可能性の高い参照を同定するステップをさらに含む、請求項３６に記載の方法。
定義済みの参照に由来する配列とアライメントする供給源配列を最初に除去するステップをさらに含む、前記請求項のいずれかに記載の方法。
１種の供給源配列に由来する定義済みの数のｋ−ｍｅｒが、前記データベースに存在しない場合、前記供給源配列に由来するｋ−ｍｅｒを無視するステップを含む、前記請求項のいずれかに記載の方法。
問い合わせが、１種または複数の定義済みの参照に由来するｋ−ｍｅｒの無視を含む、前記請求項のいずれかに記載の方法。
核酸シーケンサーから得られるような未加工の配列が、問い合わせされる、前記請求項のいずれかに記載の方法。
適応サンプリングが使用される、前記請求項のいずれかに記載の方法。
参照配列のｋ−ｍｅｒを含む、請求項１から４２によって定義される方法における使用のためのデータベースであって、
ａ）参照配列からのｋ−ｍｅｒの第１のコレクションと、
ｂ）該参照配列における各ｋ−ｍｅｒの位置の第２のコレクションと
を含む、データベース。
所定の参照に関連する全長配列、および／または該参照の供給源、および／または該参照の１種もしくは複数の分類学的記述子に関する情報をさらに含む、請求項４３に記載のデータベース。
前記データベースにおけるｋ−ｍｅｒが、各特有のｋ−ｍｅｒに特有のキーを割り当てるハッシュ関数に付される、請求項４３から４４のいずれかに記載のデータベース。
前記第１のコレクションにおける各特有のｋ−ｍｅｒが、前記ｋ−ｍｅｒが存在するこれらの参照に関する情報へのベクトルによって関連付けされる、請求項４３から４５のいずれかに記載のデータベース。
前記第２のコレクションにおける各特有のｋ−ｍｅｒが、存在する場合、各参照におけるその位置に関する情報へのベクトルによって関連付けされる、請求項４３から４６のいずれかに記載のデータベース。
参照識別子と、記述ライン、データの供給源、配列、コード配列、調節配列のいずれかのアノテーション、可能性の高い参照の分類学的名称、該可能性の高い参照の近縁、前記参照の供給源、さらなる関係する参照の群、参照が得られた場所（土壌、海、腸、下水管等）、前記参照配列が得られた時期、分類学的分類、近縁種、前記参照配列がダウンロードされたデータベースに関する情報（ＮＣＢＩまたはＥＢＩ／Ｓａｎｇｅｒデータベース等）からなる群から選択される情報の種類とを有する、第３のコレクションまたはデータベースをさらに含む、請求項４３から４７のいずれかに記載のデータベース。
前記ｋ−ｍｅｒが、長さ４、８、１２、１６、２０、２４、２８、３２、３６、４０、４４、４８、５２、５６、６０、６４以上のものである、請求項４３から４８のいずれかに記載のデータベース。
前記ｋ−ｍｅｒが、重複していない、請求項４３から４９のいずれかに記載のデータベース。
前記ｋ−ｍｅｒが重複し、少なくとも１、例えば、少なくとも２、例えば、少なくとも３、例えば、少なくとも４、例えば、少なくとも５、例えば、少なくとも６以上の塩基またはアミノ酸ずつ漸増する、請求項４３から５０のいずれかに記載のデータベース。
各参照の完全配列に由来するｋ−ｍｅｒを含む、請求項４３から５１のいずれかに記載のデータベース。
ヒト、動物、哺乳動物、鳥類、魚類、真菌、昆虫、植物、細菌、古細菌、ウイルスおよび／またはプラスミドに由来する配列情報を含む、請求項４３から５２のいずれかに記載のデータベース。
数個の異なるサーバーに保存されるサブデータベースに分けられる、請求項４３から５３のいずれかに記載のデータベース。
門、綱、目、科、属および種から選択される１種もしくは複数の分類学的記述子、または供給源、分布、起源および過去の問い合わせ頻度等の１種もしくは複数の環境的記述子に従ってサブデータベースへと組織化される、請求項４３から５４のいずれかに記載のデータベース。
入力デバイスと、中央処理ユニットと、メモリと、出力デバイスとを含む、供給源配列の可能性の高い供給源を同定するためのデータ処理システムであって、該データ処理システムが、実行されると請求項１から４２に記載の方法を実施させる命令シーケンスを表すデータを内部に保存し、該メモリが、請求項４３から５５のいずれかに記載のデータベースをさらに含む、データ処理システム。
前記データベースが、サーバーに保存され、前記入力デバイスおよび出力デバイスが、クライアントであり、該クライアントおよびサーバーが、データ通信接続を介して接続されている、請求項５６に記載のシステム。
前記クライアントが、パーソナルコンピュータ、固定型ＰＣ、ポータブルＰＣ、スマートフォン等の携帯型計算デバイスから選択される、請求項５６から５７のいずれかに記載のシステム。
前記クライアントは、前記クライアントが、供給源配列のサブセットをサンプリングし、これらをｋ−ｍｅｒに断片化し、これらを前記サーバーに伝達することを可能にする命令シーケンスを含む、請求項５６から５８のいずれかに記載のシステム。
前記クライアントは、前記クライアントが、前記サーバーから前記クライアントへと伝達された配列に基づき、１種または複数のより大型の配列への供給源配列のアセンブリを実行することを可能にする命令シーケンスをさらに含む、請求項５６から５９に記載のシステム。
データ接続を介して配列決定装置に接続されている、請求項５６から６０のいずれかに記載のシステム。
実行されると請求項１から４２に記載の方法を実施させる命令シーケンスを含有するコンピュータソフトウェア製品。
実行されると請求項１から４２に記載の方法を実施させる命令シーケンスを含有する集積回路製品。