JP2016502162A - 未加工のシーケンシングデータのデータベースにより駆動される一次解析 - Google Patents
未加工のシーケンシングデータのデータベースにより駆動される一次解析 Download PDFInfo
- Publication number
- JP2016502162A JP2016502162A JP2015536149A JP2015536149A JP2016502162A JP 2016502162 A JP2016502162 A JP 2016502162A JP 2015536149 A JP2015536149 A JP 2015536149A JP 2015536149 A JP2015536149 A JP 2015536149A JP 2016502162 A JP2016502162 A JP 2016502162A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- database
- mer
- mers
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Abstract
Description
a)供給源から配列またはショートリードのサブセットをサンプリングするステップと、
b)サブセットからの配列をk−merに断片化するステップと、
c)前記サブセットからのk−merを、参照配列のk−merを含むデータベースに対して問い合わせるステップと、
d)いずれの参照が、k−merを含有するか決定するステップと、
e)可能性の高い供給源参照の記述を返すステップと
を含む方法に関する。
a)供給源から配列のサブセットをサンプリングするステップと、
b)サブセットからの配列をk−merに断片化するステップと、
c)前記サブセットからのk−merを、参照配列のk−merを含む第1のコレクションに対して問い合わせるステップと、
d)前記サブセットからのk−merを、参照配列におけるk−merの位置を含む第2のコレクションに対して問い合わせるステップと、
e)いずれの参照がk−merを含有するか決定するステップと、
f)可能性の高い供給源参照の記述を返すステップと
を含み、参照配列のk−merを含むコレクションが、参照配列におけるk−merの位置を含むコレクションとは別々である方法に関する。
a)供給源から配列またはショートリードのサブセットをサンプリングするステップと、
b)サブセットからの配列をk−merに断片化するステップと、
c)前記サブセットからのk−merを、参照配列のk−merを含む第1のコレクションに対して問い合わせるステップと、
d)前記サブセットからのk−merを、参照配列におけるk−merの位置を含む第2のコレクションに対して問い合わせるステップと、
e)いずれの参照がk−merを含有するか決定するステップと、
f)可能性の高い供給源参照の記述を返すステップと
を含み、参照配列のk−merを含む前記コレクションが、参照配列におけるk−merの位置を含むコレクションとは別々である方法に関する。
a)参照配列からのk−merの第1のコレクションと、
b)参照配列における各k−merの位置の第2のコレクションと
を含むデータベースに関する。
・参照DNAによるデータベースの作成(図1を参照)。データベースは、2部構成である:1)参照に関してインデックス付けされたあらゆる参照DNAのk−merのデータベース、および2)データベース1に由来するk−merと参照配列における位置との間の関連のデータベース。よって、参照k−mer IDおよび位置は、2種の異なるデータベースにおいて保存される。
・検索において、k−merの正確なマッチのみが登録される。
・問い合わせリードは、例えば、長さ16の多数のk−merに分解される。各k−merの出発点は、1ずつ漸進される。
・「伝統的」ではない、de novoアライメントまたはマッピング方法。
・あらゆる公知の参照DNA配列をk−merにインデックス付けし、参照(例えば、種)および参照配列における位置を保存する。本ステップは、好ましくは、新たな配列の追加またはさらなる配列情報の追加により、参照DNA配列がアップデートされた場合にのみ行われる。
・配列をk−merに分割し、データベースに対しマッチングさせ、参照配列のヒット数を計数し、好ましくは、位置情報によりマッチングを精密化することにより、DNAの短い配列を保存することができるクライアント。
・参照にマッチするリードを取り除き、別の異なる参照に由来するより少ない存在量のDNAが存在するか見出す。
・該参照に対するアライメントを実行する、あるいはデータベースにおける参照を使用してより大型の断片を反復的に構築し、以前にアセンブルされた参照を活用することによるde−novoアセンブリよりもさらに優れた性能をもたらす;さらに、データベースのサイズが増加し、より多くのアセンブルした参照が追加されるにつれ、性能が高まるであろう。
・様々な生物または遺伝子(例えば、診断目的に関連)の可能性の高い存在を同定する。
一態様において、本発明は、生物配列の可能性の高い供給源を同定する方法であって、
a)供給源から配列またはショートリードのサブセットをサンプリングするステップと、
b)サブセットからの配列をk−merに断片化するステップと、
c)前記サブセットからのk−merを、参照配列のk−merを含むデータベースに対して問い合わせるステップと、
d)いずれの参照が、k−merを含有するか決定するステップと、
e)可能性の高い供給源参照の記述を返すステップと
を含む方法に関する。
a)供給源から配列またはショートリードのサブセットをサンプリングするステップと、
b)サブセットからの配列をk−merに断片化するステップと、
c)前記サブセットからの1種または複数のk−merを、参照配列のk−merを含む第1のコレクションに対して問い合わせるステップと、
d)前記サブセットからの1種または複数のk−merを、参照配列におけるk−merの位置を含む第2のコレクションに対して問い合わせるステップと、
e)いずれの参照がk−merを含有するか決定するステップと、
f)可能性の高い供給源参照の記述を返すステップと
を含み、参照配列のk−merを含むコレクションが、参照配列におけるk−merの位置を含むコレクションとは別々である方法に関する。
a)供給源から配列またはショートリードのサブセットをサンプリングするステップと、
b)サブセットからの配列をk−merに断片化するステップと、
c)前記サブセットからのk−merを、参照配列のk−merを含む第1のコレクションに対して問い合わせるステップと、
d)前記サブセットからの前記k−merを、参照配列におけるk−merの位置を含む第2のコレクションに対して問い合わせるステップと、
e)いずれの参照がk−merを含有するか決定するステップと、
f)可能性の高い供給源参照の記述を返すステップと
を含み、参照配列のk−merを含むコレクションが、参照配列におけるk−merの位置を含むコレクションとは別々である方法に関する。
一態様において、本発明は、参照配列のk−merを含むデータベースであって、
a.参照配列からのk−merの第1のコレクションと、
b.参照配列における各k−merの位置の第2のコレクションと
を含むデータベースに関する。
a)参照配列からのk−merの第1のコレクションと、
b)参照配列における各k−merの位置の第2のコレクション。
c)参照識別子と、記述ライン(description line)、データの供給源、可能性の高い参照の分類学的名称、前記可能性の高い参照の近縁、前記参照の供給源、さらなる関係する参照の群の情報、参照が得られた場所(土壌、海、腸、下水管等)、参照配列が得られた時期、分類学的分類、近縁種、参照配列がダウンロードされたデータベースに関する情報(例えば、NCBI、EBI/Sangerまたは他のデータベース)からなる群から選択される1または複数の情報とを有する第3のコレクションまたはデータベース
を含む。
本発明の方法およびシステムは、試料において見出されるDNAの可能性の高い供給源を同定する必要がある数多くの適用において使用することができる。
内科的治療法において、感染の可能性の高い供給源を迅速に同定する必要がある。これは、本発明に係る方法を使用して行うことができる。これにより、最も有効な様式で最小の副作用により感染を処置するであろう、適した処置を選択することができる。
生物テロ防御適用において、遭遇した感染性または病原性因子の種の速くて信頼できる同定の必要がある。本発明は、供給源の予備的知識がない状態で、供給源の迅速な同定の可能性を提供する。本発明の方法は、病原体の種の予備的知識がない状態で、種の識別を可能にする。
食物における潜在的に有害な感染を同定するための現在の方法は、時間がかかる(感染性生物の単離および成長に基づく)、あるいは感染の供給源の事前の知識を必要とする(PCRに基づく方法)。本方法は、そのいずれも必要とせず、権限を持つ者および製造業者が、ゲノムDNAを単純に単離し、DNAを配列決定し、本発明の方法を操作することができるシステムに未加工のリードをアップロードすることを可能にする。
本発明は、クリーニング手順に関連して採取された試料におけるDNAの供給源の迅速な同定を可能にすることによる衛生管理の可能性を提供する。さらなる適用は、混入の可能性の高い供給源の同定を含み、これにより、特定の感染病原体の排除に最も適した衛生学的技法の適用を可能にする。
次に、任意で番号を振った項目1から56として本発明を説明するが、これらは、本発明の実施形態として考慮されたい。本発明は、添付の特許請求の範囲を参照してさらに定義される。
a)供給源から配列またはショートリードのサブセットをサンプリングするステップと、
b)サブセットからの配列をk−merに断片化するステップと、
c)前記サブセットからのk−merを、参照配列のk−merを含むデータベースに対して問い合わせるステップと、
d)いずれの参照がk−merを含有するか決定するステップと、
e)可能性の高い供給源参照の記述を返すステップと
を含む方法。
a.参照配列からのk−merの第1のコレクションと、
b.参照配列における各k−merの位置の第2のコレクションと
を含むデータベース。
そこで、本出願人らは、DNAまたはRNAの可能性の高い起源を迅速に指し示すことができ、DNAシーケンサーから得られた未加工のリードにおいて直接作業することができる新規方法、Tapirを提示する。本出願人らのシステムは、公知DNAを参照するサーバーと、認定しようとするDNAデータを有するクライアントに存する。使用を実証するために、本出願人らは、数千種の細菌ゲノム、ファージゲノム、ファージおよびプラスミドと共に、ヒトゲノム、マウスゲノム、A.thalianaおよび真菌、古細菌に由来する様々な配列を参照した。本出願人らは、ウェブブラウザにおいてランできるクライアントも実行し、これはポータブル計算デバイスからギガ塩基のデータを処理することができる。本方法は、k−merのインデックス付けと、サーバーへの限られた量のデータの移行に頼る。これは、Androidスマートフォンから数秒以内でそのタスクを行うことができ、サーバーと通信する中程度の量の帯域幅を消費し、本出願人らの知る限りにおいて、いずれかの現存するツールとは異なり使用に単純さをもたらす。これは、配列決定ランにおけるルーチンの即時品質検査のために本出願人らのコア設備において使用されており、http://tapir.cbs.dtu.dkにおいて利用することができる。
DNAの配列決定は、これを重ねて主張することそれ自体が、絶対的に陳腐なコメントとなるほどに、過去10年間にわたってますます手頃なものとなった[13]。今日のハイエンドシーケンサーは、数種類のヒトゲノムまたは数百種類の細菌の均等物を処理する容量を有し、また、次世代のシーケンサーが、既に利用できるようになり始めており、これは必要とされる初期投資がさらに少なく、配列決定容積に及ぶ柔軟性をもたらす。完全細菌分離株の配列決定は、一日がかりの仕事であるが、直ぐに数時間の仕事となるであろう。ナノポア配列決定[12]に関する近年の発表は、DNAを直接的に配列決定することができる、配列決定デバイスが使い捨て型となるため前例のない低レベルの資本投資の、USBから電源供給されるデバイスを提示した。この将来的な製品の背後に存在する会社であるOxford Nanoporeは、2012年にリリースを発表した[8]。DNAの抽出は、相対的に単純な手順であり、DNA配列決定が、直ぐに分子生物学におけるルーチンで安価な手順となるであろうことが予見できる。患者は、ルーチンに配列決定され、感染病原体の大流行は、それらのDNAによって追跡され、水および食物の品質も、DNA配列決定によりモニターされるであろう。
EBIおよびNCBIから利用できる公表されているゲノム、コンティグ、プラスミドおよび個々の遺伝子をダウンロードして、本出願人らの参照DNAとした。各参照配列を重複k−merに分割し、あらゆる参照にわたるあらゆるk−merに対し、キー値保存またはNoSQLデータベース(本出願人らは、KyotoCabinet[4]を使用した)を作成し、各k−mer(データベースにおけるキー)に、該k−merを有する参照に相当する識別子のリストを関連付けた(図1)。本出願人らは、これを存在データベースと呼んだ。同様に、k−merが見出される参照における位置を、本出願人らが位置データベースと呼ぶ場所に保存した(図1)。記述ラインおよびデータの供給源等、参照識別子および情報の間の関連を、別々のSQLデータベースに保存した。
細菌ゲノム毎に、本出願人らは、100種のランダムなシミュレートされたリードを採取し、本出願人らの方法を使用して、他の参照の中から、これらの細菌ゲノムを含むデータベースに対してこれらをスコアリングし、25種の最良のスコアのリストにおける問い合わせゲノムのランクを記録する。平均ランクおよびランクの標準偏差を図4に示す。
TAPIRの根底にある概念は、幾分単純である。DNAデータベースのサイズの増加が、少なくとも10年間にわたり発表および観察されてきたが、DNA配列決定技術における近年の発達は、データの素早く手頃な作成を現実のものとした。本出願人らは、あらゆる公知のDNAに対する実験的に得られたDNA配列のマッチングが、バイオインフォマティクスにおける最も重要な課題の1つであることを主張する。本明細書において、本出願人らは、インターネットウェブ検索大手(giants)が一般向けに使用できるようにしたものにマッチするスピードおよび容易さでこれを行うことができることを示す。デスクトップDNAシーケンサーによる、患者における感染、生物テロ防御または食物安全性等のリアルタイムサーベイランス等、タスクを考慮する場合、本出願人らの方法は、検索空間を絞り込み、より高度な解析方法を後に行うことができる、最初期ステップを提供する。
本実施例において、細菌、ウイルス、ファージ、プラスミドと共に、ヒト、マウス、植物、真菌および古細菌に由来する数万種のゲノムおよびゲノム領域が参照された。本出願人らは、ウェブブラウザにおいてランするクライアントも実行し、サーバーと通信する中程度の量の帯域幅を消費しながら、数秒以内に商品ポータブル計算デバイスから数ギガバイトの未加工の配列決定データを処理および同定するためのクライアントの使用を実証した。よって、本実施例において、未加工のリードに由来するDNAの同定が、検索エンジンの問い合わせと同じほどに容易となり得ることが示される。
アライメントプログラムを調べる主観的な仕方は、これらを2種の主要カテゴリーに分割することである:その一方は、公知参照のコレクションに対する1個の問い合わせ配列のマッピングに全力を尽くすことであり(例えば、BLAST)、もう一方は、可能な限り迅速に1個の指定の参照に対する多数の短い配列のマッピングを試みることである(例えば、bowtieまたはBWA)。本出願人らは、多数の短い配列のために優れた参照を同定することができる中間的アプローチを提案する;本出願人らは、参照配列のコレクションに対し複数の配列をマッチさせ、いずれの参照が、問い合わせセットにおいて最も表されるか採択する。
配列決定データにおける細菌を同定するために本来設計された本出願人らのシステムをベンチマーク評価するために、本出願人らは、およそ2012年の初めにEBIデータベースから利用できる細菌に由来するあらゆる配列を反復的に採取したが、これはすなわち、747種の細菌ゲノムであり、これらに加えて参照の完全データベースは、次のものを含有した:NCBIに由来する細菌参照、ファージおよびウイルス、プラスミドならびにヒトゲノム(下表1を参照)。表1は、2012年の初めにおけるゲノム参照のスナップショット(参照の供給源および数)を示す。参照は、完全ゲノムまたはプラスミド、およびコンティグまたは遺伝子等のゲノム断片の混合物である。
細菌ゲノム毎に、本出願人らは、100種のランダムなシミュレートされたリードを採取し、本出願人らの方法を使用して、他の細菌、ファージ、植物、真菌、ウイルスおよび哺乳動物に由来する配列およびゲノムのより大型のコレクションの中から、該細菌ゲノムを含むデータベースに対してこれらをスコアリングし、25種の最良のマッチする参照のリストにおける問い合わせゲノムのランクを記録した。検査細菌ゲノム毎の結果の可変性を評価するために、これをゲノム毎に5回繰り返し、平均ランクおよびランクの標準偏差を図9に提示する。
サーバー:
サーバーにおけるメモリ使用は、ディスクに基づくキー値保存を使用することにより最小に維持することができ、チューニング性能は、これらを、それをランするコンピュータにおいて利用できるメモリにキャッシュすることにより達成することができる。NoSQLデータベースの使用のおかげで、本出願人らは、ゲノムデータがますます豊富になるにつれての優れたスケールアップも予測し、相対的に手頃なコンピュータシステムにおける参照のますます大型化するコレクションのインデックス付けおよび問い合わせが可能となり続ける。
本出願人らの方法の使用を容易にするために、本出願人らは、http://tapir.cbs.dtu.dkにおいてアクセスすることができるJavascript(登録商標)およびHTML5特色を使用して、ブラウザに基づくクライアントを開発した。クライアントは、現在、最新のFirefoxリリース(バージョン15以上)において稼働している。
本出願人らは、あらゆる公知DNAに対する実験的に得られたDNA配列のマッチングが、バイオインフォマティクスにおける最も重要な課題の1つであることを主張する。本明細書において、本出願人らは、インターネットウェブ検索大手が一般向けに使用できるようにしたものにマッチするスピードおよび容易さでこれを行うことができることを示してきた。患者における感染、生物テロ防御または食物安全性等、リアルタイムサーベイランス等のタスクを考慮する場合、Ion Torrent PGMまたはIllumina MiSeq等、今日のデスクトップDNAシーケンサーは、既にタスクに耐えることができ、本出願人らの方法は、DNA配列決定を行う研究室と計算設備との間で大量の未加工のデータを移行させる必要がなく、検索空間を絞り込み、より高度な解析方法を後に局所的に行うことができる最初期ステップを提供する。
ゲノム参照の供給源:
EBIおよびNCBIから利用できる、公表されているゲノム、コンティグ、プラスミドおよび個々の遺伝子をダウンロードして、本出願人らの参照DNAとした。参照の正確な組成は、時間と共に拡大しつつあるが、本出願人らは本実施例に使用したスナップショットを表1にリストアップした。
各参照配列を非重複k−merに分割し、あらゆる参照に及ぶあらゆるk−merに対し、キー値保存またはNoSQLデータベース(本出願人らはKyotoCabinet[4]を使用)を作成し、各k−mer(データベースにおけるキー)に、該k−merを有する参照に相当する識別子のリストを関連付けた。本出願人らは、これを存在データベースと呼んだ。同様に、本出願人らが位置データベースと呼ぶものに、k−merが見出される参照における位置を保存した。これが満足のいく結果を生じたため、また、4の倍数がビットパッキングに良く適していたため、kは、16に等しくなるよう選んだ。記述ラインおよびデータの供給源等、参照識別子および情報間の関連は、別々のSQLデータベースに保存した。
短い問い合わせ配列またはリードのセットをスコアリングするために、本出願人らは、これらのランダム試料を通して反復した。試料サイズが大きいほど、これはより確かに正確になるであろう。配列毎に、本出願人らは、配列にわたり幅kのウィンドウをスライドさせることにより得られる、連続したk−merにわたり反復した。k−mer毎に、これが以前に計数されておらず、存在データベースに見出される場合、本出願人らは、参照の位置を問い合わせた。リードのあらゆるk−merが処理されたら、本出願人らは、参照においてマッチした近接位置の数を調べ、あらゆるマッチする参照にわたる同じリードに起源をもつマッチするk−merの最大の濃度である、マッチの最大のクラスターのみを考慮した。かかるクラスター毎に、本出願人らは、該参照に対し恐らく以前に加えられた数にk−merの数を加え、既に計数されたk−merのリストをアップデートした。続いて、次の配列またはリードを処理した。あらゆるリードが処理されたら、マッチすることが判明したk−merの計数が関連付けされた参照のリストが得られる。ペア<参照、計数>毎に、計数を、問い合わせセットにおける特有のk−merの数で割り、所定の参照によりマッチした問い合わせにおけるDNAの量の大雑把なスコアを得た。図解されているスコアリング原理により、問い合わせセットが、配列と完全にマッチしている場合、該スコアは、1となり、そうでなければ、これはより小さくなるであろう;例えば、問い合わせセットが、2種の参照の等しい割合の混合物である場合、両方の参照のスコアは、0.5前後となるであろう。該計数をまた、参照のサイズで割り、問い合わせによって表される参照の画分の大雑把なスコアを得る;この第2のスコアは、マッチする参照の選別および最大の参照へのバイアスの回避に役立つ。等しい加重を使用して、これら2スコアの加重和として最終スコアを算出した。問い合わせセットが大型である場合、例えば、本出願人らが、DNA配列決定ランから得られるあらゆるリードを考慮する場合、該セットのランダム試料のみを使用する。
サービスの使用を容易にするために、本出願人らは、ウェブブラウザにおいてページとしてランするHTML5/Javascript(登録商標)クライアントを実行した。本研究のために、Firefoxバージョン15を使用し、本出願人らは、Linux(登録商標)、Mac OS X、Microsoft Windows(登録商標)(様々なラップトップおよびデスクトップ)と共にAndroid 4.0(タブレットASUS TF101−本出願人らは、ハイエンドスマートフォンからも作業できると予測する)において作業するためにこれを検査した。しかし、当業者であれば、他の適したブラウザも同様に有用となり得ることを認められよう。クライアントは、容易な評価ならびに現存するワークフローおよびパイプラインにおける統合のためのPythonライブラリおよびコマンドラインツールとしても実行される。
KyotoCabinet等、ライブラリへの結合の例外において、サーバーサイドにおいてPythonバージョン2.7.3を使用して、あらゆる実行を行った。ウェブ適用は、マイクロフレームワーク(micro-framework)Flaskを使用しており、lighttpによって提供されている。クライアントサイドライブラリおよびコマンドラインツールをPythonバージョン3.3のために開発した。
Claims (63)
- ショートリード等、生物配列の可能性の高い供給源を同定する方法であって、
a)供給源から配列またはショートリードのサブセットをサンプリングするステップと、
b)該サブセットからの配列をk−merに断片化するステップと、
c)該サブセットからの1種または複数のk−merを、参照配列のk−merを含む第1のコレクションに対して問い合わせるステップと、
d)該サブセットからの1種または複数のk−merを、参照配列におけるk−merの位置を含む第2のコレクションに対して問い合わせるステップと、
e)いずれの参照が該1種または複数のk−merを含有するか決定するステップと、
f)可能性の高い供給源参照の記述を返すステップと
を含み、参照配列のk−merを含む該第1のコレクションが、参照配列におけるk−merの位置を含む該第2のコレクションとは別々である方法。 - スコアリングマトリクスを使用するアライメントアルゴリズム等、配列データにおけるアライメントアルゴリズムの使用を含まない、請求項1に記載の方法。
- 前記問い合わせステップが、前記参照配列におけるk−merの位置を決定するステップをさらに含む、前記請求項のいずれかに記載の方法。
- 存在および位置が使用されて、参照配列における問い合わせk−merの連続性を決定する、前記請求項のいずれかに記載の方法。
- 前記生物配列が、アミノ酸配列である、前記請求項のいずれかに記載の方法。
- 前記生物配列が、DNAまたはRNA配列である、請求項1から4に記載の方法。
- k−mer問い合わせが、問い合わせおよび参照k−merの間の正確なマッチの決定を含む、前記請求項のいずれかに記載の方法。
- 問い合わせが、少なくとも1種の供給源配列またはショートリード、好ましくは、少なくとも50、例えば、少なくとも100、例えば、少なくとも150、例えば、少なくとも200、例えば、少なくとも250、例えば、少なくとも300、例えば、少なくとも400、例えば、少なくとも500、例えば、少なくとも750、例えば、少なくとも1000、例えば、少なくとも1500、例えば、少なくとも2000、例えば、少なくとも2500、例えば、少なくとも5000種以上の配列に由来するあらゆるk−merの問い合わせを含む、前記請求項のいずれかに記載の方法。
- 前記供給源配列が、少なくとも50塩基、好ましくは、少なくとも100塩基、例えば、少なくとも150塩基、例えば、少なくとも200塩基、例えば、少なくとも250塩基、例えば、少なくとも300塩基、例えば、少なくとも400、少なくとも500以上の塩基のヌクレオチド配列である、前記請求項のいずれかに記載の方法。
- 配列の前記サブセットが、少なくとも1%、例えば、少なくとも2%、例えば、少なくとも4%、例えば、少なくとも5%、例えば、少なくとも6%、例えば、少なくとも7.5%、例えば、少なくとも10%、例えば、少なくとも15%、例えば、少なくとも25%、例えば、少なくとも30%、例えば、少なくとも35%、例えば、少なくとも40%、例えば、少なくとも50%の離散した配列を含む、前記請求項のいずれかに記載の方法。
- 配列の1種または複数のさらなるサブセットを選択するステップと、これらを請求項1に記載のステップa)〜f)に付すステップとをさらに含む、前記請求項のいずれかに記載の方法。
- 前記サブセットが、ランダムであるまたはフィルターをかけられている、前記請求項のいずれかに記載の方法。
- 前記k−merが、サイズ4、8、12、16、20、24、28、32、36、40、44、48、52、56、60、64以上のものである、前記請求項のいずれかに記載の方法。
- 前記k−merが、連続している、前記請求項のいずれかに記載の方法。
- 前記k−merが、重複しており、少なくとも1、例えば、少なくとも2、例えば、少なくとも3、例えば、少なくとも4、例えば、少なくとも5、例えば、少なくとも6以上の塩基またはアミノ酸ずつ漸増する、前記請求項のいずれかに記載の方法。
- k−merが、互いに素な部分配列の連結である、前記請求項のいずれかに記載の方法。
- 所定の配列に由来するk−merが、データベースに対して問い合わせされて、1種または複数の参照配列におけるk−merの存在および該1種または複数の参照配列におけるk−merの位置を決定する、前記請求項のいずれかに記載の方法。
- 位置が、前記k−merが存在する場合にのみ問い合わせされる、請求項17に記載の方法。
- 返された参照のスコアが算出される、前記請求項のいずれかに記載の方法。
- 同定された参照配列のスコアが算出され、該スコアが、所定の参照配列に見出される1種または複数の配列に由来するk−merの数に相関する、前記請求項のいずれかに記載の方法。
- 同定された参照のスコアが算出され、該スコアが、参照配列に見出される1種または複数の配列に由来するk−merの局所的濃度の平均による連続性または近似連続性に相関する、前記請求項のいずれかに記載の方法。
- 同定された参照のスコアが算出され、前記スコアが、前記供給源に由来するk−merの前記サブセットにも存在する参照配列におけるk−merの数に相関する、前記請求項のいずれかに記載の方法。
- 可能性の高い供給源参照が、前記スコアまたは複数のスコアに従ってランク付けされる、請求項19から22のいずれかに記載の方法。
- 1種の供給源配列またはショートリードに由来するあらゆるk−merが問い合わせされ、該供給源配列またはショートリードの1種または複数のスコアが算出される、前記請求項のいずれかに記載の方法。
- 参照配列に対してマッチするk−merの計数が得られる、前記請求項のいずれかに記載の方法。
- 参照配列に対してマッチするk−merの計数を、問い合わせたサブセットにおける特有のk−merの数で割ることにより、スコアが得られる、前記請求項のいずれかに記載の方法。
- 参照配列に対してマッチするk−merの計数を、該参照配列のサイズで割ることにより、スコアが得られる、請求項24から26に記載の方法。
- 参照配列のスコアが、請求項26および27に記載のスコアの加重和として算出される、請求項24から27に記載の方法。
- 第2の供給源配列、好ましくは、第3の供給源配列に由来するあらゆるk−merを問い合わせるステップをさらに含む、前記請求項のいずれかに記載の方法。
- 定義済みの統計的確率により参照生物が同定されたら、前記データベース問い合わせを中止することができる、前記請求項のいずれかに記載の方法。
- k−merの定義済みの画分が、前記データベースに見出されない場合、前記データベース問い合わせを中止することができる、前記請求項のいずれかに記載の方法。
- 前記データベースが、1種または複数の可能性の高い参照に関する次の情報:配列、コード配列、調節配列のいずれかのアノテーション、該可能性の高い参照の分類学的名称、該可能性の高い参照の近縁、前記参照の供給源、さらなる関係する参照の群、参照が得られた場所(土壌、海、腸または下水管等)、前記参照配列が得られた時期、分類学的分類、近縁種、参照配列がダウンロードされたデータベースに関する情報(NCBIまたはEBI/Sangerデータベース等)のうち1種または複数を出力する、前記請求項のいずれかに記載の方法。
- 前記データベースが、最も可能性の高い参照の配列を出力し、好ましくは、前記データベースが、最も可能性の高い参照種の完全ゲノム配列を出力する、前記請求項のいずれかに記載の方法。
- 非常に類似した配列を有する参照からの結果またはさらなる関係する参照からの結果が、前記出力においてグループ化される、前記請求項のいずれかに記載の方法。
- 前記方法の数回の反復が行われる、前記請求項のいずれかに記載の方法だって、例えば、第1の反復において、最も豊富な参照を同定し、供給源配列またはショートリードから前記最も豊富な参照に由来する配列を除去する、方法。
- 第2の反復において、2番目に豊富な参照を同定し、該2番目豊富な参照に由来する配列を除去するステップ等をさらに含む、請求項35に記載の方法。
- 第2の反復において、挿入の可能性の高い参照を同定するステップをさらに含む、請求項36に記載の方法。
- 定義済みの参照に由来する配列とアライメントする供給源配列を最初に除去するステップをさらに含む、前記請求項のいずれかに記載の方法。
- 1種の供給源配列に由来する定義済みの数のk−merが、前記データベースに存在しない場合、前記供給源配列に由来するk−merを無視するステップを含む、前記請求項のいずれかに記載の方法。
- 問い合わせが、1種または複数の定義済みの参照に由来するk−merの無視を含む、前記請求項のいずれかに記載の方法。
- 核酸シーケンサーから得られるような未加工の配列が、問い合わせされる、前記請求項のいずれかに記載の方法。
- 適応サンプリングが使用される、前記請求項のいずれかに記載の方法。
- 参照配列のk−merを含む、請求項1から42によって定義される方法における使用のためのデータベースであって、
a)参照配列からのk−merの第1のコレクションと、
b)該参照配列における各k−merの位置の第2のコレクションと
を含む、データベース。 - 所定の参照に関連する全長配列、および/または該参照の供給源、および/または該参照の1種もしくは複数の分類学的記述子に関する情報をさらに含む、請求項43に記載のデータベース。
- 前記データベースにおけるk−merが、各特有のk−merに特有のキーを割り当てるハッシュ関数に付される、請求項43から44のいずれかに記載のデータベース。
- 前記第1のコレクションにおける各特有のk−merが、前記k−merが存在するこれらの参照に関する情報へのベクトルによって関連付けされる、請求項43から45のいずれかに記載のデータベース。
- 前記第2のコレクションにおける各特有のk−merが、存在する場合、各参照におけるその位置に関する情報へのベクトルによって関連付けされる、請求項43から46のいずれかに記載のデータベース。
- 参照識別子と、記述ライン、データの供給源、配列、コード配列、調節配列のいずれかのアノテーション、可能性の高い参照の分類学的名称、該可能性の高い参照の近縁、前記参照の供給源、さらなる関係する参照の群、参照が得られた場所(土壌、海、腸、下水管等)、前記参照配列が得られた時期、分類学的分類、近縁種、前記参照配列がダウンロードされたデータベースに関する情報(NCBIまたはEBI/Sangerデータベース等)からなる群から選択される情報の種類とを有する、第3のコレクションまたはデータベースをさらに含む、請求項43から47のいずれかに記載のデータベース。
- 前記k−merが、長さ4、8、12、16、20、24、28、32、36、40、44、48、52、56、60、64以上のものである、請求項43から48のいずれかに記載のデータベース。
- 前記k−merが、重複していない、請求項43から49のいずれかに記載のデータベース。
- 前記k−merが重複し、少なくとも1、例えば、少なくとも2、例えば、少なくとも3、例えば、少なくとも4、例えば、少なくとも5、例えば、少なくとも6以上の塩基またはアミノ酸ずつ漸増する、請求項43から50のいずれかに記載のデータベース。
- 各参照の完全配列に由来するk−merを含む、請求項43から51のいずれかに記載のデータベース。
- ヒト、動物、哺乳動物、鳥類、魚類、真菌、昆虫、植物、細菌、古細菌、ウイルスおよび/またはプラスミドに由来する配列情報を含む、請求項43から52のいずれかに記載のデータベース。
- 数個の異なるサーバーに保存されるサブデータベースに分けられる、請求項43から53のいずれかに記載のデータベース。
- 門、綱、目、科、属および種から選択される1種もしくは複数の分類学的記述子、または供給源、分布、起源および過去の問い合わせ頻度等の1種もしくは複数の環境的記述子に従ってサブデータベースへと組織化される、請求項43から54のいずれかに記載のデータベース。
- 入力デバイスと、中央処理ユニットと、メモリと、出力デバイスとを含む、供給源配列の可能性の高い供給源を同定するためのデータ処理システムであって、該データ処理システムが、実行されると請求項1から42に記載の方法を実施させる命令シーケンスを表すデータを内部に保存し、該メモリが、請求項43から55のいずれかに記載のデータベースをさらに含む、データ処理システム。
- 前記データベースが、サーバーに保存され、前記入力デバイスおよび出力デバイスが、クライアントであり、該クライアントおよびサーバーが、データ通信接続を介して接続されている、請求項56に記載のシステム。
- 前記クライアントが、パーソナルコンピュータ、固定型PC、ポータブルPC、スマートフォン等の携帯型計算デバイスから選択される、請求項56から57のいずれかに記載のシステム。
- 前記クライアントは、前記クライアントが、供給源配列のサブセットをサンプリングし、これらをk−merに断片化し、これらを前記サーバーに伝達することを可能にする命令シーケンスを含む、請求項56から58のいずれかに記載のシステム。
- 前記クライアントは、前記クライアントが、前記サーバーから前記クライアントへと伝達された配列に基づき、1種または複数のより大型の配列への供給源配列のアセンブリを実行することを可能にする命令シーケンスをさらに含む、請求項56から59に記載のシステム。
- データ接続を介して配列決定装置に接続されている、請求項56から60のいずれかに記載のシステム。
- 実行されると請求項1から42に記載の方法を実施させる命令シーケンスを含有するコンピュータソフトウェア製品。
- 実行されると請求項1から42に記載の方法を実施させる命令シーケンスを含有する集積回路製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP12188538.8 | 2012-10-15 | ||
EP12188538 | 2012-10-15 | ||
PCT/EP2013/071280 WO2014060305A1 (en) | 2012-10-15 | 2013-10-11 | Database-driven primary analysis of raw sequencing data |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016502162A true JP2016502162A (ja) | 2016-01-21 |
JP2016502162A5 JP2016502162A5 (ja) | 2016-12-01 |
Family
ID=47357889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015536149A Pending JP2016502162A (ja) | 2012-10-15 | 2013-10-11 | 未加工のシーケンシングデータのデータベースにより駆動される一次解析 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20150294065A1 (ja) |
EP (1) | EP2915084A1 (ja) |
JP (1) | JP2016502162A (ja) |
CN (1) | CN104919466A (ja) |
WO (1) | WO2014060305A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023515248A (ja) * | 2020-04-02 | 2023-04-12 | 上海之江生物科技股▲ふん▼有限公司 | 微生物の標的断片における特異的領域の識別方法、装置及び応用 |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10691775B2 (en) | 2013-01-17 | 2020-06-23 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
US9792405B2 (en) | 2013-01-17 | 2017-10-17 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
US9679104B2 (en) | 2013-01-17 | 2017-06-13 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
US10847251B2 (en) | 2013-01-17 | 2020-11-24 | Illumina, Inc. | Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis |
US10068054B2 (en) | 2013-01-17 | 2018-09-04 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
WO2014113736A1 (en) | 2013-01-17 | 2014-07-24 | Edico Genome Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
KR102004335B1 (ko) * | 2013-09-26 | 2019-07-26 | 파이브3 제노믹스, 엘엘씨 | 바이러스-연관 종양을 위한 시스템, 방법, 및 조성물 |
NL2011817C2 (en) * | 2013-11-19 | 2015-05-26 | Genalice B V | A method of generating a reference index data structure and method for finding a position of a data pattern in a reference data structure. |
US9697327B2 (en) | 2014-02-24 | 2017-07-04 | Edico Genome Corporation | Dynamic genome reference generation for improved NGS accuracy and reproducibility |
US9857328B2 (en) | 2014-12-18 | 2018-01-02 | Agilome, Inc. | Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same |
US10006910B2 (en) | 2014-12-18 | 2018-06-26 | Agilome, Inc. | Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same |
WO2016100049A1 (en) | 2014-12-18 | 2016-06-23 | Edico Genome Corporation | Chemically-sensitive field effect transistor |
US9618474B2 (en) | 2014-12-18 | 2017-04-11 | Edico Genome, Inc. | Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids |
US10020300B2 (en) | 2014-12-18 | 2018-07-10 | Agilome, Inc. | Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids |
US9859394B2 (en) | 2014-12-18 | 2018-01-02 | Agilome, Inc. | Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids |
WO2016154154A2 (en) | 2015-03-23 | 2016-09-29 | Edico Genome Corporation | Method and system for genomic visualization |
EP3286359A4 (en) * | 2015-04-24 | 2018-12-26 | University of Utah Research Foundation | Methods and systems for multiple taxonomic classification |
EP3101574A1 (en) * | 2015-06-05 | 2016-12-07 | Limbus Medical Technologies GmbH | Data quality management system and method |
US11194778B2 (en) * | 2015-12-18 | 2021-12-07 | International Business Machines Corporation | Method and system for hybrid sort and hash-based query execution |
US20170270245A1 (en) | 2016-01-11 | 2017-09-21 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing |
US10068183B1 (en) | 2017-02-23 | 2018-09-04 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on a quantum processing platform |
EP3414348A4 (en) * | 2016-02-11 | 2019-10-09 | The Board of Trustees of the Leland Stanford Junior University | SEQUENCING ALIGNMENT ALGORITHM OF THE THIRD GENERATION |
WO2017201081A1 (en) | 2016-05-16 | 2017-11-23 | Agilome, Inc. | Graphene fet devices, systems, and methods of using the same for sequencing nucleic acids |
US10597714B2 (en) | 2017-12-29 | 2020-03-24 | Clear Labs, Inc. | Automated priming and library loading device |
GB2589159B (en) | 2017-12-29 | 2023-04-05 | Clear Labs Inc | Nucleic acid sequencing apparatus |
US10246704B1 (en) | 2017-12-29 | 2019-04-02 | Clear Labs, Inc. | Detection of microorganisms in food samples and food processing facilities |
US11314781B2 (en) | 2018-09-28 | 2022-04-26 | International Business Machines Corporation | Construction of reference database accurately representing complete set of data items for faster and tractable classification usage |
US11830580B2 (en) | 2018-09-30 | 2023-11-28 | International Business Machines Corporation | K-mer database for organism identification |
CN111128303B (zh) * | 2018-10-31 | 2023-09-15 | 深圳华大生命科学研究院 | 基于已知序列确定目标物种中对应序列的方法和系统 |
US11347810B2 (en) | 2018-12-20 | 2022-05-31 | International Business Machines Corporation | Methods of automatically and self-consistently correcting genome databases |
US11515011B2 (en) * | 2019-08-09 | 2022-11-29 | International Business Machines Corporation | K-mer based genomic reference data compression |
KR20230069046A (ko) * | 2020-09-15 | 2023-05-18 | 일루미나, 인코포레이티드 | 소프트웨어 가속 게놈 판독 매핑 |
CN113744806B (zh) * | 2021-06-23 | 2024-03-12 | 杭州圣庭医疗科技有限公司 | 一种基于纳米孔测序仪的真菌测序数据鉴定方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060286566A1 (en) | 2005-02-03 | 2006-12-21 | Helicos Biosciences Corporation | Detecting apparent mutations in nucleic acid sequences |
US8478544B2 (en) * | 2007-11-21 | 2013-07-02 | Cosmosid Inc. | Direct identification and measurement of relative populations of microorganisms with direct DNA sequencing and probabilistic methods |
US20120000411A1 (en) | 2010-07-02 | 2012-01-05 | Jim Scoledes | Anchor device for coral rock |
CN102332064B (zh) * | 2011-10-07 | 2013-11-06 | 吉林大学 | 基于基因条形码的生物物种识别方法 |
-
2013
- 2013-10-11 EP EP13785830.4A patent/EP2915084A1/en not_active Withdrawn
- 2013-10-11 US US14/435,323 patent/US20150294065A1/en not_active Abandoned
- 2013-10-11 JP JP2015536149A patent/JP2016502162A/ja active Pending
- 2013-10-11 CN CN201380065692.1A patent/CN104919466A/zh active Pending
- 2013-10-11 WO PCT/EP2013/071280 patent/WO2014060305A1/en active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023515248A (ja) * | 2020-04-02 | 2023-04-12 | 上海之江生物科技股▲ふん▼有限公司 | 微生物の標的断片における特異的領域の識別方法、装置及び応用 |
Also Published As
Publication number | Publication date |
---|---|
WO2014060305A1 (en) | 2014-04-24 |
US20150294065A1 (en) | 2015-10-15 |
EP2915084A1 (en) | 2015-09-09 |
CN104919466A (zh) | 2015-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016502162A (ja) | 未加工のシーケンシングデータのデータベースにより駆動される一次解析 | |
Bağcı et al. | DIAMOND+ MEGAN: fast and easy taxonomic and functional analysis of short and long microbiome sequences | |
Ren et al. | Alignment-free sequence analysis and applications | |
Schbath et al. | Mapping reads on a genomic sequence: an algorithmic overview and a practical comparative analysis | |
Mount | Using the basic local alignment search tool (BLAST) | |
Al-Ghalith et al. | NINJA-OPS: fast accurate marker gene alignment using concatenated ribosomes | |
Jajou et al. | Towards standardisation: comparison of five whole genome sequencing (WGS) analysis pipelines for detection of epidemiologically linked tuberculosis cases | |
WO2005036369A2 (en) | Database for microbial investigations | |
Xiang et al. | A genome-wide MeSH-based literature mining system predicts implicit gene-to-gene relationships and networks | |
Ames et al. | Using populations of human and microbial genomes for organism detection in metagenomes | |
Grant et al. | Building a phylogenomic pipeline for the eukaryotic tree of life-addressing deep phylogenies with genome-scale data | |
US11830580B2 (en) | K-mer database for organism identification | |
US11809498B2 (en) | Optimizing k-mer databases by k-mer subtraction | |
Pappas et al. | Virus bioinformatics | |
Panda et al. | EumicrobeDBLite: a lightweight genomic resource and analytic platform for draft oomycete genomes | |
Avino et al. | Tree shape‐based approaches for the comparative study of cophylogeny | |
Shen et al. | A novel algorithm for detecting multiple covariance and clustering of biological sequences | |
Kim et al. | GarlicESTdb: an online database and mining tool for garlic EST sequences | |
Rebholz-Schuhmann et al. | Evaluating gold standard corpora against gene/protein tagging solutions and lexical resources | |
Nawaz et al. | PSAC-PDB: Analysis and classification of protein structures | |
Catanho et al. | BioParser: a tool for processing of sequence similarity analysis reports | |
Dodson et al. | Genetic sequence matching using D4M big data approaches | |
Arango-Argoty et al. | MetaMLP: A fast word embedding based classifier to profile target gene databases in metagenomic samples | |
Kopylova et al. | Deciphering metatranscriptomic data | |
CN116825182B (zh) | 一种基于基因组ORFs筛选细菌耐药特征的方法及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161011 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171005 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180104 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180511 |