JP6884143B2 - 階層的転置索引表を使用したdnaアラインメント - Google Patents
階層的転置索引表を使用したdnaアラインメント Download PDFInfo
- Publication number
- JP6884143B2 JP6884143B2 JP2018520481A JP2018520481A JP6884143B2 JP 6884143 B2 JP6884143 B2 JP 6884143B2 JP 2018520481 A JP2018520481 A JP 2018520481A JP 2018520481 A JP2018520481 A JP 2018520481A JP 6884143 B2 JP6884143 B2 JP 6884143B2
- Authority
- JP
- Japan
- Prior art keywords
- entry
- level
- index table
- length
- hierarchical index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Epidemiology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
下記の特許/出願は、本明細書に十分かつ完全に記載されているかのようにそれらの全体が参照により本明細書に組み込まれる。
下記は、本願で使用されている用語の解説である。
炭素系生物形態に対して、遺伝情報は、デオキシリボ核酸(DNA)の長鎖分子内にコード化され、交互の糖類及びリン酸基の2つの平行なスパインは、塩基対のはしごにより共に保持される。2つのスパインは、塩基対を保護し、互いの周りで徐々にねじれて、二重らせん構造を形成する。DNA形態のより長い鎖は、らせん状になり、コイルからなるコイル状になる。より大きい生物に対して、これらのコイルは、非常に高倍率での光学顕微鏡により視認可能である染色体へと組織化される。
デノボシーケンシング
十分な重複があれば、非常に長い配列の画像を構築することができる。これは、デノボシーケンシングと称される。個体に対する全配列が構築された場合(ヒトの事例では23個の染色体)、次に、その個体に対する遺伝情報を有する。種の多様性をカバーするのに十分な多くの個体からの遺伝子の組み合わせは、その主に対するゲノムと称される。多くの種に対して、細胞内のミトコンドリアはまた、ゲノムに対する追加の遺伝情報を有するDNAを含む。
いったん基準ゲノムが構築されると、個体の遺伝子情報を取得し、かつ未処理読み出しを基準ゲノムに適合させるプロセスは、再シーケンシングと称される。読み出し配列が完全または略適合を有する基準ゲノム内の場所についての検索は、アラインメントまたはマッピングと称される。よって、完全な再シーケンシングは、何十億のアラインメントを必要とし得る。
図3は、本発明の技術の実施形態を実施するように構成された例示的なシステムを図示している。示されているように、いくつかの実施形態において、本システムは、ワークステーション等の演算システム82であり得、1つ以上のプロセッサ、及び本発明の技術の実施形態による1つ以上のコンピュータプログラムまたはソフトウエアコンポーネントが保存され得る少なくとも1つの記憶媒体を含み得る。例えば、記憶媒体は、本明細書に記載されている方法を実行するように1つ以上のプロセッサにより実行可能である1つ以上のプログラムを保存し得る。記憶媒体はまた、操作システムソフトウエア、ならびにコンピュータシステムの操作のための他のソフトウエアを保存し得る。
本発明の技術は、データ入力及び出力、ならびにコアアラインメント機能による前処理及び後処理を重複させるデータフローシステムを含み得る。一実施形態は、これを達成するために、通信ソケット及びダブルバッファリング技術を使用する。
下記は、種々の例示的な実施形態及び本明細書に記載されている技術の実施を記載している。しかしながら、記載されている特定の実施形態及び技術は、本発明を任意の特定の形態、機能、または外観に限定するものではないことに留意すべきである。
図4は、基準ゲノムから階層的転置索引表を構築するための例示的なアルゴリズムを示している。「転置索引表」という用語は、コンピュータサイエンスにおける技術用語であり、データセットにおけるこのコンテンツの場所に対するデータ(例えば、数または単語)等のコンテンツからのマッピングを含むエントリを保存する索引データ構造を指す。「転置索引」の1つの日常の例は、各々が、このそれぞれの単語または語句を発見することができる書籍内の場所を受けて、書籍内に現れる単語または語句のリスト化を含む書籍の索引である。利便性のために、「索引表」という用語は、「転置索引表」としてのコンピュータ文書において知られているものを指すために本明細書で使用されている。「階層的転置索引表」という用語において使用されている「階層的」という用語は、下にさらに説明されるように、階層的方法で種々のレベルを有する索引表のエントリを指す。
図5は、第1のレベルの階層的索引表が基準データから構築され得る例示的なプロセスを示すフローチャートである。
図6は、第2のレベルの階層的索引表を構築し得る例示的なプロセスのフローチャートである。
これより、我々は、階層的索引表を使用してSRに対する候補選択を実行するための例示的なアルゴリズムを詳述する。最初に、基準ゲノムとの比較のために、SRの長さKの足跡Fを選択し得る。いくつかの実施形態において、長さKは、長さK内の不適合またはインデルの可能性が所定の閾値未満であるように選択され得る。いくつかの実施形態において、長さKは、L、すなわち、l1での第1のエントリであるように選択され得る。
徐々に増加するKの例示的な実施形態は、図2のSRに適用された例示的な検索アルゴリズムを示す図7に図示されている。図7において、初期の長さKは、「初期の」ものとして指定され、アルゴリズムは、索引表内のamt_loc表0内の第1のエントリを対象としている。amt_loc表0内の「f」フィールドは、ストップ指令が、そのエントリに関連付けられている(S)か、または関連付けられていない(/)かどうかを記載している。第1のエントリは、索引表内の端末エントリではなく、長さKは、「1stext」の量で徐々に増加し、アルゴリズムは、amt_loc表1内の新規の対応するエントリを対象としていることが分かる。ここで、新規の対応するエントリが同様に端末エントリではなく、長さKは、その後、「2ndext」の量で再び増加し、アルゴリズムは、amt_loc表2内の別の対応するエントリを対象としていることが、再び分かる。ここで、対応するエントリは、端末エントリであり、その結果、アルゴリズムは、bas_loc表2内の特定の行を対象としており、延長された列Fに適合するゲノム内の場所(図7のppp)は、延長された列Fに対応するbas_loc表2内の第1のエントリから始まり、読み出されることが分かる。
図8は、階層的索引表を使用して、検索配列を基準データに適合させる例示的なプロセスを示すフローチャートである。
いったん候補場所のセットが特定のSRに対して選択されると、候補評価プロセスは、SRの全体を基準ゲノムと比較するために実施され得る。候補評価プロセスにおいて、不適合(塩基が基準ゲノム内とは異なる)が許容され得、実際、生物学的に極めて興味深いものになる。一般に、有効なアラインメントとは、整列位置でのSRと基準ゲノムとの間の不適合の数が許容可能な限界内にあるもの、すなわち、不適合の数がゼロより大きいが、ある所定の閾値未満であり得るものである。この事例において、アラインメント内の不適合の特徴付け及び場所は、演算の重要な出力であり得る。
第1のステップとして、SRが、候補選択を通して特定されたゲノム内の場所に関するインデルを含む可能性があるかどうかが判定され得る。このステップは、Fが、SRの始め、中間、または端から選択されたかどうかに応じて異なるように進むだろう。FがSRの始めから選択された事例において、SRの最後の位置から第1の位置までの、SRと基準ゲノムとの間の不適合の数の累計を記録し得る。インデルがSR内に存在する場合、インデルの場所よりSRの始めからさらに遠くに配置された塩基対は、平均時間の3/4の基準ゲノムとの不適合を含み得る(4つの塩基対があり、オフセットは、25%の機会でランダムにそれらを適合させるため)。SRの端から始まり、塩基対当たりの不適合の数の移動平均が記録され得る。移動平均が、所定の数のその後の塩基対に対する3/4の所定の閾値内にある場合、インデルが存在する可能性があると判定し得る。DNA配列は、ランダムな配列の塩基対を含んでおらず、他の実施形態は、3/4以外の平均不適合の割合を使用し得ることが理解される。例えば、割合は、経験的に、またはDNA配列の統計的考察から、判定され得る。
本発明の技術の一実施形態は、インデルの候補位置の評価に対する4つのステップアプローチを使用する。
このステップにおいて、S塩基の検出器のサイズを使用して、SRのLo端及びHi端を確認し得る。SR候補アラインメント位置でのSRのLo端S塩基と基準ゲノムのLo端S塩基との間の不適合の数がカウントされ得、これらは、Lo端不適合である。同様に、SR候補アラインメント位置でのSRのHi端S塩基と基準ゲノムのHi端S塩基との間の不適合の数がカウントされ得、これらは、Hi端不適合である。Sは、可変型パラメータであり、一実施形態は、24個の塩基を使用することに留意されたい。
インデルが疑われる場合、次に、ステップは、インデルの長さ及び種類(挿入または欠失)の両方を判定し得る。ユーザは、検索するための最小インデル長さ(IDIST)を提供し得る。一実施形態は、インデルが疑われる場所に応じて、SRのLo端部またはHi端部(アンカ端に対向する)のいずれかを使用して、一連の不適合カウントを実行する。カウントは、B塩基を使用し得、かつD=[−IDIST..+IDIST]により候補位置を変更し得る。Bは、可変型パラメータであり、一実施形態は、8の値を使用することに留意されたい。最小数の不適合を生じ得るオフセット値Dを記録し得る。一実施形態において:
このステップにおいて、2つの移動誤差合計を演算し得る。第1の累計は、候補位置でのSRと基準ゲノムとの間にあり得、第2の累計は、(候補+D)位置でのSRと基準ゲノムとの間にあり得、Dは、挿入事例に対して負数であり得ることに留意されたい。
最終ステップは、インデルの開始を設置することである。これは、種類に基づいた調節を使用して、2つのカウントアレイの合計の最小値を発見することにより、実行され得る。
より典型的な100個の塩基SRの代わりに、24個の塩基SRが使用されているため、検出器のサイズ及び閾値は、これらの例示のために、S=6、U=1、M=2に調節されることに留意されたい:
Lo端アンカが判定されたため、Hi端塩基を使用して、インデルの種類及び長さを判定し得る。この例に対して、B=8及びIDIST=4であることに留意されたい:
上に述べられている欠失事例を使用して:
上に記載されているように、欠失が検索されているため、本方法は、索引に対する合計[i][1..塩基長さ]を演算し得る。
図9は、インデルを特徴付け及び配置するための例示的な方法を示すフローチャートである。図9の方法は、図8に示されている方法の結論で見られる各適合上で実行され得る。
Claims (23)
- 検索配列を基準データに適合させるための方法であって、
演算装置により、
a)基準データをメモリ内に保存することと、
b)前記基準データに基づいて階層的索引表を作成することであって、前記作成することが、前記階層的索引表内の複数のレベルで複数のエントリを作成することを含み、
前記複数のレベルは第1のレベルを含み、第1のレベルのエントリは、第1の長さを有する前記基準データの複数の副配列のそれぞれのために作成され、
それぞれのレベルnのエントリに対して、nは少なくとも1つがゼロでない正の整数であり、前記作成は、閾値より大きい前記それぞれのレベルnのエントリの適合基準に応答して、前記階層的索引表内の前記それぞれのレベルnのエントリに対するn+1レベルのエントリを作成することを含み、
前記階層的索引表内にn+1レベルのエントリを作成することは、前記n+1レベルに対応する長さを有する前記基準データの複数の副配列のそれぞれに対するn+1レベルのエントリを作成することを含み、
c)検索配列を特定する入力を受信することと、
d)前記基準データへの前記検索配列の1つまたは複数の適合について前記階層的索引表を検索することとを含み、
前記階層的索引表の前記検索は、前記階層的索引表のその後のレベルで前記検索配列の小区分の適合を反復的に検索することを含む、
方法。 - 前記第1の長さを有する前記基準データの前記複数の副配列、および前記n+1レベルに対応する長さを有する前記基準データの前記複数の副配列は、それぞれの長さの副配列の網羅的なセットをそれぞれ含む、請求項1に記載の方法。
- 前記階層的索引表の任意のそれぞれのレベルでそれぞれのエントリを前記作成することが、
前記基準データ内の前記それぞれのエントリに対応する前記それぞれの長さの前記副配列の適合について検索することと、
前記階層的索引表のそれぞれのレベル内の前記それぞれのエントリに情報を保存することであって、前記情報が、前記基準データ内での前記基準データ内のそれぞれの長さの前記副配列の適合の数を特定し、前記情報が、前記基準データ内での前記適合の各々の場所をさらに特定し、保存することと、
により実行される、請求項2に記載の方法。 - n+1レベルに対して、前記n+1レベルのそれぞれの前記副配列の適合について前記検索することが、nレベルにおける前記対応するエントリに関連付けられた場所で実行される、請求項3に記載の方法。
- 各エントリに関連付けられた前記適合の数を示すデータが、第1のデータ構造内に保存され、各エントリに関連付けられた前記適合の各々の前記場所が、第2のデータ構造内に保存され、前記第1及び第2のデータ構造が、前記階層的索引表内に各々含まれる、請求項3に記載の方法。
- 各それぞれのnレベルのエントリに対して、前記それぞれのnレベルのエントリに対応するn+1レベルのエントリを参照するメモリ内にポインタを保存することをさらに含む、請求項1に記載の方法。
- 前記基準データが、基準ゲノムを含み、前記基準データを検索することが、短い読み出し(SR)を前記基準ゲノムと整列させることを含む、請求項1に記載の方法。
- 短い読み出しを基準ゲノムと整列させるためのプログラム命令を含むコンピュータ読み取り可能な記憶媒体であって、前記プログラム命令が、
a)前記基準ゲノムをメモリ内に保存することと、
b)前記基準ゲノムに基づいて階層的索引表を作成することであって、前記作成することが、前記階層的索引表において複数のレベルのそれぞれで複数のエントリを作成することを含み、前記複数のレベルは第1のレベルを含み、第1のレベルのエントリは、第1の長さを有する前記基準ゲノムの複数の副配列のそれぞれのために作成され、各それぞれのエントリが、前記それぞれのエントリに関連付けられた塩基対の配列の前記基準ゲノム内の場所に関連する情報を含み、各それぞれのレベルnのエントリについて、少なくとも1つのゼロでない正の整数nに対して、前記作成することは、閾値より大きい前記それぞれのレベルnのエントリの適合基準に応答して、前記階層的索引表内のそれぞれのレベルnのエントリに対するn+1レベルのエントリを作成することを含む、作成することと、
前記階層的索引表内にn+1レベルのエントリを作成することは、前記n+1レベルに対応する長さを有する前記基準ゲノムの複数の副配列のそれぞれのためにn+1レベルのエントリを作成することを含み、
c)短い読み出しを特定する入力を受信することと、
d)前記基準ゲノムへの前記短い読み出しの1つまたは複数の適合に対して前記階層的索引表を検索することであって、前記階層的索引表の前記検索は、前記階層的索引表のその後のレベルで前記短い読み出しの小区分の適合を反復的に検索することを含む、検索することと、
を行うように実行可能である、コンピュータ読み取り可能な記憶媒体。 - 前記第1の長さを有する前記基準ゲノムの前記複数の副配列、および前記n+1レベルに対応する長さを有する前記基準ゲノムの前記複数の副配列は、それぞれの長さの副配列の網羅的なセットをそれぞれ含む、請求項8に記載の記憶媒体。
- 前記階層的索引表の任意のそれぞれのレベル内のそれぞれのエントリを前記作成することが、
前記基準ゲノム内の前記それぞれのエントリに対応するそれぞれの長さのそれぞれの前記副配列の適合について検索することと、
前記階層的索引表のそれぞれのレベルの前記それぞれのエントリ内の情報を保存することであって、前記情報が、前記基準ゲノム内のそれぞれの長さのそれぞれの前記副配列の適合の数を特定し、前記情報が、前記基準ゲノムでの前記適合の各々の前記場所をさらに特定する、保存することと、により実行される、請求項8に記載の記憶媒体。 - n+1レベルに対して、前記n+1レベルのそれぞれの前記副配列の適合について前記検索することが、nレベル内の前記対応するエントリに関連付けられた場所で実行される、請求項10に記載の記憶媒体。
- 各エントリに関連付けられた前記適合の数を示すデータが、第1のデータ構造内に保存され、各エントリに関連付けられた前記適合の各々の前記場所が、第2のデータ構造内に保存され、前記第1及び第2のデータ構造が、前記階層的索引表内に各々含まれる、請求項10に記載の記憶媒体。
- それぞれのnレベルのエントリに対して、前記それぞれのnレベルのエントリに対応するn+1レベルのエントリを参照するメモリ内にポインタを保存することをさらに含む、請求項8に記載の記憶媒体。
- 検索配列を基準データに適合させるための方法であって、
演算装置により、
a)基準データをメモリ内に保存することと、
b)前記基準データに基づいて階層的索引表を作成することであって、
第1の長さを有する前記基準データのそれぞれの副配列の各網羅的なセットに対して、
i)前記基準データ内の前記第1の長さの前記それぞれの副配列の適合について検索すること、ならびに
前記階層的索引表の第1のレベルにおけるそれぞれのエントリ内の情報を保存することであって、前記情報が、前記基準データ内の前記第1の長さの前記それぞれの副配列の適合の数を特定し、前記情報が、前記基準データ内での前記適合の各々の場所をさらに特定する、保存すること、により、前記階層的索引表の第1のレベル内のそれぞれのエントリを作成すること、
ii)それぞれの前記第1のレベル内のエントリ内の前記適合の数を第1の閾値と比較すること、ならびに
iii)前記第1の閾値より大きい適合の数を有する前記第1のレベル内の各それぞれのエントリに対して、第2の長さを有する副配列の第2のセットに対する前記階層的索引表の第2のレベル内のそれぞれのエントリを前記作成することを実行することであって、前記第1のレベル内の各それぞれのエントリが、前記第2のレベル内のその対応するエントリに関連付けられ、副配列の前記第2のセットが、前記第2の長さを有する前記基準データの副配列の各網羅的なセットを含み、前記第2の長さを有する前記それぞれの副配列の適合について前記検索することが、前記第1のレベル内の前記対応するエントリに関連付けられた場所で実行される、実行すること、を含む、作成することと、
c)検索配列を特定する入力を受信することと、
d)前記基準データへの前記検索配列の小区分の1つまたは複数の適合について前記階層的索引表を検索することであって、前記階層的索引表の前記検索は、前記階層的索引表のその後のレベルで前記検索配列の小区分の適合を反復的に検索することを含む、検索することと、を実行することを含む、検索配列を基準データに適合させるための方法。 - 前記基準データ及び各副配列が、数字的にコード化される、請求項14に記載の方法。
- 前記階層的索引表の第2のレベル内のそれぞれのエントリを前記比較すること及び前記作成することが、第2の反復を含み、前記方法が、
前記階層的索引表の1つ以上のそれぞれの追加の閾値、長さ、副配列のセット、及びレベルを使用して、1つ以上の追加の反復を実行することをさらに含む、請求項14に記載の方法。 - 前記基準データが、基準ゲノムを含み、前記基準データを検索することが、短い読み出し(SR)を前記基準ゲノムと整列させることを含む、請求項14に記載の方法。
- 各エントリに関連付けられた前記場所の数を示すデータが、第1のデータ構造内に保存され、各エントリに関連付けられた前記基準データ内の前記場所を示すデータが、第2のデータ構造内に保存され、前記第1及び第2のデータ構造が、前記階層的索引表内に各々含まれる、請求項14に記載の方法。
- 前記第2のレベル内の前記対応するエントリの前記第1のレベル内の前記それぞれのエントリとの前記関連付けが、前記第1のレベル内の前記それぞれのエントリ内に含まれる情報を含み、前記情報が、
前記第2のレベル内の前記対応するエントリを指摘するリンク情報と、前記第2の長さとを含む、請求項14に記載の方法。 - 前記第2の反復の各々が、
それぞれの前記閾値より大きくない適合の数を有すると発見された各それぞれの副配列に対して、
前記それぞれの副配列に関連付けられた前記エントリ内のストップ命令を保存することであって、前記ストップ命令が、前記ストップ命令に関連付けられた前記副配列に基づいてさらなるエントリの前記作成を防止するために、前記方法により使用可能である、保存すること、をさらに含む、請求項16に記載の方法。 - 前記検索配列に関連付けられた前記階層的索引表内の第1のエントリが、前記階層的索引表の端末エントリではないとの判定に基づいて、前記検索配列の前記小区分の長さを増加することと、
前記第1のエントリが、前記階層的索引表の端末エントリではないとの判定に基づいて、増加された長さの前記検索配列の前記小区分に適合する前記階層的索引表内の第2のエントリを調べることと、をさらに含む、請求項14に記載の方法。 - 前記基準データを検索する間に発見された各適合を評価することであって、
各適合に対して、前記検索配列と前記基準データとの間の塩基誤差の特定に基づいて、検索配列と前記基準データとの間の不適合を判定すること、を含む、評価すること、をさらに含む、請求項14に記載の方法。 - 前記評価することが、
前記検索配列内の少なくとも1つのインデルを判定することであって、
前記検索配列のLo端及びHi端不適合の数に基づいて、前記検索配列内のアンカ位置を判定することと、
前記アンカ位置を使用して、前記少なくとも1つのインデルの長さ及び種類を判定することと、
前記少なくとも1つのインデルの開始位置を判定することであって、
前記適合の場所で前記検索配列と前記基準データとの間の第1の移動誤差合計を演算すること、
前記適合の場所からのオフセットで前記検索配列と前記基準データとの間の第2の移動誤差合計を演算することであって、前記オフセットが、前記少なくとも1つのインデルの前記種類及び長さに基づいている、演算すること、ならびに
前記第1及び第2の移動誤差合計の最小値に基づいて、前記少なくとも1つのインデルの開始場所を判定すること、を含む、判定することと、をさらに含む、請求項22に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562244541P | 2015-10-21 | 2015-10-21 | |
US62/244,541 | 2015-10-21 | ||
PCT/US2016/058183 WO2017070514A1 (en) | 2015-10-21 | 2016-10-21 | Dna alignment using a hierarchical inverted index table |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2018535484A JP2018535484A (ja) | 2018-11-29 |
JP2018535484A5 JP2018535484A5 (ja) | 2019-09-05 |
JP6884143B2 true JP6884143B2 (ja) | 2021-06-09 |
Family
ID=58557902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018520481A Active JP6884143B2 (ja) | 2015-10-21 | 2016-10-21 | 階層的転置索引表を使用したdnaアラインメント |
Country Status (7)
Country | Link |
---|---|
US (2) | US11594301B2 (ja) |
EP (1) | EP3365821B1 (ja) |
JP (1) | JP6884143B2 (ja) |
KR (1) | KR20180072684A (ja) |
CN (2) | CN114783523A (ja) |
BR (1) | BR112018007092B1 (ja) |
WO (1) | WO2017070514A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8705623B2 (en) * | 2009-10-02 | 2014-04-22 | Texas Instruments Incorporated | Line-based compression for digital image data |
CN112948446A (zh) * | 2019-11-26 | 2021-06-11 | 北京京东振世信息技术有限公司 | 一种匹配产品单据的方法和装置 |
CN111402959A (zh) * | 2020-03-13 | 2020-07-10 | 苏州浪潮智能科技有限公司 | 一种序列比对的方法、系统、设备及可读存储介质 |
IL281960A (en) * | 2021-04-01 | 2022-10-01 | Zimmerman Israel | A system and method for rapid statistical discovery of patterns |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08272824A (ja) * | 1995-03-31 | 1996-10-18 | Hitachi Software Eng Co Ltd | 遺伝子配列データ自動検索方法 |
US20040153255A1 (en) * | 2003-02-03 | 2004-08-05 | Ahn Tae-Jin | Apparatus and method for encoding DNA sequence, and computer readable medium |
WO2005096208A1 (ja) * | 2004-03-31 | 2005-10-13 | Bio-Think Tank Co., Ltd. | 塩基配列検索装置及び塩基配列検索方法 |
US7702640B1 (en) * | 2005-12-29 | 2010-04-20 | Amazon Technologies, Inc. | Stratified unbalanced trees for indexing of data items within a computer system |
WO2007137225A2 (en) * | 2006-05-19 | 2007-11-29 | The University Of Chicago | Method for indexing nucleic acid sequences for computer based searching |
US8271206B2 (en) * | 2008-04-21 | 2012-09-18 | Softgenetics Llc | DNA sequence assembly methods of short reads |
WO2010104608A2 (en) * | 2009-03-13 | 2010-09-16 | Life Technologies Corporation | Computer implemented method for indexing reference genome |
CN101984445B (zh) * | 2010-03-04 | 2012-03-14 | 深圳华大基因科技有限公司 | 一种基于聚合酶链式反应产物测序序列分型的实现方法和系统 |
US20140163900A1 (en) * | 2012-06-02 | 2014-06-12 | Whitehead Institute For Biomedical Research | Analyzing short tandem repeats from high throughput sequencing data for genetic applications |
US10381106B2 (en) * | 2013-01-28 | 2019-08-13 | Hasso-Plattner-Institut Fuer Softwaresystemtechnik Gmbh | Efficient genomic read alignment in an in-memory database |
WO2014145503A2 (en) * | 2013-03-15 | 2014-09-18 | Lieber Institute For Brain Development | Sequence alignment using divide and conquer maximum oligonucleotide mapping (dcmom), apparatus, system and method related thereto |
NL2011817C2 (en) | 2013-11-19 | 2015-05-26 | Genalice B V | A method of generating a reference index data structure and method for finding a position of a data pattern in a reference data structure. |
US9886561B2 (en) * | 2014-02-19 | 2018-02-06 | The Regents Of The University Of California | Efficient encoding and storage and retrieval of genomic data |
NL2013120B1 (en) * | 2014-07-03 | 2016-09-20 | Genalice B V | A method for finding associated positions of bases of a read on a reference genome. |
-
2016
- 2016-10-21 CN CN202210452629.4A patent/CN114783523A/zh active Pending
- 2016-10-21 CN CN201680061446.2A patent/CN108140071B/zh active Active
- 2016-10-21 WO PCT/US2016/058183 patent/WO2017070514A1/en active Application Filing
- 2016-10-21 KR KR1020187010414A patent/KR20180072684A/ko unknown
- 2016-10-21 EP EP16858323.5A patent/EP3365821B1/en active Active
- 2016-10-21 US US15/331,239 patent/US11594301B2/en active Active
- 2016-10-21 JP JP2018520481A patent/JP6884143B2/ja active Active
- 2016-10-21 BR BR112018007092-0A patent/BR112018007092B1/pt active IP Right Grant
-
2023
- 2023-02-24 US US18/114,065 patent/US20240203527A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
BR112018007092B1 (pt) | 2024-02-20 |
CN108140071A (zh) | 2018-06-08 |
CN114783523A (zh) | 2022-07-22 |
KR20180072684A (ko) | 2018-06-29 |
WO2017070514A1 (en) | 2017-04-27 |
US11594301B2 (en) | 2023-02-28 |
US20240203527A1 (en) | 2024-06-20 |
BR112018007092A2 (pt) | 2018-10-23 |
EP3365821A4 (en) | 2019-06-26 |
US20170116370A1 (en) | 2017-04-27 |
EP3365821B1 (en) | 2022-06-29 |
JP2018535484A (ja) | 2018-11-29 |
CN108140071B (zh) | 2022-04-29 |
EP3365821A1 (en) | 2018-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210313014A1 (en) | Bioinformatics Systems, Apparatuses, and Methods Executed on an Integrated Circuit Processing Platform | |
US9014989B2 (en) | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform | |
US20240203527A1 (en) | DNA Alignment using a Hierarchical Inverted Index Table | |
WO2016141077A1 (en) | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform | |
WO2020124275A1 (en) | Method, system, and computing device for optimizing computing operations of gene sequencing system | |
Huo et al. | CS2A: A compressed suffix array-based method for short read alignment | |
US20210202038A1 (en) | Memory Allocation to Optimize Computer Operations of Seeding for Burrows Wheeler Alignment | |
US20210217492A1 (en) | Merging Alignment and Sorting to Optimize Computer Operations for Gene Sequencing Pipeline | |
Yang et al. | An FM-Index Based High-Throughput Memory-Efficient FPGA Accelerator for Paired-End Short-Read Mapping | |
WO2020182173A1 (en) | Method and system for merging duplicate merging marking to optimize computer operations of gene sequencing system | |
Mun | Using Pan-Genomic Data Structures to Incoporate Diversity Into Genomic Analyses | |
McVicar | FPGA Accelerated Bioinformatics: Alignment, Classification, Homology and Counting | |
Ekim | Scalable sketching and indexing algorithms for large biological datasets | |
Kallenborn | High-performance processing of next-generation sequencing data on CUDA-enabled GPUs | |
Mohamadi | Parallel algorithms and software tools for high-throughput sequencing data | |
Huang | Computational Methods Using Large-Scale Population Whole-Genome Sequencing Data | |
Lim | A large-scale computational framework for comparative analyses in population genetics and metagenomics | |
Shivanna | A fast implementation for correcting errors in high throughput sequencing data | |
Köster | Parallelization, scalability, and reproducibility in next generation sequencing analysis | |
Zhao | Genomic variation detection using dynamic programming methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190725 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190725 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210420 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210511 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6884143 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |