JP5781486B2 - シードの長さを考慮した塩基配列処理システム及び方法 - Google Patents

シードの長さを考慮した塩基配列処理システム及び方法 Download PDF

Info

Publication number
JP5781486B2
JP5781486B2 JP2012227078A JP2012227078A JP5781486B2 JP 5781486 B2 JP5781486 B2 JP 5781486B2 JP 2012227078 A JP2012227078 A JP 2012227078A JP 2012227078 A JP2012227078 A JP 2012227078A JP 5781486 B2 JP5781486 B2 JP 5781486B2
Authority
JP
Japan
Prior art keywords
base sequence
seed
target base
length
seeds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012227078A
Other languages
English (en)
Other versions
JP2013183737A (ja
Inventor
パク、ミン‐ソ
Original Assignee
サムソン エスディーエス カンパニー リミテッド
サムソン エスディーエス カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by サムソン エスディーエス カンパニー リミテッド, サムソン エスディーエス カンパニー リミテッド filed Critical サムソン エスディーエス カンパニー リミテッド
Publication of JP2013183737A publication Critical patent/JP2013183737A/ja
Application granted granted Critical
Publication of JP5781486B2 publication Critical patent/JP5781486B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Organic Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Mathematical Physics (AREA)
  • Microbiology (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Immunology (AREA)
  • Computational Mathematics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Biochemistry (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Breeding Of Plants And Reproduction By Means Of Culturing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ゲノムの塩基配列を分析するための技術に関する。
次世代シークエンシング技術(NGS:next−generation sequencing)の出現とDNAシークエンシング(sequencing:塩基配列解読)の費用減少により遺伝医学(medical genetics)と集団遺伝学(population genetics)研究のために大規模でヒトゲノムの塩基配列を生産することが可能になった。塩基配列の分析のために使われるNGSシーケンサーは、長さは非常に短いが数十億個の断片配列(リード:read)を生産することができる。各個人のゲノム配列は、生産されたリードが対象塩基配列のどの所に位置するかを決定するリシークエンシング(Resequencing:Indexing、Mapping and Alignment)作業を通じて作られる。
初期のゲノム分析システムは、主に分析の正確度を目的として開発された。しかし、最近には、次世代シークエンシング技術が一般化されることに従って、分析の基礎になるリード(断片配列)を作り上げる費用が以前に比べて大幅に減少して分析時に使用可能なデータの量が増加した。これによって、大容量のリードを迅速で且つ正確に処理するための技術が必要になった。
したがって、本発明は上述したような従来技術の問題点を解決するためになされたもので、その目的は、ゲノム塩基配列分析において分析速度及び正確性を向上させるための塩基配列処理システム及び方法を提供することにある。
本発明の一実施例による塩基配列処理システムは、対象塩基配列からシード(seed)を抽出するシード抽出部、及び前記シード抽出部で抽出される前記シードをインデキシングするインデックス生成部を含み、抽出される前記シードの長さは、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度を考慮して決まるように構成される。
また、本発明の一実施例による装置は、一つ以上のプロセッサと、メモリーと、一つ以上のプログラムと、を含む装置として、前記一つ以上のプログラムは、前記メモリーに保存されて前記一つ以上のプロセッサにより実行されるように構成され、前記プログラムは、対象塩基配列からシード(seed)を抽出する過程と、抽出された前記シードをインデキシングする過程と、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度を考慮して前記シードの長さを決定する過程と、を含む。
また、本発明の一実施例による塩基配列処理方法は、塩基配列処理システムで、前記対象塩基配列からシード(seed)を抽出する段階、及び前記塩基配列処理システムで、抽出された前記シードをインデキシングする段階を含み、前記シードの長さは、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度を考慮して決まるように構成される。
また、本発明の一実施例による塩基配列処理方法は、塩基配列処理システムで、前記対象塩基配列からシード(seed)を抽出する段階を含み、前記シードの長さは、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度を考慮して設定するように構成される。
本発明は、塩基配列の処理時に抽出されるシードの長さを適切に調節することで、ゲノム塩基配列の分析速度及び正確性を向上させることができる長所がある。
塩基配列からシードを抽出する過程を例示した図。 ゲノム塩基配列(genome sequencing)の分析過程を説明するためのフローチャート。 ゲノム塩基配列の分析においてリードのマッピング過程を説明するための図。 本発明の一実施例による塩基配列処理システムのブロック構成図。 シード長さによるヒトゲノム内でのシードの平均登場頻度を示したグラフ。 本発明の一実施例による塩基配列処理方法を示したフローチャート。
以下、図面を参照して本発明の具体的な実施形態について説明する。しかし、これは例示に過ぎず、本発明はこれに限定されない。
本発明の説明において、本発明と関連された公知技術に対する具体的な説明が本発明の要旨を不必要に曖昧にすると判断される場合には、その詳細な説明を省略する。また、後述される用語は、本発明における機能を考慮して定義された用語として、これは使用者、運用者の意図または慣例などによって変わることができる。したがって、その定義は本明細書の全般的な内容を土台で行われる。
本発明の技術的思想は請求範囲により決定され、以下の実施例は、本発明の技術的思想を本発明が属する技術分野において通常の知識を有した者に効果的に説明するための一つの手段である。
本発明の実施例を詳しく説明する前に、本発明で使われる用語に対して説明すれば、次のようである。
まず、『リード(read)』とは、ゲノムシーケンサー(genome sequencer)から出力される塩基配列の断片(fragment)である。リードの長さは、ゲノムシーケンサーの種類によって多様に構成され、例えば、35〜500bp(base pair)程度の長さを有することができる。一般的に、DNA塩基の場合、A、C、G、Tのアルファベット文字で表現される。
『対象塩基配列』とは、前記リードから全体塩基配列を生成するにおいて参照になる塩基配列を意味する。すなわち、塩基配列分析では、ゲノムシーケンサーから出力される多量のリードを、対象塩基配列を参照してマッピングすることで全体塩基配列を完成する。本発明において前記対象塩基配列は、塩基配列の分析時に予め設定された配列(例えば、人間の全体塩基配列など)であってもよいし、または、ゲノムシーケンサーで作られた塩基配列を対象塩基配列で使用してもよい。
『ベース(base)』は、対象塩基配列及びリードを構成する最小単位である。上述のように、DNA塩基の場合、A、C、G及びTの4種類のアルファベット文字で構成され、これら各々をベースと表現する。言い換えれば、DNA塩基の場合、4個のベースで表現され、これはリードも同様である。但し、対象塩基配列の場合、多様な理由(シークエンシングエラー、サンプルのエラーなど)により特定位置の塩基をA、C、GまたはTの中でどのベースで表現するか不明な場合が発生することができ、通常的に、このような不明なベースの場合、Nなどの別途の文字で表記する。
『シード(seed)』は、リードのマッピングのためにリードと対象塩基配列を比較する時の単位になるシーケンスである。理論的にリードを対象塩基配列にマッピングするためには、リード全体を対象塩基配列の一番目の部分から順次に比べて行きながらリードのマッピング位置を計算する。しかし、このような方法の場合、一つのリードをマッピングするためにとても長い時間及び多量のコンピュータパワーが要求されるので、実際では、対象塩基配列のはじめから一ベースずつ移動しながら対象塩基配列を設定された長さほど読み込んだ後、これをハッシング(hashing)してハッシュテーブル(hash table)を構築し、これを利用してリードのマッピング位置を計算する。この時、前記ハッシングのための対象塩基配列の断片がシードになる。但し、場合によってリードの断片がシードになってもよい。シードの長さは、リードの長さより短く構成することができ、これは対象塩基配列の長さ、構築されるハッシュテーブルの容量などを考慮して適切に決定することができる。
図1は、対象塩基配列からシードを抽出する過程を例示した図で、対象塩基配列の初部分から一ベースずつ移動しながら10bp長さほど対象塩基配列の値を読み込んでシードを抽出する過程を示している。抽出された各々のシードは、全て同一な長さ(図示された実施例の場合10bp)を有し、その値は、シードが抽出された対象塩基配列の位置によって変わるようになる。図示された実施例において、抽出された一番目のシードは、対象塩基配列の一番目から十番目までの値、すなわち、G T G G C A A T T Aの値を有し、三番目のシードは、対象塩基配列の三番目から十二番目までの値、すなわち、G G C A A T T A A Aの値を有する。
図2は、ゲノム塩基配列(genome sequencing)の分析過程200を例示するためのフローチャートである。ゲノム塩基配列分析は、シーケンサーから出力される大量の短いリードを対象塩基配列にマッピングさせて全体ゲノム配列を得るための過程である。
まず、対象塩基配列からシードを抽出する(ステップS202)。図1に示したように、この段階では、対象塩基配列の初部分から一ベースずつ順次に移動しながら設定された長さほど前記対象塩基配列の値を読み込んで複数個のシードを抽出するように構成することができる。
次に、ステップS202で抽出されたシードを、ハッシュ関数(hash function)を利用してハッシングし、それからハッシュテーブルを構成する(ステップS204)。この時、前記ハッシュテーブルのキー(key)は、シードから生成されたハッシュ値であり、値(value)は該当シードの対象塩基配列での位置情報(例えば、ポインタ)で構成することができる。
次に、シーケンサーから入力された遺伝子に対する複数個のリードを抽出して(ステップS206)、前記ハッシュテーブルを利用して抽出されたリードを対象塩基配列にマッピングする(ステップS208)。
図3は、上述のようなリードの対象塩基配列へのマッピング過程を説明するための図である。まず、ステップS206で抽出されたリードの前部分をシード長さほど読み込んだ後(図示された実施例では、リードの前部分をシードで設定したが、実際にシードはリードのどの部分でも設定することができる。但し、リードの前部分の正確度(quality)が一般的に高いので、主にリードの前部分をシードで使うようになる)、ハッシュテーブルを検索して該当シードに対応する対象塩基配列内の位置情報を抽出する。この場合、シードの長さによって相異であるが、通常的に一つ以上の位置情報が導出される(図面ではL及びLの2個の位置情報が抽出される)。以後、導出された各々の位置でリードの残りの部分を対象塩基配列と対照してリードの正確なマッピング位置を決定する。図示された実施例の場合、2個の候補位置の中で、Lではリードが対象塩基配列に対応(一致)しないが、Lでは対応することで判断されるところ、最終的に、リードは、L位置にマッピングされる。
最後に、前記のような過程を経てマッピングされた各リードを連結することで一つの塩基配列が完成される(ステップS210)。
図4は、本発明の一実施例による塩基配列処理システム400のブロック構成図である。本発明の実施例において、塩基配列処理システム400は、別途のシステムで構成するかまたは塩基配列分析のためのシステム内の一要素で含んでもよい。
図4に示したように、本発明の一実施例による塩基配列処理システム400は、シード抽出部402及びインデックス生成部404を含む。
シード抽出部402は、対象塩基配列からシード(seed)を抽出する。この時、前記対象塩基配列は、例えば、塩基配列分析のための全体塩基配列、すなわち、参照配列(reference sequence)である。しかし、本発明の対象塩基配列は、これに限定されるものではないで、例えば、シーケンサーから抽出されるリード(read)も本発明での対象塩基配列になる。すなわち、本発明で対象塩基配列は、シードを抽出するために基礎になる全ての種類の塩基配列を含む。
シード抽出部402は、前記対象塩基配列の初部分から一ベースずつ順次に移動しながら設定された長さほど前記対象塩基配列の値を読み込んで複数個のシードを抽出するように構成することができる。この時、抽出される前記シードの長さは、前記対象塩基配列から抽出される全体シードの中で同一な配列を有するシードの頻度を考慮して決定される。これに対する詳細な説明は後述する。
インデックス生成部404は、シード抽出部402で抽出される前記シードをインデクシングする。具体的に、インデックス生成部404は、シード抽出部402で抽出されたシードを、ハッシュ関数を利用してハッシング(hashing)し、ハッシングされたシードをキー(key)とするハッシュテーブルを生成することで前記シードをインデキシングするように構成される。
以下、シード抽出部402で抽出されるシードの長さを決定する過程に対して説明する。
塩基配列の分析で生成される塩基配列の正確度を高めるためには、シーケンサーから算出されるリードが対象塩基配列上に均一に分布されなければならない。このためには、シードの重複(同一配列を有するシードの個数)を減らす必要がある。例えば、次のような形態の対象塩基配列を仮定する。
ACTCTGGTGCATACCTCCTGGCTGGACTCTGG
前記対象塩基配列から長さが6であるシードを抽出する場合には、ACTCTG、CTCTGGが各々2回ずつ重複されるが、シードの長さを3とする場合には、その配列がTGCであるシードが5回繰り返される。すなわち、シードの長さが減るほどシードの重複が増えて、これによって、リードのマッピング候補位置も増加するようになる。例えば、シードの長さが3である前記例から抽出されたリードの前部分がTGCで始める場合、該当リードは、総5個の候補位置で比較を実行しなければならないので、それほどマッピング時間が増加してマッピングの正確度が減少するようになる。
シードの長さをS、対象塩基配列を構成するベースの個数をBとする時、シードの長さによって生成可能なシードの個数は、次の数学式のように求めることができる。
[数1]
生成可能なシードの個数=B
前記数学式において、対象塩基配列がA、C、G、Tの4個の塩基で構成された場合、B値は、4になり、不明なベース(N)をさらに含む場合、B値は、5になる。
シードを抽出するための全体対象塩基配列の長さをRとすれば(例えば、ヒト(human)の塩基配列を対象塩基配列にする場合、Rは約3*10)、対象塩基配列の全体で同一な配列を有するシードの個数(重複されるシードの個数)は、平均的に次のように求めることができる。
[数2]
重複されるシードの個数=R/B
表1は、ヒトゲノムでのシード長さ別に重複されるシードの個数の平均を示す。
前記対象塩基配列から抽出されるシードの中で重複されるシードの個数の目標値(または設定値)をkと仮定すれば、kは、次のような数式を満足する。言い換えれば、重複されるシードの個数の平均値は前記目標値以内である。
これを整理すれば、シードの長さは、次の数学式のように表現される。
前記数学式において、k値は、3以下、好ましくは、2または3であることがこのましい。上述のように、k値が小さいほど(すなわち、シードの重複数が少ないほど)リードのマッピング時のマッピング候補位置の個数が少なくなるので、マッピングの速度及び正確度が上昇する。但し、k値によってシードの長さが過度に短くなる場合には、シードと完全に一致しないリードが存在してマッピングが不可能であるか、ハッシュテーブルの容量が大きすぎるようになるなどの問題が発生するので、これを考慮して適切にk値を決める。
一方、前記対象塩基配列がヒト(human)のゲノム配列の場合、前記数学式4による時、シードの長さ(S)は、15以上になるように決まることができる。次の表2は、シード長さによるヒトゲノム内でのシードの平均登場頻度を示すものであり、図5は、これをグラフで示した図である。
前記表から分かるように、シードの長さが14以下の場合には、シード別に頻度が10以上であるが、15の場合には、3以下で減少することが分かる。すなわち、シードの長さを15以上に構成する場合、14以下で構成する場合に比べてシードの重複を大幅に減少させることができる。
また、前記シードの長さは、インデックス生成部404で生成されるインデックスの容量及び塩基配列処理システム100に含まれたメモリー容量を考慮して決まってもよい。前記シードの長さが長くなるほどそれから生成されるハッシュテーブルの容量も増加するようになり、これによって、ハッシュテーブルの容量が塩基配列処理システム100に含まれたメモリー容量を超過する場合が発生できる。したがって、シードの長さを決定するにおいては、このような事項を一緒に考慮することが好ましい。例えば、前記対象塩基配列がヒト(human)のゲノム配列の場合、インデックスの容量及びメモリー容量(例えば単一ノードのメモリー容量)などを考慮した前記シードの長さは、30以下になるように決定することができる。
図6は、本発明の一実施例による対象配列処理方法600を示したフローチャートである。
まず、対象塩基配列からシード(seed)を抽出する(ステップS602)。上述のように、この段階は、対象配列の初部分から一ベースずつ順次に移動しながら設定された長さほど前記対象塩基配列の値を読み込んで複数個のシードを抽出するように構成され、抽出される前記シードの長さは、前記対象塩基配列から抽出される全体シードの中で同一な配列を有するシードの頻度を考慮して決まる。前記シードの長さと関連された事項は、前で詳しく説明したので、ここではその反復説明を省略する。
次に、ステップS602で抽出される前記シードをインデキシングする(ステップS604)。具体的に、この段階は、抽出された前記シードを、ハッシュ関数を利用してハッシング(hashing)し、ハッシングされたシードをキー(key)とするハッシュテーブルを生成することで前記シードをインデキシングする。
一方、本発明の実施例は、本明細書で記述した方法をコンピュータ上で実行するためのプログラムを含むコンピュータ判読が可能な記録媒体を含むことができる。前記コンピュータ判読が可能な記録媒体は、プログラム命令、ローカルデータファイル、ローカルデータ構造などを単独でまたは組み合わせて含むことができる。前記媒体は、本発明のために特別に設計されて構成されたものであるか、コンピュータソフトウェア分野で通常の知識を有した者に公知されて使用可能なものであってもよい。コンピュータ判読が可能な記録媒体の例には、ハードディスク、プロッピィーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、プロッピィーディスクのような磁気−光媒体、及びROM(ReadOnlyMemory)、RAM、フラッシュメモリーなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例には、コンパイラーにより作られる機械語コードだけではなく、インタプリターなどを使用してコンピュータにより実行することができる高級言語コードを含むことができる。
以上、代表的な実施例を通じて本発明に対して詳細に説明したが、本発明が属する技術分野における通常の知識を有する者であれば、上述した実施例に対して本発明の技術的思想を逸脱しない範囲内で、多様な変形が可能である。
したがって、本発明の権利範囲は、説明された実施例に限定されないで、後述する特許請求の範囲だけではなく、この特許請求範囲と均等なものなどにより決まる。
400:塩基配列処理システム
402:シード抽出部
404:インデックス生成部

Claims (17)

  1. 一つ以上のプロセッサと、
    メモリーと、
    一つ以上のプログラムと、を含む装置であって、
    前記一つ以上のプログラムは、前記メモリーに保存されて前記一つ以上のプロセッサにより実行されるように構成され、
    前記プログラムは、
    対象塩基配列からシード(seed)を抽出する過程と、
    抽出された前記シードをインデクシングする過程と、
    前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度を考慮して前記シードの長さを決定する過程と、を含むことを特徴とする装置。
  2. 抽出される前記シードの長さは、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度が設定された値以下になるように決まることを特徴とする請求項1に記載の装置
  3. 前記シードの長さは、次の数学式により決まることを特徴とする請求項1に記載の装置
    (この時、Sは、シードの長さ、Rは、対象塩基配列の長さ、Bは、前記対象塩基配列を構成するベース(base)の個数、kは、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度数設定値)
  4. 前記同一な配列を有するシードの頻度数設定値(k)は、3以下に設定されることを特徴とする請求項3に記載の装置
  5. 前記対象塩基配列がヒト(human)のゲノム配列の場合、前記シードの長さは、15以上になるように決まることを特徴とする請求項1に記載の装置
  6. 前記塩基配列処理システムは、メモリーをさらに含み、前記シードの長さは、前記インデックス生成部で生成されるインデックスの容量及び前記メモリー容量を考慮して決まることを特徴とする請求項1に記載の装置
  7. 前記対象塩基配列がヒト(human)のゲノム配列の場合、前記シードの長さは、30以下になるように決まることを特徴とする請求項1に記載の装置
  8. 請求項1乃至請求項7のいずれか一項に記載の装置を含むことを特徴とするゲノム分析システム。
  9. 塩基配列処理するためのコンピュータで、前記対象塩基配列からシード(seed)を抽出する段階と、
    前記コンピュータで、抽出された前記シードをインデキシングする段階と
    前記コンピュータで、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度を考慮して前記シードの長さを決定する段階と、を含むことを特徴とする塩基配列処理方法。
  10. 前記シードを抽出する段階で抽出される前記シードの長さは、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度が設定された値以下になるように決まることを特徴とする請求項に記載の塩基配列処理方法。
  11. 前記シードの長さは、次の数学式によって決まることを特徴とする請求項に記載の塩基配列処理方法。
    (この時、Sは、シードの長さ、Rは、対象塩基配列の長さ、Bは、前記対象塩基配列を構成するベース(base)の個数、kは、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度数設定値)
  12. 前記同一な配列を有するシードの頻度数設定値(k)は、3以下に設定されることを特徴とする請求項11に記載の塩基配列処理方法。
  13. 前記対象塩基配列がヒト(human)のゲノム配列の場合、前記シードの長さは、15以上にあるように決まることを特徴とする請求項に記載の塩基配列処理方法。
  14. 前記シードの長さは、前記インデックス生成段階で生成されるインデックスの容量及び前記コンピュータに含まれたメモリー容量を考慮して決まることを特徴とする請求項に記載の塩基配列処理方法。
  15. 前記対象塩基配列がヒト(human)のゲノム配列の場合、前記シードの長さは、30以下になるように決まることを特徴とする請求項に記載の塩基配列処理方法。
  16. 塩基配列処理するためのコンピュータで、前記対象塩基配列からシード(seed)を抽出する段階を含み、
    前記コンピュータで、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度を考慮して前記シードの長さを決定する段階と、を含むことを特徴とする塩基配列処理方法。
  17. 前記対象塩基配列がヒト(human)のゲノム配列の場合、前記シードの長さは、15以上になるように決まることを特徴とする請求項16に記載の塩基配列処理方法。
JP2012227078A 2012-03-06 2012-10-12 シードの長さを考慮した塩基配列処理システム及び方法 Expired - Fee Related JP5781486B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2012-0022647 2012-03-06
KR1020120022647A KR101394339B1 (ko) 2012-03-06 2012-03-06 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법

Publications (2)

Publication Number Publication Date
JP2013183737A JP2013183737A (ja) 2013-09-19
JP5781486B2 true JP5781486B2 (ja) 2015-09-24

Family

ID=47520665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012227078A Expired - Fee Related JP5781486B2 (ja) 2012-03-06 2012-10-12 シードの長さを考慮した塩基配列処理システム及び方法

Country Status (5)

Country Link
US (1) US9348968B2 (ja)
EP (1) EP2639724A3 (ja)
JP (1) JP5781486B2 (ja)
KR (1) KR101394339B1 (ja)
CN (1) CN103310128B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL2013120B1 (en) * 2014-07-03 2016-09-20 Genalice B V A method for finding associated positions of bases of a read on a reference genome.
MX2018015412A (es) * 2016-10-07 2019-05-27 Illumina Inc Sistema y metodo para analisis secundario de datos de secuenciamiento de nucleotido.
KR102377810B1 (ko) 2020-03-11 2022-03-23 한국전자통신연구원 유전체 서열 정렬 방법 및 그 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4944009A (en) * 1988-02-25 1990-07-24 Massachusetts Institute Of Technology Pseudo-random sequence generator
CA2331510A1 (en) * 1998-05-12 1999-11-18 Acacia Biosciences, Inc. Quantitative methods, systems and apparatuses for gene expression analysis
AU2001233937A1 (en) * 2000-02-22 2001-09-03 Oxford Biomedica (Uk) Limited Differential expression screening method
WO2011137368A2 (en) * 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences
KR101372947B1 (ko) 2012-02-24 2014-03-13 삼성에스디에스 주식회사 염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법

Also Published As

Publication number Publication date
EP2639724A3 (en) 2014-03-26
US20130238250A1 (en) 2013-09-12
EP2639724A2 (en) 2013-09-18
KR101394339B1 (ko) 2014-05-13
JP2013183737A (ja) 2013-09-19
US9348968B2 (en) 2016-05-24
CN103310128B (zh) 2016-08-24
CN103310128A (zh) 2013-09-18
KR20130101711A (ko) 2013-09-16

Similar Documents

Publication Publication Date Title
Li et al. Fast and accurate long-read alignment with Burrows–Wheeler transform
US10229519B2 (en) Methods for the graphical representation of genomic sequence data
Xin et al. Shifted Hamming distance: a fast and accurate SIMD-friendly filter to accelerate alignment verification in read mapping
US20200058374A1 (en) Systems and methods for adaptive local alignment for graph genomes
Kong Btrim: a fast, lightweight adapter and quality trimming program for next-generation sequencing technologies
US20160259880A1 (en) Systems and methods for genomic pattern analysis
JP5985040B2 (ja) データ解析装置、及びその方法
US11062793B2 (en) Systems and methods for aligning sequences to graph references
JP2013172709A (ja) 塩基配列分析のための参照配列処理システム及び方法
JP5781486B2 (ja) シードの長さを考慮した塩基配列処理システム及び方法
CN112259167A (zh) 基于高通量测序的病原体分析方法、装置和计算机设备
Dutta et al. Parameterized syncmer schemes improve long-read mapping
JP2014089690A (ja) 塩基配列アラインメントシステム及び方法
WO2024188020A1 (zh) 高通量测序数据突变信息的检测方法、装置、设备及介质
US20160098517A1 (en) Apparatus and method for detecting internal tandem duplication
NL2013120B1 (en) A method for finding associated positions of bases of a read on a reference genome.
Zufferey et al. Methods for the analysis of topologically associating domains (TADs)
KR101359764B1 (ko) Dna 서열 분석을 위한 거리합 기반 문자열의 근사주기 계산 방법
KR101482010B1 (ko) 전체 유전체 서열분석을 위한 초고속 범용 검색장치 및 방법
CN110534158A (zh) 一种基因序列比对方法、装置、服务器及介质
EP3418927A1 (en) Method and device for processing dna sequence
KR20140147490A (ko) 염기 서열 정렬 시스템 및 방법
KR101322123B1 (ko) 교환 연산을 포함한 확장편집거리의 계산을 병렬적으로 수행하기 위한 방법
Wang Using PhyloCon to identify conserved regulatory motifs
CA2977766A1 (en) Multi-sample differential variation detection

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141205

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150619

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150715

R150 Certificate of patent or registration of utility model

Ref document number: 5781486

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees