JP2013172709A - 塩基配列分析のための参照配列処理システム及び方法 - Google Patents

塩基配列分析のための参照配列処理システム及び方法 Download PDF

Info

Publication number
JP2013172709A
JP2013172709A JP2012227089A JP2012227089A JP2013172709A JP 2013172709 A JP2013172709 A JP 2013172709A JP 2012227089 A JP2012227089 A JP 2012227089A JP 2012227089 A JP2012227089 A JP 2012227089A JP 2013172709 A JP2013172709 A JP 2013172709A
Authority
JP
Japan
Prior art keywords
seed
reference sequence
base
processing system
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012227089A
Other languages
English (en)
Inventor
Minseo Park
パク、ミン‐ソ
Pan-Gyu Kim
キム、パン‐ギュ
Ho-Sang Jeon
ジョン、ホ‐サン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung SDS Co Ltd
Original Assignee
Samsung SDS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung SDS Co Ltd filed Critical Samsung SDS Co Ltd
Publication of JP2013172709A publication Critical patent/JP2013172709A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

【課題】塩基配列の分析のための参照配列処理システム及び方法を提供する。
【解決手段】参照配列(reference sequence)からシード(seed)を抽出するシード抽出部402と、前記シード抽出部402で抽出された前記シードにリード(read)とマッピングされないベース(base)が存在する否かを判断する判断部404と、前記シードに前記リードとマッピングされないベースが存在しない場合、前記シードをインデックスに追加するインデックス生成部406と、を含む参照配列処理システム400。
【選択図】図4

Description

本発明は、ゲノムの塩基配列を分析するための技術に関する。
次世代シークエンシング技術(NGS:next−generation sequencing)の出現とDNAシークエンシング(sequencing:塩基配列解読)の費用減少により遺伝医学(medical genetics)と集団遺伝学(population genetics)研究のために大規模でヒトゲノムの塩基配列を生産することが可能になった。塩基配列の分析のために使われるNGSシーケンサーは、長さは非常に短いが数十億個の断片配列(リード:read)を生産することができる。各個人のゲノム配列は、生産されたリードが参照配列のどの所に位置するかを決定するリシークエンシング(Resequencing:Indexing、Mapping and Alignment)作業を通じて作られる。
塩基配列の分析時、リードの正確なマッピングのためには参照配列が必ず必要である。しかし、このような参照配列の中で一部は、シークエンシングエラー、実験エラーなどの理由によりA、C、G、Tの中でどんな塩基で表現するか不明な場合があり、この場合、通常的に該当位置をNで表記する。この場合、従来の塩基配列分析システムは、前記のような不明なベースを処理するため、これをA、C、G、Tの中で任意に選択された塩基で仮定するか、または確率的方法論などを利用して不明なベースを処理した。しかし、このような方法の場合、不明なベースの処理ルーチンが付加されることによって、塩基配列の分析速度が非常に遅くなるかまたは塩基配列の分析の正確度が低下される問題点があった。
したがって、本発明は上述したような従来技術の問題点を解決するためになされたもので、その目的は、塩基配列分析の正確度を毀損しないと同時に高速処理が可能な参照配列内の不明なベースの処理技術を提供することにある。
本発明の一実施例による参照配列処理システムは、参照配列(reference sequence)からシード(seed)を抽出するシード抽出部と、前記シード抽出部で抽出された前記シードに不明なベース(base)が存在するか否かを判断する判断部と、前記シードに不明なベースが存在しない場合、前記シードをインデックスに追加するインデックス生成部と、を含む。
また、前記課題を解決するための本発明の一実施例による参照配列処理方法は、参照配列処理システムで、参照配列(reference sequence)からシード(seed)を抽出する段階と、前記参照配列処理システムで、抽出された前記シードに不明なベース(base)が存在するか否かを判断する段階と、前記参照配列処理システムで、前記シードに不明なベースが存在しない場合、前記シードをインデックスに追加する段階と、を含む。
また、前記課題を解決するための本発明の一実施例による装置は、一つ以上のプロセッサ、メモリー、及び一つ以上のプログラムを含む装置として、前記一つ以上のプログラムは、前記メモリーに保存されて前記一つ以上のプロセッサにより実行されるように構成され、前記プログラムは、参照配列(reference sequence)からシード(seed)を抽出する段階と、抽出された前記シードに不明なベース(base)が存在するか否かを判断する段階と、前記シードに不明なベースが存在しない場合、前記シードをインデックスに追加する段階と、を行うための命令語を含む。
本発明によれば、塩基配列の分析時に参照配列で不明なベースを処理するためのアルゴリズムを含む必要がなくなるので、塩基配列の分析過程を単純化すると同時に分析時間を大幅に短縮することができる。
また、ハッシュテーブルの容量が大幅に減少するので、一層少ないメモリーを利用しても塩基配列の分析が可能になる長所がある。
参照配列からシードを抽出する過程を例示した図。 ゲノム塩基配列(genome sequencing)の分析過程を説明するためのフローチャート。 ゲノム塩基配列の分析において、リードと参照配列とのマッピング過程を説明するための図。 本発明の一実施例による参照配列処理システムのブロック構成図。 参照配列とリードとの対比を通じて不明なベースを類推する過程を説明するための図。 本発明の一実施例による参照配列処理方法を示したフローチャート。
以下、図面を参照して本発明の具体的な実施形態について説明する。しかし、これは例示に過ぎず、本発明はこれに限定されない。
本発明の説明において、本発明と関連された公知技術に対する具体的な説明が本発明の要旨を不必要に曖昧にすると判断される場合には、その詳細な説明を省略する。また、後述される用語は、本発明における機能を考慮して定義された用語として、これは使用者、運用者の意図または慣例などによって変わることができる。したがって、その定義は本明細書の全般的な内容を土台で行われる。
本発明の技術的思想は請求範囲により決定され、以下の実施例は、本発明の技術的思想を本発明が属する技術分野において通常の知識を有した者に効果的に説明するための一つの手段である。
本発明の実施例を詳しく説明する前に、本発明で使われる用語に対して説明すれば、次のようである。
まず、『リード(read)』とは、ゲノムシーケンサー(genome sequencer)から出力される塩基配列の断片(fragment)である。リードの長さは、ゲノムシーケンサーの種類によって多様であり、例えば、35〜500bp(base pair)程度の長さを有することができる。一般的に、DNA塩基の場合、A、C、G、Tのアルファベット文字で表現される。
『参照配列(reference sequence)』とは、前記リードから全体塩基配列を生成するにおいて参照になる塩基配列を意味する。すなわち、塩基配列分析では、ゲノムシーケンサーから出力される多量のリードを、参照配列を参照してマッピングすることで全体塩基配列を完成する。
『ベース(base)』は、参照配列及びリードを構成する最小単位である。上述のように、DNA塩基の場合、A、C、G、Tの4種類のアルファベット文字で構成され、これら各々をベースと表現する。言い換えれば、DNA塩基の場合、4個のベースで表現され、これはリードも同様である。但し、参照配列の場合、多様な理由(シークエンシングエラー、サンプルのエラーなど)により特定位置の塩基をA、C、GまたはTの中でどのベースで表現するか不明な場合が発生することができ、通常的に、このような不明なベースの場合、Nなどの別途の文字で表記する。
『シード(seed)』は、リードのマッピングのためにリードと参照配列とを比較する時の単位になるシーケンスである。理論的にリードを参照配列にマッピングするためには、リード全体を参照配列の一番目の部分から順次に比べて行きながらリードのマッピング位置を計算する。しかし、このような方法の場合、一つのリードをマッピングするためにとても長い時間及び多量のコンピュータパワーが要求されるので、実際には、参照配列のはじめから一ベースずつ移動しながら参照配列を設定された長さほど読み込んだ後、これをハッシング(hashing)してハッシュテーブル(hash table)を構築し、これを利用してリードのマッピング位置を計算する。この時、前記ハッシシングのための参照配列の断片がシードになる。シードの長さは、リードの長さより短く構成することができ、これは参照配列の長さ、構築されるハッシュテーブルの容量などを考慮して適切に決定することができる。
図1は、参照配列からシードを抽出する過程を例示した図で、参照配列の初部分から一ベースずつ移動しながら10bp長さほど参照配列の値を読み込んでシードを抽出する過程を示している。抽出された各々のシードは、全て同一な長さ(図示された実施例の場合10bp)を有し、その値は、シードが抽出された参照配列の位置によって変わるようになる。図示された実施例において、抽出された一番目のシードは、参照配列の一番目から十番目までの値、すなわち、G T G G C A A T T A の値を有し、三番目のシードは、参照配列の三番目から十二番目までの値、すなわち、G G C A A T T A A Aの値を有する。
図2は、ゲノム塩基配列(genome sequencing)の分析過程200を説明するためのフローチャートである。基本的に、ゲノム塩基配列の分析は、シーケンサーから出力される大量の短いリードを参照配列にマッピングさせて全体ゲノム配列を得るための過程である。
まず、参照配列からシードを抽出する(ステップS202)。図1に示したように、この段階では、参照配列の初部分から一ベースずつ順次に移動しながら設定された長さほど前記参照配列の値を読み込んで複数個のシードを抽出する。
次に、ステップS202で抽出されたシードを、ハッシュ関数(hash function)を利用してハッシングし、それからハッシュテーブルを構成する(ステップS204)。この時、前記ハッシュテーブルのキー(key)は、シードから生成されたハッシュ値であり、値(value)は該当シードの参照配列での位置情報(例えば、ポインタ)で構成することができる。
次に、シーケンサーから入力された遺伝子に対する複数個のリードを抽出して(ステップS206)、前記ハッシュテーブルを利用して抽出されたリードを参照配列にマッピングする(ステップS208)。
図3は、上述のようなリードの参照配列へのマッピング過程を説明するための図である。まず、ステップS206で抽出されたリードの前部分をシード長さほど読み込んだ後(図示された実施例では、リードの前部分をシードで設定したが、実際にシードはリードのどの部分でも設定することができる。但し、リードの前部分の正確度(quality)が一般的に高いので、主にリードの前部分をシードで使う)、ハッシュテーブルを検索して該当シードに対応する参照配列内の位置情報を抽出する。この場合、シードの長さによって相異であるが、通常的に一つ以上の位置情報が導出される(図面ではL及びLの2個の位置情報が抽出される)。以後、導出された各々の位置でリードの残りの部分を参照配列と対照してリードの正確なマッピング位置を決定する。図示された実施例の場合、2個の候補位置の中で、Lではリードが参照配列に対応(一致)しないが、Lでは対応することで判断されるところ、最終的に、リードは、L位置にマッピングされる。
最後に、前記のような過程を経てマッピングされた各リードを連結することで一つの塩基配列が完成される(ステップS210)。
図4は、本発明の一実施例による参照配列処理システム400のブロック構成図である。本発明の実施例において、参照配列処理システム400は、別途のシステムで構成するかまたは塩基配列分析のためのシステム内の一要素で含んでもよい。
図4に示したように、本発明の一実施例による参照配列処理システム400は、シード抽出部402と、判断部404と、インデックス生成部406と、を含む。
シード抽出部402は、参照配列(reference sequence)からシード(seed)を抽出する。上述のように、シード抽出部402は、参照配列の初部分から一ベースずつ順次に移動しながら設定された長さほど前記参照配列の値を読み込んで複数個のシードを抽出する。例えば、参照配列が次のように構成される場合を仮定する。
A C C G T A A A T G N N N N G C C A G C T
もし、設定されたシードの長さが7bpの場合、前記参照配列から生成されるシードは、次のようである。
SEED1:A C C G T A A
SEED2:C C G T A A A
SEED3:C G T A A A T
SEED4:G T A A A T G
SEED5:T A A A T G N
SEED6:A A A T G N N
SEED7:A A T G N N N
SEED8:A T G N N N N
SEED9:T G N N N N G
SEED10:G N N N N G C
SEED11:N N N N G C C
SEED12:N N N G C C A
SEED13:N N G C C A G
SEED14:N G C C A G C
SEED15:G C C A G C T
判断部404は、シード抽出部402で抽出された前記シードにリード(read)とマッピングされないベース(base)が存在するか否かを判断する。
上述のように、参照配列の場合、エラーなどの原因により特定位置の塩基をA、C、GまたはTの中でどのベースで表現するか不明な場合が発生することができ、通常的に、このような不明なベースの場合、Nなどの別途の文字で表記する。したがって、判断部404は、前記シードにA、C、GまたはT以外の文字で表記されたベースが存在する場合、前記シードに前記リードとマッピングされないベースが存在すると判断することができる。
例えば、参照配列(及びそれから抽出されたシード)に不明なベースがNで表記された場合、判断部404は、前記シードにNで表記されたベースが存在するか否かを判断し、存在する場合、前記シードに前記リードとマッピングされないベースが存在すると判断することができる。また、不明なベースがN以外の他の文字などで表記された場合には、該当文字を認識することでリードとマッピングされないベースが存在するか否かを判断するようになる。
上述の例の場合、参照配列の11番目のベースから14番目のベースまでが不明なベースで記載(N)されており(下線で表示)、それから抽出されたシードの中で5番目のシードから14番目のシードも前記不明なベースを含んでいる。したがって、判断部404は、抽出された15個のシードの中で5番目のシードから14番目のシードの場合、リード(read)とマッピングされないベース(base)が存在すると判断する。
A C C G T A A A T G N N N N G C C A G C T
インデックス生成部406は、判断部404によりリードとマッピングされないベースが存在すると判断されたシードを除外して、リードとマッピングされないベースが存在しないと判断されたシードのみをインデックスに追加する。具体的には、インデックス生成部406は、リードとマッピングされないベースが存在しないと判断されたシードの場合、該当シードを、ハッシュ関数を利用してハッシング(hashing)し、ハッシングされたシードをキー(key)とするハッシュテーブルを生成する。上述の例の場合、インデックス生成部406は、抽出された15個のシードの中で5番から14番までのシードを除外して、下に記載された残りのシードに対してのみインデキシングを実行する。
SEED1:A C C G T A A
SEED2:C C G T A A A
SEED3:C G T A A A T
SEED4:G T A A A T G
SEED5〜14:インデクシングから除外
SEED15:G C C A G C T
すなわち、本発明の実施例では、参照配列で不明なベースを含む部分を考慮しないで残りの部分に対してのみシードを抽出してハッシュテーブルを生成する。このように構成する場合、塩基配列の分析時に従来の方法に比べて正確性を毀損しないと共に分析速度を大幅に向上させることができる。
本発明の実施例において、前記のような効果が示す根拠は次のようである。まず、一般的に参照配列で不明なベース(通常Nと指称)は、大部分1ヶ所に集まっており、おおよそ全体の5%程度の割合を占める。したがって、これを排除しても全体塩基配列分析の正確度には大きい差を見せない。次の表1は、シード長さ(k)による参照配列でNを含むシードの総個数を計算した表である。
前記表から分かるように、シード長さが長くなってもNを含むシードの総個数は大きく変わらない。したがって、これから参照配列でNは大部分1ヶ所に集中されて連続されていることが分かる。
また、このように不明なベースが含まれたシードを排除しても全体塩基配列を完成するには大きい問題にならない。例えば、図5のような形態の参照配列を仮定する。シードを3bpで仮定する場合、図示されたリードは、参照配列のA T G部分に対応する。この場合、参照配列のN N N N部分はリードと対応が不可能であるが、以後のG C C部分が一致するので、参照配列の不明なベースはリードと対照する時、C T C Cと類推することができる。すなわち、参照配列のN部分を考慮しなくても残りの部分の対照を通じて十分に不明な領域に対してもマッピングが可能である。一般的にシーケンサーでは一つの遺伝子から約30回以上繰り返してリードを抽出するので、抽出されたリードを利用して上述した方法を反復実行する場合、非常に高い正確度で不明な参照配列部分まで正確なマッピングが可能になる。
一方、シードの長さが15bpの場合、参照配列でNをA、C、G、Tのような別途のキャラクターで仮定する時のハッシュテーブルのレコード数は、次のようである。
15=30,517,578,125
本発明の実施例のように、参照配列でNを考慮しない場合のハッシュテーブルのレコード数は、次のようである。
15=1,073,741,824
すなわち、Nを考慮しない場合、従来に比べてハッシュテーブルのレコード数が約1/30で減少することが分かる。
また、Nを考慮する場合には、5個の字になって、これを表現するために最小3個のビットが必要である(2<5<2)。したがって、この場合、ハッシュテーブルの容量は、次のように決まる。
(515=30,517,578,125)*3bits
しかし、Nを考慮しない場合には、2個のビットで表現が可能なので(2=4)、ハッシュテーブルの容量は、次のように計算される。
(415=1,073,741,824)*2bits
すなわち、ハッシュテーブルの容量を考慮する場合には、従来に比べて約1/45程度の容量減少效果があることが分かる。
図6は、本発明の一実施例による参照配列処理方法600を示したフローチャートである。
まず、参照配列(reference sequence)からシード(seed)を抽出し(ステップS602)、抽出された前記シードにリード(read)とマッピングされないベース(base)が存在するか否かを判断する(ステップS604)。上述のように、前記ステップS604段階は、前記シードにA、C、GまたはT以外の文字で表記されたベースが存在する場合(例えば、Nで表記されたベースが存在する場合)、リードとマッピングされないベースが存在すると判断することができる。
前記判断結果、前記シードに前記リードとマッピングされないベースが存在する場合、前記シードはインデックス生成から除外される。すなわち、不明なベースを含むシードは以後マッピング時に考慮されない。一方、前記判断結果、前記シードに前記リードとマッピングされないベースが存在しない場合には、前記シードをハッシュテーブルに追加する(ステップS606)。
前記ステップS602段階乃至ステップS606段階は、前記参照配列の一番目の配列から順次に参照配列の最後の部分に到逹するまで繰り返されて、このような過程を経て塩基配列分析のためのシードインデックスが生成される。
一方、本発明の実施例は、本明細書で記述した方法をコンピュータ上で実行するためのプログラムを含むコンピュータ判読が可能な記録媒体を含むことができる。前記コンピュータ判読が可能な記録媒体は、プログラム命令、ローカルデータファイル、ローカルデータ構造などを単独でまたは組み合わせて含むことができる。前記媒体は、本発明のために特別に設計されて構成されたものであるか、コンピュータソフトウェア分野で通常の知識を有した者に公知されて使用可能なものであってもよい。コンピュータ判読が可能な記録媒体の例には、ハードディスク、プロッピィーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、プロッピィーディスクのような磁気−光媒体、及びROM(ReadOnlyMemory)、RAM、フラッシュメモリーなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例には、コンパイラーにより作られる機械語コードだけではなく、インタプリターなどを使用してコンピュータにより実行することができる高級言語コードを含むことができる。
以上、代表的な実施例を通じて本発明に対して詳細に説明したが、本発明が属する技術分野における通常の知識を有する者であれば、上述した実施例に対して本発明の技術的思想を逸脱しない範囲内で、多様な変形が可能である。
したがって、本発明の権利範囲は、説明された実施例に限定されないで、後述する特許請求の範囲だけではなく、この特許請求範囲と均等なものなどにより決まる。
400:参照配列処理システム
402:シード抽出部
404:判断部
406:インデックス生成部

Claims (8)

  1. 参照配列(reference sequence)からシード(seed)を抽出するシード抽出部と、
    前記シード抽出部で抽出された前記シードに不明なベース(base)が存在するか否かを判断する判断部と、
    前記シードに不明なベースが存在しない場合、前記シードをインデックスに追加するインデックス生成部と、を含むことを特徴とする参照配列処理システム。
  2. 前記判断部は、前記シードにA、C、GまたはT以外の文字で表記されたベースが存在するか否かによって前記シードに不明なベースが存在するか否かを判断することを特徴とする請求項1に記載の参照配列処理システム。
  3. 前記判断部は、前記シードにNで表記されたベースが存在するか否かによって前記シードに不明なベースが存在するか否かを判断することを特徴とする請求項1に記載の参照配列処理システム。
  4. 請求項1乃至請求項3のいずれか一項に記載の参照配列処理システムを含むことを特徴とするゲノム分析システム。
  5. 一つ以上のプロセッサと、
    メモリーと、
    一つ以上のプログラムと、を含む装置であって、
    前記一つ以上のプログラムは、前記メモリーに保存されて前記一つ以上のプロセッサにより実行されるように構成され、
    前記プログラムは、
    参照配列(reference sequence)からシード(seed)を抽出する段階と、
    抽出された前記シードに不明なベース(base)が存在するか否かを判断する段階と、
    前記シードに不明なベースが存在しない場合、前記シードをインデックスに追加する段階と、を実行するための命令語を含むことを特徴とする装置。
  6. 参照配列処理システムで、参照配列(reference sequence)からシード(seed)を抽出する段階と、
    前記参照配列処理システムで、抽出された前記シードに不明なベース(base)が存在するか否かを判断する段階と、
    前記参照配列処理システムで、前記シードに不明なベースが存在しない場合、前記シードをインデックスに追加する段階と、を含むことを特徴とする参照配列処理方法。
  7. 前記判断段階は、前記シードにA、C、GまたはT以外の文字で表記されたベースが存在するか否かによって前記シードに不明なベースが存在するか否かを判断することを特徴とする請求項6に記載の参照配列処理方法。
  8. 前記判断段階は、前記シードにNで表記されたベースが存在するか否かによって前記シードに不明なベースが存在するか否かを判断することを特徴とする請求項6に記載の参照配列処理方法。
JP2012227089A 2012-02-24 2012-10-12 塩基配列分析のための参照配列処理システム及び方法 Pending JP2013172709A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020120019090A KR101372947B1 (ko) 2012-02-24 2012-02-24 염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법
KR10-2012-0019090 2012-02-24

Publications (1)

Publication Number Publication Date
JP2013172709A true JP2013172709A (ja) 2013-09-05

Family

ID=47559050

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012227089A Pending JP2013172709A (ja) 2012-02-24 2012-10-12 塩基配列分析のための参照配列処理システム及び方法

Country Status (5)

Country Link
US (1) US9323889B2 (ja)
EP (1) EP2631832A3 (ja)
JP (1) JP2013172709A (ja)
KR (1) KR101372947B1 (ja)
CN (1) CN103294932A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9348968B2 (en) 2012-03-06 2016-05-24 Samsung Sds Co., Ltd. System and method for processing genome sequence in consideration of seed length

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101538852B1 (ko) * 2013-10-31 2015-07-22 삼성에스디에스 주식회사 정확도를 고려한 염기 서열 정렬 장치 및 방법
WO2019023978A1 (zh) * 2017-08-02 2019-02-07 深圳市瀚海基因生物科技有限公司 比对方法、装置及系统
KR102377810B1 (ko) * 2020-03-11 2022-03-23 한국전자통신연구원 유전체 서열 정렬 방법 및 그 장치
CN116741274A (zh) * 2023-02-07 2023-09-12 杭州联川基因诊断技术有限公司 一种确定靶向测序数据中代表性序列的方法、设备和介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6387000A (en) * 1999-07-29 2001-02-19 Genzyme Corporation Serial analysis of genetic alterations
US20030165495A1 (en) * 2003-04-01 2003-09-04 Carulli John P. Nucleic acids and polypeptides
US20060091023A1 (en) * 2004-10-28 2006-05-04 Ahsan Bukhari Assessing micro-via formation PCB substrate manufacturing process
CN102329895A (zh) * 2011-10-14 2012-01-25 武汉百泰基因工程有限公司 乙型肝炎前c区和bcp区基因突变检测试剂盒、检测方法、引物及其探针

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9348968B2 (en) 2012-03-06 2016-05-24 Samsung Sds Co., Ltd. System and method for processing genome sequence in consideration of seed length

Also Published As

Publication number Publication date
EP2631832A2 (en) 2013-08-28
US20130226467A1 (en) 2013-08-29
US9323889B2 (en) 2016-04-26
KR20130097440A (ko) 2013-09-03
EP2631832A3 (en) 2014-05-21
KR101372947B1 (ko) 2014-03-13
CN103294932A (zh) 2013-09-11

Similar Documents

Publication Publication Date Title
US20200399719A1 (en) Systems and methods for analyzing viral nucleic acids
US10600217B2 (en) Methods for the graphical representation of genomic sequence data
US10192026B2 (en) Systems and methods for genomic pattern analysis
Li et al. Fast and accurate long-read alignment with Burrows–Wheeler transform
JP6141335B2 (ja) コンパクトな次世代シーケンシングデータセット及び該データセットを使用した効率的な配列の処理
CN107403075B (zh) 比对方法、装置及系统
US11062793B2 (en) Systems and methods for aligning sequences to graph references
US10192028B2 (en) Data analysis device and method therefor
WO2018218788A1 (zh) 一种基于全局种子打分优选的三代测序序列比对方法
JP2013172709A (ja) 塩基配列分析のための参照配列処理システム及び方法
US9886561B2 (en) Efficient encoding and storage and retrieval of genomic data
JP5612144B2 (ja) 塩基配列アラインメントシステム及び方法
CN110782946A (zh) 识别重复序列的方法及装置、存储介质、电子设备
JP5781486B2 (ja) シードの長さを考慮した塩基配列処理システム及び方法
KR20160039386A (ko) Itd 검출 장치 및 방법
WO2020183428A2 (en) Method and system for mapping read sequences using a pangenome reference
US20140229114A1 (en) Genomic/proteomic sequence representation, visualization, comparison and reporting using bioinformatics character set and mapped bioinformatics font
EP3663890B1 (en) Alignment method, device and system
US10867134B2 (en) Method for generating text string dictionary, method for searching text string dictionary, and system for processing text string dictionary
Chen et al. SEME: a fast mapper of Illumina sequencing reads with statistical evaluation
JP2006260073A (ja) 遺伝子関係抽出プログラム、遺伝子関係抽出方法および遺伝子関係抽出装置
Zhang Efficient methods for read mapping.
Boutte et al. NGS-Indel Coder v2. 0: A Streamlined Pipeline to Code Indel Characters in Phylogenomic Data
JP2011257922A (ja) 文字列入力支援装置、文字列入力支援方法およびプログラム
JP2005190248A (ja) 配列探索システムおよび探索プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140424

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140930