JP2014089690A - 塩基配列アラインメントシステム及び方法 - Google Patents

塩基配列アラインメントシステム及び方法 Download PDF

Info

Publication number
JP2014089690A
JP2014089690A JP2013033518A JP2013033518A JP2014089690A JP 2014089690 A JP2014089690 A JP 2014089690A JP 2013033518 A JP2013033518 A JP 2013033518A JP 2013033518 A JP2013033518 A JP 2013033518A JP 2014089690 A JP2014089690 A JP 2014089690A
Authority
JP
Japan
Prior art keywords
sequence
fragment
alignment
mapping
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013033518A
Other languages
English (en)
Other versions
JP5612144B2 (ja
Inventor
Min Seo Park
パク、ミン‐ソ
Sang Hyun Park
パク、サン‐ヒュン
Yun Ku Yeu
ユ、ユン‐ク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industry Academic Cooperation Foundation of Yonsei University
Samsung SDS Co Ltd
Original Assignee
Industry Academic Cooperation Foundation of Yonsei University
Samsung SDS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industry Academic Cooperation Foundation of Yonsei University, Samsung SDS Co Ltd filed Critical Industry Academic Cooperation Foundation of Yonsei University
Publication of JP2014089690A publication Critical patent/JP2014089690A/ja
Application granted granted Critical
Publication of JP5612144B2 publication Critical patent/JP5612144B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】マッピングの正確性を保障しマッピング時の複雑度を改善し処理速度を上げる。
【解決手段】リード配列から複数の断片(fragment)配列を生成する断片配列生成部と、生成された該複数の断片配列から候補断片配列集合を構成するフィルタリング部と、該候補断片配列それぞれの該参照配列でのマッピング位置の個数を計算し、計算された該マッピング位置の個数が設定された値を超える断片配列を選択し、該参照配列でのマッピング位置の個数が該設定された値以下になるまで選択された断片配列のサイズを拡張する断片配列拡張部と、該参照配列を複数の区間に分割し該各区間別に該候補断片配列の総マッピング長さを計算するマッピング長さ計算部と、計算された該総マッピング長さが基準値以上の区間を選択し、選択された区間に対して該リード配列に対する全域アラインメント(global alignment)を遂行するアラインメント部とを備える。
【選択図】図1

Description

本発明は、ゲノムの塩基配列を分析するための技術に関するものである。
低いコスト及び速いデータ生産によって大容量の短い配列を生産する次世代シーケンシング(NGS:Next Generation Sequencing)が伝統的なサンガー(Sanger)シーケンシング方式を迅速に置き換えている。また、多様なNGS配列の組換えプログラムが正確度に焦点を合わせて開発されてきた。しかしながら、最近、次世代シーケンシング技術が発展することによって、断片配列を作成するコストが以前の半分以下となり、これにより用いることができるデータの量が多くなったため、大容量の短い配列を急速かつ正確に処理するための技術が必要となった。
配列組換えの第一の段階は、塩基配列アラインメント(alignment)アルゴリズムを通じてリードを参照配列の正確な位置にマッピング(mapping)するものである。これにおける問題点は、同一種の個体であるとしても多様な遺伝的変異によって、ゲノムの配列に差があり得るという点である。また、シーケンシング過程におけるエラーによっても塩基配列に差が生じ得る。従って、塩基配列アラインメントアルゴリズムは、このような差及び変異を効果的に考慮してマッピングの正確度を高めるべきである。
それ故に、ゲノム情報の分析を行うためには、可能な限り多くの正確な全体ゲノム情報データが必要である。なお、このためには、何よりも優れた正確性及び大量の処理量を有する塩基配列アラインメントアルゴリズムを開発することを先行して行わなければならない。しかしながら、従来の方法は、このような要求条件を満たすのに限界があった。
本発明は、マッピングの正確性を保障すると同時にマッピング時の複雑度を改善し、処理速度を上げることができる塩基配列アラインメント手段を提供することをその目的としている。
前記課題を解決するための、本発明の一実施形態による塩基配列アラインメントシステムは、リード(read)配列を参照配列にアラインメントするためのシステムであって、前記リード配列から複数の断片(fragment)配列を生成する断片配列生成部と、生成された前記複数の断片配列から候補断片配列集合を構成するフィルタリング部と、前記候補断片配列それぞれの前記参照配列でのマッピング位置の個数を計算し、計算された前記マッピング位置の個数が、設定された値を超える断片配列を選択し、前記参照配列でのマッピング位置の個数が前記設定された値以下になるまで選択された断片配列のサイズを拡張する断片配列拡張部と、前記参照配列を複数の区間に分割し、前記各区間別に前記候補断片配列の総マッピング長さを計算するマッピング長さ計算部と、計算された前記総マッピング長さが基準値以上の区間を選択し、選択された区間に対して前記リード配列に対する全域アラインメント(global alignment)を遂行するアラインメント部とを備える。
一方、前記課題を解決するための本発明の一実施形態によるリード(read)配列を参照配列にアラインメントするための方法は、断片配列生成部において、前記リード配列から複数の断片(fragment)配列を生成する段階と、フィルタリング部において、生成された前記複数の断片配列から候補断片配列集合を構成する段階と、断片配列拡張部において、生成された前記候補断片配列それぞれの前記参照配列でのマッピング位置の個数を計算する段階と、前記断片配列拡張部において、計算された前記マッピング位置の個数が設定された値を超える断片配列を選択する段階と、前記断片配列拡張部において、前記参照配列でのマッピング位置の個数が前記設定された値以下になるまで選択された断片配列のサイズを拡張する段階と、マッピング長さ計算部において、前記参照配列を複数の区間に分割し、前記各区間別に前記候補断片配列の総マッピング長さを計算する段階と、アラインメント部において、計算された前記総マッピング長さが基準値以上の区間を選択し、選択された区間に対して前記リード配列に対する全域アラインメント(global alignment)を遂行する段階とを備える。
一方、前記課題を解決するための本発明の他の実施形態による塩基配列アラインメントシステムは、リード(read)配列を参照配列にアラインメントするためのシステムであって、前記リード配列から複数の断片(fragment)配列を生成する断片配列生成部と、生成された前記複数の断片配列から候補断片配列集合を構成するフィルタリング部と、前記参照配列を複数の区間に分割し、前記各区間別に前記候補断片配列の総マッピング長さを計算するマッピング長さ計算部と、計算された前記総マッピング長さが基準値以上の区間を選択し、選択された区間に対して前記リード配列に対する全域アラインメント(global alignment)を遂行するアラインメント部とを備える。
本発明の実施形態による場合、リード配列のアラインメント時にリード配列の特定領域のみを考慮するものではなく、リード全体を考慮してシード(断片配列)を選択するため、リードの一部分のみを考慮するアルゴリズムと比較して正確性を向上させることができる。
また、断片配列別に参照塩基配列内における繰り返し数を制限し、これを超えるシードに対しては、シードの長さを拡張することによって、マッピングの正確性を高めると同時に速度もまた向上させることができる効果がある。
また、マッピングヒストグラムを利用して、参照塩基配列内にリードがマッピングされる可能性が高い特定領域を選択し、該当領域内でのみ全域アラインメント(global alignment)を遂行することによって、全域アラインメントの時間を大幅に減少させることができる。
さらに、リードから導き出された断片配列のマッピング位置と組み合わせを検索する複雑な過程の代わりに、組み合わせを構成する可能性が高い断片配列に対して直ちに全域アラインメントを遂行することによって、全域アラインメントの速度をさらに高めることができ、全域アラインメントの位置を記憶しておき、該当位置の周辺では繰り返して全域アラインメントを遂行しないように構成することによって、不要な全域アラインメントの回数を減少させることができるといった長所がある。
本発明の一実施形態による塩基配列アラインメント方法100を説明するための図である。 本発明の一実施形態による塩基配列アラインメント方法100における段階108でのmEBの計算過程を例示するための図である。 本発明の一実施形態による塩基配列アラインメント方法100における段階112での断片配列の生成過程を説明するための図である。 本発明の一実施形態によるマッピングヒストグラムを利用したマッピング対象区間の選択過程を例示した図である。 本発明の一実施形態による全域アラインメント時に不要な全域アラインメント回数を減少させるための方法を説明するための例示図である。 本発明の一実施形態による塩基配列アラインメントシステム600を示したブロック図である。
以下、図面を参照して、本発明の具体的な実施形態を説明する。しかしながら、これらは例示に過ぎず、本発明はこれらに限定されるものではない。
本発明を説明するにあたり、本発明に係る公知技術に対する具体的な説明が、本発明の要旨を不明瞭にすると判断される場合には、その詳細な説明を省略する。そして、後述する用語は、本発明における機能を考慮して定義された用語であって、これは使用者、運用者の意図又は慣例などにより変わり得る。従って、その定義は本明細書の全般にわたる内容に基づいて下されなければならない。
本発明の技術的思想は特許請求の範囲によって定められ、以下の実施形態は、本発明の技術的思想を本発明が属する技術分野において通常の知識を有する者に効率的に説明するための一手段に過ぎない。
本発明の実施形態を詳しく説明するに先立ち、まず、本発明において用いられる用語に関して説明すると以下のとおりである。
先ず、「リード(read)配列」(又は、略して「リード」と称する)とは、ゲノムシーケンサ(genome sequencer)から出力される短い長さの塩基配列データである。リード配列の長さは、ゲノムシーケンサの種類によって、一般的に35〜500bp(base pair)程度で多様に構成され、一般的にDNA塩基の場合、A、C、G、Tのアルファベット文字で表現される。
「参照塩基配列」とは、前記リード配列から全体塩基配列を生成するのに参照となる塩基配列(reference sequence)を意味する。塩基配列の分析では、ゲノムシーケンサから出力される多量のリードを、参照塩基配列を参照してマッピングすることによって、全体塩基配列を完成するようになる。本発明において、前記参照塩基配列は、塩基配列の分析時に既に設定された配列(例えば、ヒトの全体塩基配列等)であり得、或いはゲノムシーケンサから出力された塩基配列を参照塩基配列として用いることもできる。
「塩基(base)」は、参照塩基配列及びリードを構成する最小単位である。前述したように、DNA塩基の場合、A、C、G、及びTの4種類のアルファベット文字で構成され得、これらそれぞれを塩基と表現する。換言すれば、DNA塩基の場合、4種の塩基で表現され、これはリード配列もまた同様である。
「断片(fragment)配列」(又は、シード(seed))とは、リード配列のマッピングのためにリード配列と参照塩基配列とを比較する時の単位となるシーケンスである。理論的に、リードを参照塩基配列にマッピングするためには、リードの全体を参照塩基配列の最初の部分から順次比較していきながら、リードのマッピング位置を計算すべきである。しかしながら、このような方法の場合、一つのリードをマッピングするのに非常に長い時間及び計算能力(コンピュータパワー)が求められるため、実際ではリードの一部分で構成された小片である断片配列を先に参照塩基配列にマッピングすることによって、全体リード配列のマッピング候補位置を検出し、該当候補位置に全体リード配列をマッピング(global alignment)するようになる。
図1は、本発明の一実施形態による塩基配列アラインメント方法100を説明するための図である。本発明の実施形態において、塩基配列アラインメント方法100は、ゲノムシーケンサ(genome sequencer)から出力されるリード配列を参照塩基配列と比較してリード配列の前記参照配列でのマッピング(又は、アラインメント)位置を決定する一連の過程を意味する。
先ず、ゲノムシーケンサ(genome sequencer)からリード配列が入力されると(段階102)、リード配列全体と前記参照塩基配列との一致・整合(exact matching)を試みる(段階104)。仮に、前記試みの結果、リード全体に対する一致・整合が成功した場合には、以後のアラインメント段階を遂行せずにアラインメントに成功したものと判断する(段階106)。
ヒトの塩基配列を対象とした実験の結果、ゲノムシーケンサから出力される100万個のリード配列をヒトの塩基配列に一致・整合する場合、総200万回のアラインメントのうち(順方向シーケンス100万回、逆相補(reverse complement)方向シーケンス100万回)231,564回の一致・整合が生じるものと示された。従って、前記段階104の遂行結果、約11.6%程度のアラインメント所要量を減少させることができた。
しかしながら、これとは異なり、前記段階106で該当リード配列が、一致・整合しないものと判断される場合には、該当リード配列を前記参照配列にアラインメントした時に生じ得るエラーの最小個数(mEB:minimum error bound)を計算する(段階108)。
図2は、前記段階108でのmEB計算過程を例示するための図である。先ず、図2の(a)に示すように、最初mEBを0に設定して、リード配列の一番目の塩基から右側に一塩基ずつ移動しながら一致・整合を試みる。この時、(b)に示すように、リード配列の特定塩基(図において二番目のTで示した部分)からこれ以上一致・整合が不可能であると仮定する。この場合は、リード配列の整合の始めの位置から現在の位置の間の区間のどこかでエラーが生じたことを意味する。従って、この場合には、mEB値を1ほど増加させ(mEB=1)、次の位置で新たに一致・整合を開始する(図において、(c)に示す)。以後、再び一致・整合が不可能であると判断される場合には、一致・整合を新たに開始した位置から現在位置の間の区間のどこかでまたエラーが生じたものであるため、mEB値を再び1ほど増加させ(mEB=2)、次の位置で新たに一致・整合を開始する(図において、(d)に示す)。このような過程を通じて、リードの最後まで到逹した場合のmEB値が該当リードのmEB値となる。
前記のような過程を通じて、リード配列のmEB値を計算すると、計算されたmEB値が既設定された最大エラー許容値(max error)を超えるか否かを判断し(段階110)、超える場合には、該当リード配列に対するアラインメントが失敗したものと判断してアラインメントを終了する。
前述したヒトの塩基配列を対象とした実験で、最大エラー許容値(max error)を3とし、残りのリードのmEBを計算した結果、総844,891回に該当するリードが前記最大エラー許容値を超えるものと示された。すなわち、前記段階108の遂行結果、約42.2%程度のアラインメント所要量を減少させることができた。
しかしながら、これとは異なり、前記段階110における判断の結果、計算されたmEB値が前記最大エラー許容値以下である場合には、次のような過程を通じて、該当リード配列に対するアラインメントを遂行する。
先ず、前記リード配列から複数の断片(fragment)配列を生成し(段階112)、生成された前記複数の断片配列のうち、前記参照配列とマッチングする断片配列のみを含む候補断片配列集合を構成する(段階114)。以後、前記参照配列を複数の区間に分割し、前記各区間別に前記候補断片配列の総マッピング長さを計算することによって、マッピングヒストグラムを生成し(段階116)、生成されたマッピングヒストグラムから前記総マッピング長さが基準値(histogram cut)以上の区間を選択し、選択された区間に対して前記リード配列に対する全域アラインメント(global alignment)を遂行するようになる(段階118)。この時、前記全域アラインメントの結果、リードのエラー個数が既設定された最大エラー許容値(max error)を超える場合にはアラインメント失敗と判断され、そうではない場合にはアラインメントに成功したものと判断される(段階120)。
以下では、前記段階112乃至段階118の具体的な過程を詳しく説明する。
リード配列から複数の断片配列生成(段階112
本段階は、本格的にリード配列のアラインメントを遂行するためにリード配列から複数の小片である断片配列を生成する段階である。本段階では、前記リード配列の最初の塩基から最後の塩基まで設定された間隔(shift size)ほど移動しながら設定されたサイズ(fragment size)ほどリード配列の値を読み取ることによって、前記断片配列を生成するようになる。
図3は、前記段階112での断片配列の生成過程を説明するための図である。図3は、リード配列の長さが75bp(base pair)、リードの最大エラー許容許容値が3bp、断片配列のサイズ(fragment size)が15bp、移動間隔(shift size)が4bpである場合の実施形態を示したものである。すなわち、リード配列の最初の塩基から4bpずつ右側に移動しながら断片配列を生成するようになる。ただし、示した実施形態は、単なる例示に過ぎず、例えば、前記移動間隔、断片配列のサイズ等は、リード配列の長さ、リードの最大エラー許容値等の値を考慮して適切に定められ得る。換言すれば、本発明の権利範囲は、特定の断片配列のサイズ及び移動間隔に限定されるものではないことに留意されたい。
生成された断片配列のフィルタリング及び拡張(段階114)
前記のような過程を通じて断片配列が生成されると、次に生成された断片配列のうち参照配列とマッチングしない断片配列を除くフィルタリング過程を通じて、候補断片配列集合(sub-candidate)を構成する。すなわち、生成された断片配列と前記参照配列との一致・整合(exact matching)を試み、その結果、不一致となる塩基の数が既設定された許容値以下である断片配列(候補断片配列)で前記候補断片配列集合を構成するようになる。この時、前記許容値が0である場合、前記候補断片配列集合には、前記参照配列と一致・整合する断片配列のみが含まれる。
例えば、図3に示す実施形態では、前記リードの15番目、31番目、及び47番目の部分でエラーが生じたものと仮定する(図において点線で示す)。この場合、前記エラーを含む断片配列(図において灰色で表示)の場合には、参照配列との一致・整合ができず、エラーの影響を受けない49〜63、53〜67、57〜71、及び61〜75の4個の断片配列のみが参照配列と一致・整合する。従って、この場合、前記候補断片配列集合には、上述した4個の断片配列のみが含まれる。
その一方で、一般的に参照塩基配列(例えば、ヒトのゲノム)は、多数の反復シーケンス(repeat sequence)を含む。このような反復シーケンスは、参照配列の様々の位置に分布し、同一の塩基配列を繰り返しで含むため、一部の断片配列の場合、参照配列とのマッピングの時、極めて多い位置で一致・整合が生じるようになる。しかしながら、このような反復シーケンスによって、一部の断片配列で極めて多数のマッピングが生成される場合、全体アラインメントアルゴリズムの複雑度及び正確度に悪影響を与えるため、この場合、適切な方法を利用してマッピングされる位置の反復数を減らす必要がある。
そのために、本段階では、候補断片配列のうち、前記参照配列でのマッピング位置が既設定された値(例えば、50個)を超える場合、前記マッピング位置の個数が前記設定された値以下になるまで該当断片配列のサイズを拡張する段階をさらに含むことができる。
具体的に、本段階では、生成された前記候補断片配列それぞれの前記参照配列でのマッピング位置の個数を計算し、計算された前記マッピング位置の個数が設定された値を超える断片配列を選択した後、前記参照配列でのマッピング位置の個数が前記設定された値以下になるまで選択された断片配列のサイズを拡張するようになる。この時、前記選択された断片配列のサイズ拡張は、前記選択された断片配列の最初又は最後の部分に、該当位置に対応する前記リード配列での塩基を追加することによって、遂行することができる。
これを例を挙げて説明すると、次のとおりである。例えば、次のようにリード配列から断片配列が生成されると仮定する。
リード配列:A T T G C C T C A G T
断片配列:T T G C(リード配列で下線を引いた部分)
仮に、前記断片配列に対するマッピングの結果、参照配列でのマッピング位置の個数が基準値である50個を超える65個である場合には、下記のように前記マッピング位置の個数が基準値以下に低下するまで前記断片配列の長さを1bpずつ拡張するようになる。
T T G C(65マッピング位置)
T T G C (54マッピング位置)
T T G C C T(27マッピング位置)
上記の例示の場合、リード配列を参照して2個の塩基を追加した場合、マッピング位置の個数が設定値以下に低下するため、最終断片配列は最初生成された値より2bp拡張されたT T G C C Tになる。一方、前述した他の例と同様に、前記設定値もまた参照配列、リード配列及び断片配列の特性等によって適切に定められ得る値であって、本発明は、特定の設定値にその権利範囲が限定されるものではないことに留意すべきである。
ヒトの塩基配列を対象とした実験で、100万個のリードで断片配列の長さ15bp、シフト間隔4bpで断片配列を生成した後、生成された断片配列を参照配列にマッチングする場合、基準値を50とする時に総15,547,856個の断片配列のうち約77%の断片配列が50個以下のマッピングを有するものと示された。すなわち、実験の結果、基準値を50とする場合、77%の断片配列はこれをそのまま活用することができ、残りの23%の断片配列は前述した方法による断片配列の拡張が必要なものと示された。
マッピングヒストグラム生成(段階116)
上述した過程を通じて、候補断片配列集合(sub-candidate)が構成されると、原則的にこれらの候補断片配列集合の前記参照配列内でのマッピング位置を利用してリード配列を参照配列にマッピングすることが可能である。しかしながら、この場合、候補断片配列の各マッピング位置の全ての組み合わせを考慮しなければならないため、リード配列のマッピングのための計算の複雑度が非常に高くなる。例えば、候補断片配列集合に含まれる候補断片配列が4個であり、それぞれの候補断片配列の参照配列でのマッピング位置の個数がそれぞれ3、6、24、49個である場合、21,168(=3*6*24*49)個の組み合わせ全てを調査しなければならない。本発明では、このような計算の複雑度を低減するためにマッピングヒストグラムを利用することになる。
本発明において、マッピングヒストグラムは、一定のサイズを有する配列(integer array)で、配列の値は、参照配列を同一のサイズを有する複数の区間に分割する時の各区間に対応する。例えば、参照配列を65536(=216)bpサイズを有する区間に分割する場合、参照配列の0〜65535bpまでの区間は、マッピングヒストグラム(h)の一番目の値であるh[0]に対応し、65536〜131071までの区間は、マッピングヒストグラム(h)の二番目の値であるh[1]に対応する。このような方式で参照配列の分割された各区間をマッピングヒストグラムに対応させることができる。
また、マッピングヒストグラムの各値(h[i])には、対応する参照配列区間での前記候補断片配列の総マッピング長さ(A)が保存され、さらに、該当参照配列区間にマッピングされる候補断片配列のリード配列での位置のうち最大値(B)が保存され得る。
例えば、図3に示す実施形態において、53〜67の断片配列がh[0]区間にマッピングされる場合、h[0]のヒストグラム値は(15、67)となる(ここで、15はh[0]区間にマッピングされる候補断片配列の総マッピング長さ、67はマッピングされる候補断片配列のリード配列での最後の位置)。同一の方式で、49〜63の断片配列がh[1]区間にマッピングされる場合、h[1]のヒストグラム値は(15、63)になる。以後、61〜75の断片配列がh[0]区間にマッピングされる場合、h[0]のヒストグラム値は(23、75)にアップデートされ、その理由は次のとおりである。
一番目の値23:最初にマッピングされた53〜67及び以後にマッピングされた61〜75のオーバーラップされる区間を考慮した総マッピング長さ
二番目の値75:マッピングされる断片配列の最後の位置。すなわち、61〜75の最後の位置に該当
マッピング対象区間の選択及び全域アラインメント(global assignment)(118)
前記のような過程を通じてマッピングヒストグラムが生成されると、マッピングヒストグラムのヒストグラム値(該当区間での候補断片配列の総マッピング長さ)が既設定された基準値(ヒストグラムカット:histogram cut)以上の区間をマッピング対象区間で選択する。
図4は、本発明の一実施形態によるマッピングヒストグラムを利用したマッピング対象区間の選択過程を例示した図である。図4に示すように、参照配列がh[0]からh[3]まで4個の区間に分割され、各区間のヒストグラム値が下記のように計算されるものと仮定する。
h[0]=15、h[1]=0、h[2]=23、h[3]=15
この時、前記ヒストグラムカット値が22に設定される場合、ヒストグラムカット値より大きい区間はh[2]に該当する区間となり、本段階では、h[2]に該当する区間をマッピング対象区間で選択するようになる。この時、仮にヒストグラム値がヒストグラムカットより大きい区間が複数の場合には、該当する全区間がマッピング対象区間となり、マッピング対象区間に含まれる複数の区間の全てにおいて全域アラインメントが遂行される。この場合、アラインメント速度を上げるためにマッピング対象区間に含まれる各区間のヒストグラム値を相互に比較し、ヒストグラム値が高い区間から順次に全域アラインメントを遂行することができる。ヒストグラム値が高いということは、マッピングされる断片配列の総長さがより長いという意味であるため、該当区間でリード配列がマッピングされる可能性が高いためである。また、この場合、各区間別のヒストグラム値が同一である場合には、各区間にマッピングされる候補断片配列の個数を計算し、断片配列の個数が多い区間から全域アラインメントを遂行することができる。
このようにマッピング対象区間が選択されると、次に候補断片配列(sub-candidate)のうち該当マッピング対象区間にマッピングされる候補断片配列を最終候補断片配列(candidate)で選定し、選定された最終候補断片配列それぞれのマッピング位置でリード配列に対する全域アラインメントを遂行することによって、リード配列に対するアラインメントを完了する。
例えば、前記図4の実施形態において、h[2]区間にマッピングされる候補断片配列が49〜63、53〜67、61〜75の3個であると仮定すると、前記3個の候補断片配列が最終候補となり、これらの該当区間内のマッピング位置でリード配列の全域アラインメントを遂行するようになる。
一方、前記最終候補断片配列に対する全域アラインメント時には、全域アラインメントに所要する時間を減らすために、全域アラインメントを一回遂行した参照配列での位置を記憶し、それと近い位置では、繰り返し全域アラインメントが数回遂行されないようにする。具体的に、本段階では、前記マッピング対象区間を複数の小区間に分割した後、全域アラインメントが遂行された小区間の場合、これを記録しておくように構成される。以後、該当小区間に対する全域アラインメント時には、前記記録された情報を利用して該当小区間で全域アラインメントが既遂行されたか否かを判断し、前記判断の結果、全域アラインメントが既遂行されていない場合にのみ全域アラインメントを遂行するようになる。
これを例を挙げて説明すると、図5のとおりである。図5に示すように、マッピング対象区間が5個の小区間に分割され、前記3個の最終候補のうち49〜63及び53〜67は二番目の小区間に、61〜75は4番目の小区間にマッピングされるものと仮定する。この場合、仮に49〜63の断片配列に対して2番目の小区間で全域アラインメントが遂行される場合、その結果に関係なく同一の小区間に属する53〜67に対しては全域アラインメントが遂行されず、これはその反対の場合も同様である。従って、示された実施形態の場合、全域アラインメントは、49〜63/61〜75又は53〜67/61〜75の組み合わせに対してのみ実施するようになる。本発明のように参照配列の全体ではなくマッピング対象区間内でのみ全域アラインメントが遂行されるとしても、全域アラインメントのためには非常に時間が掛かるため、このような過程を通じる場合、全域アラインメントに所要する時間を減らすことができる。
ヒストグラムカット(histogram cut)の計算
前記実施形態において、ヒストグラムカットは、次のような方式で計算することができる。
先ず、fを断片配列のサイズ、sを断片配列を生成するためのリード配列内での移動間隔、Lをリード配列の長さ、eをリード配列で許容される最大エラーの個数、Hをヒストグラムカットとすると、リード配列でエラーの影響を受けない領域の長さTは、下記の数式のように求めることができる。
[数式1]
T=L−f*e−s
この時、L及びeは、本発明を実施する際、既に決定されている値であるため、f及びsの値によってTが決定される。すなわち、f及びsの値を如何に変化させるかによってアルゴリズムの性能が変化するようになる。
先ず、H値を決定する時には、下記二つの条件を考慮する。このうち、必須条件は必ず満たさなければならず、追加条件は可能な場合に考慮する。
−必須條件:マッピングの基本単位が断片配列であるため、ヒストグラムカットがいくら小さいとしても少なくともオーバーラップされる2個以上の断片配列を含むことができるサイズでなければならない。仮に、図2のようにf=15、s=4である場合、オーバーラップされる2個の断片配列の最小長さは15+4=19となるため、少なくともH値は19以上であるべきである。また、前記H値は、少なくとも2個の断片配列が含まれるように設定すべきであるため、最小限f+sよりは大きいか、或いは同一でなければならない。後述するように、f値は最小限15以上でなければならないため、s値をその最小値である1と仮定する場合、Hは最小限16(=15+1)以上の値となる。
−追加条件:理想的な状況を仮定する時、H=Tと定め、T以上のシーケンスがマッピングされたヒストグラムを検索すれば、与えられたエラーに対する全てのマッピングを検索することができる。しかしながら、前述したように、参照配列自体に反復が多い場合、状況によって断片配列の長さを拡張しなければならない場合が生じ得る。従って、これを考慮してH値を定める時には、Tより若干小さいT−sを用いることがマッピング率の側面で有利である。仮にH=Tと仮定した場合、H=T−f*e−sになり、このうちeを最小値である1と仮定した場合(eが0である場合は、参照配列と一致・整合する場合であるため、前述した段階104でマッピングが完了する)、H=T−f−sとなる。この値がヒストグラム値の最大値となる。仮に、L=75bp、f=15bp、s=1と仮定した場合、Hの最大値は75−15−1=59となる。
つまり、前記H値は、次の範囲を満たさなければならない。
[数式2]
f+s<=H<=T−(f+s)
次に、f値は、下記二つの条件を満たす値のうち大きい値を選択する。これもまた必須条件は、必ず満たさなければならず、追加条件は可能な場合に考慮する。
−必須條件:fは15以上でなければならず、その理由として、断片配列の長さが14以下である場合、参照配列内でのマッピング位置の個数が急激に増加するためである。
下記表1は、断片配列の長さによるヒトのゲノム内での断片配列の平均発現頻度を示したものである。
前記表からわかるように、断片配列の長さが14以下である場合には、断片配列別の頻度が10以上であるが、15である場合には、3以下に減少する。すなわち、断片配列の長さを15以上で構成する場合、14以下で構成する場合と比較して断片配列の反復を大幅に減少させることができる。
−追加条件:f≦L/(e+2)を満たさなければならず、これはTの長さを断片配列2個のサイズ以上に保障するためである。
例えば、L=100、e=4である時、fは16以下の値を有するべきである。
上記条件を併せて、f、s、及びHを決定する方法をまとめたものを次に示す。
−sは4に固定した後、fとHを決定する。
−15≦f≦L/(e+2)範囲内で最も大きい値をfに決定する(ただし、必ずf≧15)。
−Hは、下記式を利用して決定する。
[数式3]
H=L−f*e−2s又はH=f+sから計算される値のうち大きい値
(ここで、Hは基準値、Lはリード配列の長さ、fは断片配列の長さ、eはリード配列の最大エラー個数、sは各断片配列の移動間隔である)
例1)L=75、e=3である時、f=15〜15であるため15、s=4、H=75−3*15−2*4=22となる。
例2)L=100、e=4である時、f=15〜16であるため16、s=4、H=100−4*16−2*4=36−8=28となる。
例3)L=75、e=4である時、f=12〜15であるが、15以上でなければならないため15、s=4、H=75−4*15−2*4=15−8=7であるが、f+s=19であるため、結果的にH=19となる。
図6は、本発明の一実施形態による塩基配列アラインメントシステム600のブロック図である。本発明の一実施形態による塩基配列アラインメントシステム600は前述した塩基配列アラインメント方法を遂行するための装置であって、断片配列生成部602と、フィルタリング部604と、マッピング長さ計算部606と、アラインメント部608と、断片配列拡張部610とを備える。
断片配列生成部602は、ゲノムシーケンサから得られたリード配列から複数の断片(fragment)配列を生成する。前述したように、断片配列生成部602は、前記リード配列の一番目の塩基から設定された間隔ほど移動しながら設定されたサイズほど前記リード配列の値を読み取ることによって、前記断片配列を生成するようになる。
フィルタリング部604は、生成された前記複数の断片配列のうち前記参照配列とマッチングする断片配列のみを含む候補断片配列集合を構成する。この時、前記参照配列とマッチングする断片配列は、前記参照配列との一致・整合(exact matching)の結果、不一致となる塩基の数が、設定された個数以下である断片配列を意味する。
マッピング長さ計算部606は、前記参照配列を複数の区間に分割し、前記各区間別に前記候補断片配列のマッピング位置及び各区間別に前記候補断片配列の総マッピング長さを計算する。
アラインメント部608は、マッピング長さ計算部606によって分割された区間のうち計算された前記総マッピング長さが基準値以上の区間を選択し、選択された区間に対して前記リード配列に対する全域アラインメントを遂行する。具体的に、アラインメント部608は、前記候補断片配列のうち前記選択された区間にマッピングされる候補断片配列の前記参照配列内でのマッピング位置に基づいて、前記リード配列に対する全域アラインメントを遂行する。
また、アラインメント部608は、前記選択された区間(マッピング対象区間)を複数の小区間に分割し、前記全域アラインメントを遂行しようとする前記参照配列内の位置が属する小区間で全域アラインメントが既遂行されたか否かを判断し、前記判断の結果、全域アラインメントが既遂行されていない場合にのみ前記全域アラインメントを遂行することによって、不要な全域アラインメントの回数を減少させるように構成され得る。
断片配列拡張部610は、前記フィルタリング部604で生成された前記候補断片配列それぞれの前記参照配列でのマッピング位置の個数を計算し、計算された前記マッピング位置の個数が設定された値を超える断片配列を選択し、前記参照配列でのマッピング位置の個数が前記設定された値以下になるまで選択された断片配列のサイズを拡張する。この時、断片配列拡張部610は、前記選択された断片配列の最初又は最後の部分に、該当位置に対応する前記リード配列での塩基を追加することによって、前記拡張を遂行する。
一方、本発明の実施形態は、本明細書において記述した方法をコンピュータ上において遂行するためのプログラムを含むコンピュータ判読可能記録媒体を備えることができる。前記コンピュータ判読可能記録媒体は、プログラム命令、ローカルデータファイル、ローカルデータ構造等を単独で又は組み合わせて備えることができる。前記媒体は、本発明のために特別に設計され、構成されたものであるか、或いはコンピュータソフトウェア分野において通常の知識を有する者に公知となって使用可能なものであり得る。コンピュータ判読可能記録媒体の例としては、ハードディスク、フロッピーディスク(登録商標)及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロッピーディスクのような磁気−光媒体、及びROM、RAM、フラッシュメモリ等のようなプログラム命令を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラーによって作成されるような機械語コードのみではなくインタプリター等を用いてコンピュータによって実行され得る高級言語コードを含むことができる。
以上において、代表的な実施形態を通じて本発明について詳細に説明したが、本発明が属する技術分野において通常の知識を有する者は、詳述した実施形態について本発明の範疇から外れない範囲内で様々な変形が可能であることを理解しなければならない。
従って、本発明の権利範囲は説明された実施形態に限定して定めてはならず、後述する特許請求の範囲のみならず、この特許請求の範囲と均等なものなどによって定めなければならない。
600:塩基配列アラインメントシステム
602:断片配列生成部
604:フィルタリング部
606:マッピング長さ計算部
608:アラインメント部
610:断片配列拡張部

Claims (19)

  1. リード配列から複数の断片(fragment)配列を生成する断片配列生成部と、生成された前記複数の断片配列から候補断片配列集合を構成するフィルタリング部と、前記候補断片配列それぞれの参照配列でのマッピング位置の個数を計算し、計算された前記マッピング位置の個数が、設定された値を超える断片配列を選択し、前記参照配列でのマッピング位置の個数が前記設定された値以下になるまで選択された断片配列のサイズを拡張する断片配列拡張部と、前記参照配列を複数の区間に分割し、各区間別に前記候補断片配列の総マッピング長さを計算するマッピング長さ計算部と、計算された前記総マッピング長さが基準値以上の区間を選択し、選択された区間に対して前記リード配列に対する全域アラインメント(global alignment)を遂行するアラインメント部とを備える塩基配列アラインメントシステム。
  2. 前記断片配列生成部は、前記リード配列の一番目の塩基から設定された間隔ほど移動しながら設定されたサイズほど前記リード配列の値を読み取ることによって、前記断片配列を生成する、請求項1に記載の塩基配列アラインメントシステム。
  3. 前記フィルタリング部は、前記参照配列との一致・整合(exact matching)の結果、不一致となる塩基の数が、設定された個数以下である断片配列を前記候補断片配列集合に含まれる、請求項1に記載の塩基配列アラインメントシステム。
  4. 前記断片配列拡張部は、前記選択された断片配列の最初又は最後の部分に、該当位置に対応する前記リード配列での塩基を追加する、請求項1に記載の塩基配列アラインメントシステム。
  5. 前記アラインメント部は、前記候補断片配列の中から前記選択された区間にマッピングされる候補断片配列を選択し、選択されたそれぞれの候補断片配列の前記参照配列内でのマッピング位置で前記リード配列に対する全域アラインメントを遂行する、請求項1に記載の塩基配列アラインメントシステム。
  6. 前記アラインメント部は、前記選択された区間を複数の小区間に分割し、前記全域アラインメントを遂行しようとする前記参照配列内の位置が属する小区間で全域アラインメントが既遂行されたか否かを判断し、前記判断の結果、全域アラインメントが既遂行されていない場合にのみ前記全域アラインメントを遂行する、請求項5に記載の塩基配列アラインメントシステム。
  7. 前記基準値は、次の数式
    H=L−f*e−2s
    (ここで、Hは基準値、Lはリード配列の長さ、fは断片配列の長さ、eはリード配列の最大エラー個数、sは各断片配列の移動間隔である)、又は
    H=f+s
    より計算される値のうち大きい値である、請求項1に記載の塩基配列アラインメントシステム。
  8. 前記基準値は、次の数式
    f+s<=H<=T−(f+s)
    を満たす、請求項7に記載の塩基配列アラインメントシステム。
  9. 前記基準値は、16以上59以下である、請求項1に記載の塩基配列アラインメントシステム。
  10. リード(read)配列を参照配列にアラインメントするための方法であって、断片配列生成部で、前記リード配列から複数の断片(fragment)配列を生成する段階と、フィルタリング部で、生成された前記複数の断片配列から候補断片配列集合を構成する段階と、断片配列拡張部で、生成された前記候補断片配列それぞれの前記参照配列でのマッピング位置の個数を計算する段階と、前記断片配列拡張部で、計算された前記マッピング位置の個数が設定された値を超える断片配列を選択する段階と、前記断片配列拡張部で、前記参照配列でのマッピング位置の個数が前記設定された値以下になるまで選択された断片配列のサイズを拡張する段階と、マッピング長さ計算部で、前記参照配列を複数の区間に分割し、各区間別に前記候補断片配列の総マッピング長さを計算する段階と、アラインメント部で、計算された前記総マッピング長さが基準値以上の区間を選択し、選択された区間に対して前記リード配列に対する全域アラインメント(global alignment)を遂行する段階とを含む塩基配列アラインメント方法。
  11. 前記断片配列を生成する段階は、前記リード配列の一番目の塩基から設定された間隔ほど移動しながら設定されたサイズほど前記リード配列の値を読み取ることによって、前記断片配列を生成する、請求項10に記載の塩基配列アラインメント方法。
  12. 前記候補断片配列集合を構成する段階は、前記参照配列との一致・整合(exact matching)の結果、不一致となる塩基の数が設定された個数以下である断片配列を前記候補断片配列集合に含ませる、請求項10に記載の塩基配列アラインメント方法。
  13. 前記選択された断片配列のサイズを拡張する段階は、前記選択された断片配列の最初又は最後の部分に、該当位置に対応する前記リード配列での塩基を追加するように構成される、請求項10に記載の塩基配列アラインメント方法。
  14. 前記全域アラインメントを遂行する段階は、前記候補断片配列の中から前記選択された区間にマッピングされる候補断片配列を選択し、選択されたそれぞれの候補断片配列の前記参照配列内でのマッピング位置で前記リード配列に対する全域アラインメントを遂行する、請求項10に記載の塩基配列アラインメント方法。
  15. 前記全域アラインメントを遂行する段階は、前記選択された区間を複数の小区間に分割する段階と、前記全域アラインメントを遂行しようとする前記参照配列内の位置が属する小区間で全域アラインメントが既遂行されたか否かを判断する段階をさらに含み、前記判断の結果、全域アラインメントが既遂行されていない場合にのみ前記全域アラインメントを遂行する、請求項14に記載の塩基配列アラインメント方法。
  16. 前記基準値は、次の数式
    H=L−f*e−2s
    (ここで、Hは基準値、Lはリード配列の長さ、fは断片配列の長さ、eはリード配列の最大エラー個数、sは各断片配列の移動間隔である)、又は
    H=f+s
    より計算される値のうち大きい値である、請求項10に記載の塩基配列アラインメント方法。
  17. 前記基準値は、次の数式
    f+s<=H<=T−(f+s)
    を満たす、請求項16に記載の塩基配列アラインメント方法。
  18. 前記基準値は、16以上59以下である、請求項10に記載の塩基配列アラインメント方法。
  19. リード配列から複数の断片(fragment)配列を生成する断片配列生成部と、生成された前記複数の断片配列から候補断片配列集合を構成するフィルタリング部と、参照配列を複数の区間に分割し、各区間別に前記候補断片配列の総マッピング長さを計算するマッピング長さ計算部と、計算された前記総マッピング長さが基準値以上の区間を選択し、選択された区間に対して前記リード配列に対する全域アラインメント(global alignment)を遂行するアラインメント部とを備える塩基配列アラインメントシステム。
JP2013033518A 2012-10-29 2013-02-22 塩基配列アラインメントシステム及び方法 Expired - Fee Related JP5612144B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20120120649A KR101508817B1 (ko) 2012-10-29 2012-10-29 염기 서열 정렬 시스템 및 방법
KR10-2012-0120649 2012-10-29

Publications (2)

Publication Number Publication Date
JP2014089690A true JP2014089690A (ja) 2014-05-15
JP5612144B2 JP5612144B2 (ja) 2014-10-22

Family

ID=47757455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013033518A Expired - Fee Related JP5612144B2 (ja) 2012-10-29 2013-02-22 塩基配列アラインメントシステム及び方法

Country Status (5)

Country Link
US (1) US20140121983A1 (ja)
EP (1) EP2725509A1 (ja)
JP (1) JP5612144B2 (ja)
KR (1) KR101508817B1 (ja)
CN (1) CN103793625A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101480897B1 (ko) * 2012-10-29 2015-01-12 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
NL2013120B1 (en) * 2014-07-03 2016-09-20 Genalice B V A method for finding associated positions of bases of a read on a reference genome.
US20180067992A1 (en) * 2016-09-07 2018-03-08 Academia Sinica Divide-and-conquer global alignment algorithm for finding highly similar candidates of a sequence in database
CN108614954B (zh) * 2016-12-12 2020-07-28 深圳华大基因科技服务有限公司 一种二代序列的短序列纠错的方法和装置
CN112825268B (zh) * 2019-11-21 2024-05-14 深圳华大基因科技服务有限公司 测序结果比对方法及其应用
CN111402956A (zh) * 2020-02-28 2020-07-10 苏州浪潮智能科技有限公司 一种序列比对方法、装置、设备、介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004234297A (ja) * 2003-01-30 2004-08-19 Biomatics Inc 生物学的な配列情報処理装置
US20110270533A1 (en) * 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences
US20110295514A1 (en) * 2010-05-13 2011-12-01 Life Technologies Corporation Computational Methods For Translating A Sequence Of Multi-Base Color Calls To A Sequence Of Bases
JP2012078880A (ja) * 2010-09-30 2012-04-19 Mitsubishi Space Software Kk ゲノム配列特定装置、ゲノム配列特定プログラムおよびゲノム配列特定装置のゲノム配列特定方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101726195B1 (ko) * 2010-08-25 2017-04-13 삼성전자주식회사 공진 전력 전달 시스템에서 공진 임피던스 트래킹 장치 및 방법
CN102206704B (zh) * 2011-03-02 2013-11-20 深圳华大基因科技服务有限公司 组装基因组序列的方法和装置
CN102682226B (zh) * 2012-04-18 2015-09-30 盛司潼 一种核酸测序信息处理系统及方法
KR101480897B1 (ko) * 2012-10-29 2015-01-12 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
KR101506371B1 (ko) * 2012-10-29 2015-03-26 삼성에스디에스 주식회사 중복을 고려한 염기 서열 재조합 시스템 및 방법
KR101508816B1 (ko) * 2012-10-29 2015-04-07 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
KR101482011B1 (ko) * 2012-10-29 2015-01-14 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
KR101481457B1 (ko) * 2012-10-29 2015-01-12 삼성에스디에스 주식회사 리드 전체를 고려한 염기 서열 정렬 시스템 및 방법
KR101584857B1 (ko) * 2013-09-03 2016-01-12 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004234297A (ja) * 2003-01-30 2004-08-19 Biomatics Inc 生物学的な配列情報処理装置
US20110270533A1 (en) * 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences
US20110295514A1 (en) * 2010-05-13 2011-12-01 Life Technologies Corporation Computational Methods For Translating A Sequence Of Multi-Base Color Calls To A Sequence Of Bases
JP2012078880A (ja) * 2010-09-30 2012-04-19 Mitsubishi Space Software Kk ゲノム配列特定装置、ゲノム配列特定プログラムおよびゲノム配列特定装置のゲノム配列特定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GREGORY G. FAUST, IRA M. HALL: "YAHA: fast and flexible long-read alignment with optimal breakpoint detection", BIOINFORMATICS, vol. 28, no. 19, JPN6014033862, 1 October 2012 (2012-10-01), pages 2417 - 2424, XP055101444, ISSN: 0002873935, DOI: 10.1093/bioinformatics/bts456 *

Also Published As

Publication number Publication date
KR20140056559A (ko) 2014-05-12
EP2725509A1 (en) 2014-04-30
JP5612144B2 (ja) 2014-10-22
US20140121983A1 (en) 2014-05-01
CN103793625A (zh) 2014-05-14
KR101508817B1 (ko) 2015-04-08

Similar Documents

Publication Publication Date Title
JP5612144B2 (ja) 塩基配列アラインメントシステム及び方法
KR101508816B1 (ko) 염기 서열 정렬 시스템 및 방법
KR101481457B1 (ko) 리드 전체를 고려한 염기 서열 정렬 시스템 및 방법
Varma et al. Fassem: Fpga based acceleration of de novo genome assembly
US9323889B2 (en) System and method for processing reference sequence for analyzing genome sequence
KR101480897B1 (ko) 염기 서열 정렬 시스템 및 방법
Sahli et al. Arapan-S: a fast and highly accurate whole-genome assembly software for viruses and small genomes
JP2013183737A (ja) シードの長さを考慮した塩基配列処理システム及び方法
KR101584857B1 (ko) 염기 서열 정렬 시스템 및 방법
NL2013120B1 (en) A method for finding associated positions of bases of a read on a reference genome.
US20140379271A1 (en) System and method for aligning genome sequence
EP3539038B1 (en) Reduced memory nucleotide sequence comparison
JP2005078407A (ja) データ探索方法、データ探索装置、データ探索プログラム及びそのプログラムを記録した記録媒体
Waldl et al. Modeling Kinetics of RNA RNA Interactions on Direct Paths
Milicchio et al. Hercool: high-throughput error correction by oligomers
US20140121988A1 (en) System and method for aligning genome sequence considering repeats
KR101482011B1 (ko) 염기 서열 정렬 시스템 및 방법
CN113555061B (zh) 一种无参考基因组的变异检测的数据工作流处理方法
US20140214332A1 (en) System and method for recombination of genome sequence considering read length
Kovác et al. Aligning sequences with repetitive motifs.
Xin Methods for reducing unnecessary computation on false mappings in read mapping
Segundo et al. A scalable parallel reconfigurable hardware architecture for DNA matching
Kubalík Evolutionary-based iterative local search algorithm for the shortest common supersequence problem
Rezar Sestavljanje genoma iz odčitkov zaporedja
JP2005190248A (ja) 配列探索システムおよび探索プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140903

R150 Certificate of patent or registration of utility model

Ref document number: 5612144

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees