JP5781486B2

JP5781486B2 - シードの長さを考慮した塩基配列処理システム及び方法

Info

Publication number: JP5781486B2
Application number: JP2012227078A
Authority: JP
Inventors: パク、ミン‐ソ
Original assignee: サムソンエスディーエスカンパニーリミテッド
Priority date: 2012-03-06
Filing date: 2012-10-12
Publication date: 2015-09-24
Anticipated expiration: 2032-10-12
Also published as: CN103310128B; EP2639724A2; CN103310128A; KR101394339B1; JP2013183737A; US20130238250A1; EP2639724A3; KR20130101711A; US9348968B2

Description

本発明は、ゲノムの塩基配列を分析するための技術に関する。

次世代シークエンシング技術(ＮＧＳ：ｎｅｘｔ−ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇ)の出現とＤＮＡシークエンシング(ｓｅｑｕｅｎｃｉｎｇ：塩基配列解読)の費用減少により遺伝医学(ｍｅｄｉｃａｌｇｅｎｅｔｉｃｓ)と集団遺伝学(ｐｏｐｕｌａｔｉｏｎｇｅｎｅｔｉｃｓ)研究のために大規模でヒトゲノムの塩基配列を生産することが可能になった。塩基配列の分析のために使われるＮＧＳシーケンサーは、長さは非常に短いが数十億個の断片配列(リード：ｒｅａｄ)を生産することができる。各個人のゲノム配列は、生産されたリードが対象塩基配列のどの所に位置するかを決定するリシークエンシング(Ｒｅｓｅｑｕｅｎｃｉｎｇ：Ｉｎｄｅｘｉｎｇ、ＭａｐｐｉｎｇａｎｄＡｌｉｇｎｍｅｎｔ)作業を通じて作られる。

初期のゲノム分析システムは、主に分析の正確度を目的として開発された。しかし、最近には、次世代シークエンシング技術が一般化されることに従って、分析の基礎になるリード(断片配列)を作り上げる費用が以前に比べて大幅に減少して分析時に使用可能なデータの量が増加した。これによって、大容量のリードを迅速で且つ正確に処理するための技術が必要になった。

したがって、本発明は上述したような従来技術の問題点を解決するためになされたもので、その目的は、ゲノム塩基配列分析において分析速度及び正確性を向上させるための塩基配列処理システム及び方法を提供することにある。

本発明の一実施例による塩基配列処理システムは、対象塩基配列からシード(ｓｅｅｄ)を抽出するシード抽出部、及び前記シード抽出部で抽出される前記シードをインデキシングするインデックス生成部を含み、抽出される前記シードの長さは、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度を考慮して決まるように構成される。

また、本発明の一実施例による装置は、一つ以上のプロセッサと、メモリーと、一つ以上のプログラムと、を含む装置として、前記一つ以上のプログラムは、前記メモリーに保存されて前記一つ以上のプロセッサにより実行されるように構成され、前記プログラムは、対象塩基配列からシード(ｓｅｅｄ)を抽出する過程と、抽出された前記シードをインデキシングする過程と、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度を考慮して前記シードの長さを決定する過程と、を含む。

また、本発明の一実施例による塩基配列処理方法は、塩基配列処理システムで、前記対象塩基配列からシード(ｓｅｅｄ)を抽出する段階、及び前記塩基配列処理システムで、抽出された前記シードをインデキシングする段階を含み、前記シードの長さは、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度を考慮して決まるように構成される。

また、本発明の一実施例による塩基配列処理方法は、塩基配列処理システムで、前記対象塩基配列からシード(ｓｅｅｄ)を抽出する段階を含み、前記シードの長さは、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度を考慮して設定するように構成される。

本発明は、塩基配列の処理時に抽出されるシードの長さを適切に調節することで、ゲノム塩基配列の分析速度及び正確性を向上させることができる長所がある。

塩基配列からシードを抽出する過程を例示した図。ゲノム塩基配列(ｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇ)の分析過程を説明するためのフローチャート。ゲノム塩基配列の分析においてリードのマッピング過程を説明するための図。本発明の一実施例による塩基配列処理システムのブロック構成図。シード長さによるヒトゲノム内でのシードの平均登場頻度を示したグラフ。本発明の一実施例による塩基配列処理方法を示したフローチャート。

以下、図面を参照して本発明の具体的な実施形態について説明する。しかし、これは例示に過ぎず、本発明はこれに限定されない。

本発明の説明において、本発明と関連された公知技術に対する具体的な説明が本発明の要旨を不必要に曖昧にすると判断される場合には、その詳細な説明を省略する。また、後述される用語は、本発明における機能を考慮して定義された用語として、これは使用者、運用者の意図または慣例などによって変わることができる。したがって、その定義は本明細書の全般的な内容を土台で行われる。

本発明の技術的思想は請求範囲により決定され、以下の実施例は、本発明の技術的思想を本発明が属する技術分野において通常の知識を有した者に効果的に説明するための一つの手段である。

本発明の実施例を詳しく説明する前に、本発明で使われる用語に対して説明すれば、次のようである。

まず、『リード(ｒｅａｄ)』とは、ゲノムシーケンサー(ｇｅｎｏｍｅｓｅｑｕｅｎｃｅｒ)から出力される塩基配列の断片(ｆｒａｇｍｅｎｔ)である。リードの長さは、ゲノムシーケンサーの種類によって多様に構成され、例えば、３５〜５００ｂｐ(ｂａｓｅｐａｉｒ)程度の長さを有することができる。一般的に、ＤＮＡ塩基の場合、Ａ、Ｃ、Ｇ、Ｔのアルファベット文字で表現される。

『対象塩基配列』とは、前記リードから全体塩基配列を生成するにおいて参照になる塩基配列を意味する。すなわち、塩基配列分析では、ゲノムシーケンサーから出力される多量のリードを、対象塩基配列を参照してマッピングすることで全体塩基配列を完成する。本発明において前記対象塩基配列は、塩基配列の分析時に予め設定された配列(例えば、人間の全体塩基配列など)であってもよいし、または、ゲノムシーケンサーで作られた塩基配列を対象塩基配列で使用してもよい。

『ベース(ｂａｓｅ)』は、対象塩基配列及びリードを構成する最小単位である。上述のように、ＤＮＡ塩基の場合、Ａ、Ｃ、Ｇ及びＴの４種類のアルファベット文字で構成され、これら各々をベースと表現する。言い換えれば、ＤＮＡ塩基の場合、４個のベースで表現され、これはリードも同様である。但し、対象塩基配列の場合、多様な理由(シークエンシングエラー、サンプルのエラーなど)により特定位置の塩基をＡ、Ｃ、ＧまたはＴの中でどのベースで表現するか不明な場合が発生することができ、通常的に、このような不明なベースの場合、Ｎなどの別途の文字で表記する。

『シード(ｓｅｅｄ)』は、リードのマッピングのためにリードと対象塩基配列を比較する時の単位になるシーケンスである。理論的にリードを対象塩基配列にマッピングするためには、リード全体を対象塩基配列の一番目の部分から順次に比べて行きながらリードのマッピング位置を計算する。しかし、このような方法の場合、一つのリードをマッピングするためにとても長い時間及び多量のコンピュータパワーが要求されるので、実際では、対象塩基配列のはじめから一ベースずつ移動しながら対象塩基配列を設定された長さほど読み込んだ後、これをハッシング(ｈａｓｈｉｎｇ)してハッシュテーブル(ｈａｓｈｔａｂｌｅ)を構築し、これを利用してリードのマッピング位置を計算する。この時、前記ハッシングのための対象塩基配列の断片がシードになる。但し、場合によってリードの断片がシードになってもよい。シードの長さは、リードの長さより短く構成することができ、これは対象塩基配列の長さ、構築されるハッシュテーブルの容量などを考慮して適切に決定することができる。

図１は、対象塩基配列からシードを抽出する過程を例示した図で、対象塩基配列の初部分から一ベースずつ移動しながら１０ｂｐ長さほど対象塩基配列の値を読み込んでシードを抽出する過程を示している。抽出された各々のシードは、全て同一な長さ(図示された実施例の場合１０ｂｐ)を有し、その値は、シードが抽出された対象塩基配列の位置によって変わるようになる。図示された実施例において、抽出された一番目のシードは、対象塩基配列の一番目から十番目までの値、すなわち、ＧＴＧＧＣＡＡＴＴＡの値を有し、三番目のシードは、対象塩基配列の三番目から十二番目までの値、すなわち、ＧＧＣＡＡＴＴＡＡＡの値を有する。

図２は、ゲノム塩基配列(ｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇ)の分析過程２００を例示するためのフローチャートである。ゲノム塩基配列分析は、シーケンサーから出力される大量の短いリードを対象塩基配列にマッピングさせて全体ゲノム配列を得るための過程である。

まず、対象塩基配列からシードを抽出する(ステップＳ２０２)。図１に示したように、この段階では、対象塩基配列の初部分から一ベースずつ順次に移動しながら設定された長さほど前記対象塩基配列の値を読み込んで複数個のシードを抽出するように構成することができる。

次に、ステップＳ２０２で抽出されたシードを、ハッシュ関数(ｈａｓｈｆｕｎｃｔｉｏｎ)を利用してハッシングし、それからハッシュテーブルを構成する(ステップＳ２０４)。この時、前記ハッシュテーブルのキー(ｋｅｙ)は、シードから生成されたハッシュ値であり、値(ｖａｌｕｅ)は該当シードの対象塩基配列での位置情報(例えば、ポインタ)で構成することができる。

次に、シーケンサーから入力された遺伝子に対する複数個のリードを抽出して(ステップＳ２０６)、前記ハッシュテーブルを利用して抽出されたリードを対象塩基配列にマッピングする(ステップＳ２０８)。

図３は、上述のようなリードの対象塩基配列へのマッピング過程を説明するための図である。まず、ステップＳ２０６で抽出されたリードの前部分をシード長さほど読み込んだ後(図示された実施例では、リードの前部分をシードで設定したが、実際にシードはリードのどの部分でも設定することができる。但し、リードの前部分の正確度(ｑｕａｌｉｔｙ)が一般的に高いので、主にリードの前部分をシードで使うようになる)、ハッシュテーブルを検索して該当シードに対応する対象塩基配列内の位置情報を抽出する。この場合、シードの長さによって相異であるが、通常的に一つ以上の位置情報が導出される(図面ではＬ_１及びＬ_２の２個の位置情報が抽出される)。以後、導出された各々の位置でリードの残りの部分を対象塩基配列と対照してリードの正確なマッピング位置を決定する。図示された実施例の場合、２個の候補位置の中で、Ｌ_１ではリードが対象塩基配列に対応(一致)しないが、Ｌ_２では対応することで判断されるところ、最終的に、リードは、Ｌ_２位置にマッピングされる。

最後に、前記のような過程を経てマッピングされた各リードを連結することで一つの塩基配列が完成される(ステップＳ２１０)。

図４は、本発明の一実施例による塩基配列処理システム４００のブロック構成図である。本発明の実施例において、塩基配列処理システム４００は、別途のシステムで構成するかまたは塩基配列分析のためのシステム内の一要素で含んでもよい。

図４に示したように、本発明の一実施例による塩基配列処理システム４００は、シード抽出部４０２及びインデックス生成部４０４を含む。

シード抽出部４０２は、対象塩基配列からシード(ｓｅｅｄ)を抽出する。この時、前記対象塩基配列は、例えば、塩基配列分析のための全体塩基配列、すなわち、参照配列(ｒｅｆｅｒｅｎｃｅｓｅｑｕｅｎｃｅ)である。しかし、本発明の対象塩基配列は、これに限定されるものではないで、例えば、シーケンサーから抽出されるリード(ｒｅａｄ)も本発明での対象塩基配列になる。すなわち、本発明で対象塩基配列は、シードを抽出するために基礎になる全ての種類の塩基配列を含む。

シード抽出部４０２は、前記対象塩基配列の初部分から一ベースずつ順次に移動しながら設定された長さほど前記対象塩基配列の値を読み込んで複数個のシードを抽出するように構成することができる。この時、抽出される前記シードの長さは、前記対象塩基配列から抽出される全体シードの中で同一な配列を有するシードの頻度を考慮して決定される。これに対する詳細な説明は後述する。

インデックス生成部４０４は、シード抽出部４０２で抽出される前記シードをインデクシングする。具体的に、インデックス生成部４０４は、シード抽出部４０２で抽出されたシードを、ハッシュ関数を利用してハッシング(ｈａｓｈｉｎｇ)し、ハッシングされたシードをキー(ｋｅｙ)とするハッシュテーブルを生成することで前記シードをインデキシングするように構成される。

以下、シード抽出部４０２で抽出されるシードの長さを決定する過程に対して説明する。

塩基配列の分析で生成される塩基配列の正確度を高めるためには、シーケンサーから算出されるリードが対象塩基配列上に均一に分布されなければならない。このためには、シードの重複(同一配列を有するシードの個数)を減らす必要がある。例えば、次のような形態の対象塩基配列を仮定する。

ＡＣＴＣＴＧＧＴＧＣＡＴＡＣＣＴＣＣＴＧＧＣＴＧＧＡＣＴＣＴＧＧ

前記対象塩基配列から長さが６であるシードを抽出する場合には、ＡＣＴＣＴＧ、ＣＴＣＴＧＧが各々２回ずつ重複されるが、シードの長さを３とする場合には、その配列がＴＧＣであるシードが５回繰り返される。すなわち、シードの長さが減るほどシードの重複が増えて、これによって、リードのマッピング候補位置も増加するようになる。例えば、シードの長さが３である前記例から抽出されたリードの前部分がＴＧＣで始める場合、該当リードは、総５個の候補位置で比較を実行しなければならないので、それほどマッピング時間が増加してマッピングの正確度が減少するようになる。

シードの長さをＳ、対象塩基配列を構成するベースの個数をＢとする時、シードの長さによって生成可能なシードの個数は、次の数学式のように求めることができる。

［数１］
生成可能なシードの個数＝Ｂ^Ｓ

前記数学式において、対象塩基配列がＡ、Ｃ、Ｇ、Ｔの４個の塩基で構成された場合、Ｂ値は、４になり、不明なベース(Ｎ)をさらに含む場合、Ｂ値は、５になる。

シードを抽出するための全体対象塩基配列の長さをＲとすれば(例えば、ヒト(ｈｕｍａｎ)の塩基配列を対象塩基配列にする場合、Ｒは約３＊１０^９)、対象塩基配列の全体で同一な配列を有するシードの個数(重複されるシードの個数)は、平均的に次のように求めることができる。

［数２］
重複されるシードの個数＝Ｒ／Ｂ^Ｓ

表１は、ヒトゲノムでのシード長さ別に重複されるシードの個数の平均を示す。

前記対象塩基配列から抽出されるシードの中で重複されるシードの個数の目標値(または設定値)をｋと仮定すれば、ｋは、次のような数式を満足する。言い換えれば、重複されるシードの個数の平均値は前記目標値以内である。

これを整理すれば、シードの長さは、次の数学式のように表現される。

前記数学式において、ｋ値は、３以下、好ましくは、２または３であることがこのましい。上述のように、ｋ値が小さいほど(すなわち、シードの重複数が少ないほど)リードのマッピング時のマッピング候補位置の個数が少なくなるので、マッピングの速度及び正確度が上昇する。但し、ｋ値によってシードの長さが過度に短くなる場合には、シードと完全に一致しないリードが存在してマッピングが不可能であるか、ハッシュテーブルの容量が大きすぎるようになるなどの問題が発生するので、これを考慮して適切にｋ値を決める。

一方、前記対象塩基配列がヒト(ｈｕｍａｎ)のゲノム配列の場合、前記数学式４による時、シードの長さ(Ｓ)は、１５以上になるように決まることができる。次の表２は、シード長さによるヒトゲノム内でのシードの平均登場頻度を示すものであり、図５は、これをグラフで示した図である。

前記表から分かるように、シードの長さが１４以下の場合には、シード別に頻度が１０以上であるが、１５の場合には、３以下で減少することが分かる。すなわち、シードの長さを１５以上に構成する場合、１４以下で構成する場合に比べてシードの重複を大幅に減少させることができる。

また、前記シードの長さは、インデックス生成部４０４で生成されるインデックスの容量及び塩基配列処理システム１００に含まれたメモリー容量を考慮して決まってもよい。前記シードの長さが長くなるほどそれから生成されるハッシュテーブルの容量も増加するようになり、これによって、ハッシュテーブルの容量が塩基配列処理システム１００に含まれたメモリー容量を超過する場合が発生できる。したがって、シードの長さを決定するにおいては、このような事項を一緒に考慮することが好ましい。例えば、前記対象塩基配列がヒト(ｈｕｍａｎ)のゲノム配列の場合、インデックスの容量及びメモリー容量(例えば単一ノードのメモリー容量)などを考慮した前記シードの長さは、３０以下になるように決定することができる。

図６は、本発明の一実施例による対象配列処理方法６００を示したフローチャートである。

まず、対象塩基配列からシード(ｓｅｅｄ)を抽出する(ステップＳ６０２)。上述のように、この段階は、対象配列の初部分から一ベースずつ順次に移動しながら設定された長さほど前記対象塩基配列の値を読み込んで複数個のシードを抽出するように構成され、抽出される前記シードの長さは、前記対象塩基配列から抽出される全体シードの中で同一な配列を有するシードの頻度を考慮して決まる。前記シードの長さと関連された事項は、前で詳しく説明したので、ここではその反復説明を省略する。

次に、ステップＳ６０２で抽出される前記シードをインデキシングする(ステップＳ６０４)。具体的に、この段階は、抽出された前記シードを、ハッシュ関数を利用してハッシング(ｈａｓｈｉｎｇ)し、ハッシングされたシードをキー(ｋｅｙ)とするハッシュテーブルを生成することで前記シードをインデキシングする。

一方、本発明の実施例は、本明細書で記述した方法をコンピュータ上で実行するためのプログラムを含むコンピュータ判読が可能な記録媒体を含むことができる。前記コンピュータ判読が可能な記録媒体は、プログラム命令、ローカルデータファイル、ローカルデータ構造などを単独でまたは組み合わせて含むことができる。前記媒体は、本発明のために特別に設計されて構成されたものであるか、コンピュータソフトウェア分野で通常の知識を有した者に公知されて使用可能なものであってもよい。コンピュータ判読が可能な記録媒体の例には、ハードディスク、プロッピィーディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、プロッピィーディスクのような磁気−光媒体、及びＲＯＭ(ＲｅａｄＯｎｌｙＭｅｍｏｒｙ)、ＲＡＭ、フラッシュメモリーなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例には、コンパイラーにより作られる機械語コードだけではなく、インタプリターなどを使用してコンピュータにより実行することができる高級言語コードを含むことができる。

以上、代表的な実施例を通じて本発明に対して詳細に説明したが、本発明が属する技術分野における通常の知識を有する者であれば、上述した実施例に対して本発明の技術的思想を逸脱しない範囲内で、多様な変形が可能である。

したがって、本発明の権利範囲は、説明された実施例に限定されないで、後述する特許請求の範囲だけではなく、この特許請求範囲と均等なものなどにより決まる。

４００：塩基配列処理システム
４０２：シード抽出部
４０４：インデックス生成部

Claims

一つ以上のプロセッサと、
メモリーと、
一つ以上のプログラムと、を含む装置であって、
前記一つ以上のプログラムは、前記メモリーに保存されて前記一つ以上のプロセッサにより実行されるように構成され、
前記プログラムは、
対象塩基配列からシード(ｓｅｅｄ)を抽出する過程と、
抽出された前記シードをインデクシングする過程と、
前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度を考慮して前記シードの長さを決定する過程と、を含むことを特徴とする装置。
抽出される前記シードの長さは、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度が設定された値以下になるように決まることを特徴とする請求項１に記載の装置。
前記シードの長さは、次の数学式により決まることを特徴とする請求項１に記載の装置。
(この時、Ｓは、シードの長さ、Ｒは、対象塩基配列の長さ、Ｂは、前記対象塩基配列を構成するベース(ｂａｓｅ)の個数、ｋは、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度数設定値)
前記同一な配列を有するシードの頻度数設定値(ｋ)は、３以下に設定されることを特徴とする請求項３に記載の装置。
前記対象塩基配列がヒト(ｈｕｍａｎ)のゲノム配列の場合、前記シードの長さは、１５以上になるように決まることを特徴とする請求項１に記載の装置。
前記塩基配列処理システムは、メモリーをさらに含み、前記シードの長さは、前記インデックス生成部で生成されるインデックスの容量及び前記メモリー容量を考慮して決まることを特徴とする請求項１に記載の装置。
前記対象塩基配列がヒト(ｈｕｍａｎ)のゲノム配列の場合、前記シードの長さは、３０以下になるように決まることを特徴とする請求項１に記載の装置。
請求項１乃至請求項７のいずれか一項に記載の装置を含むことを特徴とするゲノム分析システム。
塩基配列を処理するためのコンピュータで、前記対象塩基配列からシード(ｓｅｅｄ)を抽出する段階と、
前記コンピュータで、抽出された前記シードをインデキシングする段階と、
前記コンピュータで、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度を考慮して前記シードの長さを決定する段階と、を含むことを特徴とする塩基配列処理方法。
前記シードを抽出する段階で抽出される前記シードの長さは、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度が設定された値以下になるように決まることを特徴とする請求項９に記載の塩基配列処理方法。
前記シードの長さは、次の数学式によって決まることを特徴とする請求項９に記載の塩基配列処理方法。
(この時、Ｓは、シードの長さ、Ｒは、対象塩基配列の長さ、Ｂは、前記対象塩基配列を構成するベース(ｂａｓｅ)の個数、ｋは、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度数設定値)
前記同一な配列を有するシードの頻度数設定値(ｋ)は、３以下に設定されることを特徴とする請求項１１に記載の塩基配列処理方法。
前記対象塩基配列がヒト(ｈｕｍａｎ)のゲノム配列の場合、前記シードの長さは、１５以上にあるように決まることを特徴とする請求項９に記載の塩基配列処理方法。
前記シードの長さは、前記インデックス生成段階で生成されるインデックスの容量及び前記コンピュータに含まれたメモリー容量を考慮して決まることを特徴とする請求項９に記載の塩基配列処理方法。
前記対象塩基配列がヒト(ｈｕｍａｎ)のゲノム配列の場合、前記シードの長さは、３０以下になるように決まることを特徴とする請求項９に記載の塩基配列処理方法。
塩基配列を処理するためのコンピュータで、前記対象塩基配列からシード(ｓｅｅｄ)を抽出する段階を含み、
前記コンピュータで、前記対象塩基配列から抽出されるシードの中で同一な配列を有するシードの頻度を考慮して前記シードの長さを決定する段階と、を含むことを特徴とする塩基配列処理方法。
前記対象塩基配列がヒト(ｈｕｍａｎ)のゲノム配列の場合、前記シードの長さは、１５以上になるように決まることを特徴とする請求項１６に記載の塩基配列処理方法。