JP2004240975A

JP2004240975A - Ｄｎａ配列符号化装置及び方法

Info

Publication number: JP2004240975A
Application number: JP2004027231A
Authority: JP
Inventors: Tae-Jin Ahn; 兌臻安
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-02-03
Filing date: 2004-02-03
Publication date: 2004-08-26
Anticipated expiration: 2024-02-03
Also published as: EP1443449A2; US20040153255A1; JP4608221B2; EP1443449A3; CN100367189C; CN1536068A

Abstract

【課題】ＤＮＡ配列符号化装置及び方法を提供する。
【解決手段】比較部１１０は、ＤＮＡ情報が知られた参照配列とコーディングされる対象配列とが最大限に一致するように整列した後、差異点を抽出する。変換部１３０は、抽出された参照配列と対象配列との差異点を所定の文字を利用して文字列に変換する。コーディング部１４０は、コード貯蔵部に貯蔵されているそれぞれの文字に対応する所定のコードを利用して文字列を構成するそれぞれの文字をコーディングする。圧縮部１５０は、コーディング結果を通常の圧縮方法を利用して圧縮し、圧縮された結果は配列貯蔵部に貯蔵される。
【選択図】図１

Description

本発明は、ＤＮＡ配列符号化装置及び方法に係り、より詳細には、より効率的な圧縮によって貯蔵空間及び伝送トラフィックの容量を減らすことができ、ＤＮＡ配列の貯蔵及び伝送時に安全が維持できるようにＤＮＡ配列を符号化する装置及び方法に関する。

生命工学が発達するにつれて個体の遺伝情報を構成するＤＮＡ配列が明らかになっている。このような研究はコンピュータに助けられて行われ、このためにＤＮＡ配列をコンピュータで利用できる形態に変換して保存する必要がある。これによって、ＤＮＡ配列を保存する必要性がだんだん高まっている。しかし、ＤＮＡ配列は情報量が相当大きいために相当な貯蔵及び伝送コストがかかる。したがって、ＤＮＡ配列の貯蔵、伝送、検索などのためにＤＮＡ配列の圧縮が要求される。

ＤＮＡ配列の圧縮方法には、大きく辞書圧縮法と非辞書圧縮法とがある。このうち、辞書圧縮法の圧縮率が高く、一般的な環境下で７０−８０％の圧縮率を見せる。しかし、このような圧縮技術はゲノム全体領域に至るサイズのＤＮＡ配列には適用し難いという短所がある。

最近発表されたＤＮＡ配列の圧縮技術のうち、性能が最も良好な技術は全体ゲノムを圧縮するのにも適用されうる。これによれば、一般的な環境下で７０−８０％の圧縮率が保証でき、大腸菌ゲノムの場合、９６.６％の圧縮率を保証すると発表された。しかし、このような圧縮率は単純な推定値に過ぎず、このような圧縮率を達成するための具体的な構成が提示されていないのが現状である。

本発明が解決しようとする技術的課題は、効率的な圧縮により貯蔵空間及び伝送トラフィックの容量を減らすことができ、ＤＮＡ配列の貯蔵及び伝送時に安全が維持できるようなＤＮＡ配列を符号化する装置及び方法を提供するところにある。

本発明が解決しようとする他の技術的課題は、効率的な圧縮により貯蔵空間及び伝送トラフィックの容量を減らすことができ、ＤＮＡ配列の貯蔵及び伝送時に安全が維持できるようにＤＮＡ配列を符号化する方法をコンピュータで実行させるためのプログラムを記録したコンピュータ読取り可能な記録媒体を提供するところにある。

前記の技術的課題を達成するための、本発明によるＤＮＡ配列符号化装置は、ＤＮＡ情報が知られた参照配列を基準として、符号化する対象配列を整列し、前記参照配列と前記対象配列との差異点を抽出する比較部と、前記抽出された参照配列と対象配列との差異点を所定の文字によって文字列に変換する変換部と、前記それぞれの文字に対応する所定の変換コードが貯蔵されるコード貯蔵部と、前記文字列を構成するそれぞれの文字を前記変換コードによってコーディングするコーディング部と、を具備する。

前記の他の技術的課題を達成するための、本発明によるＤＮＡ配列符号化方法は、ＤＮＡ情報が知られた参照配列を基準として、符号化する対象配列を整列する段階と、前記参照配列と前記対象配列との差異点を抽出する段階と、前記抽出された参照配列と対象配列との差異点を所定の文字によって文字列に変換する段階と、前記文字列を構成するそれぞれの文字をそれぞれの文字に対応する所定の変換コードによってコーディングする段階と、を含む。

これにより、ＤＮＡ配列を９０％以上の圧縮効率で情報の損失なしに圧縮して貯蔵でき、安全性が高められる。また、高効率でＤＮＡ配列を圧縮できるので、ゲノム配列やゲノム特定領域に対する多数のＤＮＡ配列を貯蔵するのに利用できる。

本発明によるＤＮＡ配列符号化装置及び方法によれば、９０％以上の圧縮効率で情報の損失なしにＤＮＡ配列を圧縮して貯蔵できる。また、高効率でＤＮＡ配列を圧縮できるので、ゲノム配列やゲノム特定領域に対する多数のＤＮＡ配列を貯蔵するのに利用できる。例えば、特定疾患を引き起こす遺伝子が発見されて一万人の患者に対し、その遺伝子の配列を解読して貯蔵する場合、データを圧縮して貯蔵することによって貯蔵空間を減らすことができる。さらに、データの伝送速度及び検索効率を高めることができる。また、ＤＮＡ配列の差異点のみを記録するので、相異なるＤＮＡ配列の効率的な比較・検索に応用できる。例えば、特定疾患を引き起こす遺伝子に対して、一万人の患者と正常人とのＤＮＡ配列が存在する場合には、一万人の患者と正常人との差、および、正常人と正常人との差を示す配列を効率的に検索できる。一方、参照配列を変形した後、ＤＮＡ配列を符号化することによって、ＤＮＡ配列情報の貯蔵及び伝送時の安全性を高めることができる。この際、多様に変形された多数の参照配列のうち選択された参照配列を秘密鍵として使用すると、より高い安全効果が得られる。

以下、添付した図面を参照して本発明によるＤＮＡ配列符号化装置及び方法の望ましい実施例について詳細に説明する。

図１は、本発明によるＤＮＡ配列符号化装置に対する一実施例の構成を図示するブロック図である。

図１を参照すれば、本発明によるＤＮＡ配列符号化装置１００は、比較部１１０、分割部１２０、変換部１３０、コーディング部１４０、圧縮部１５０、コード貯蔵部１６０、及び配列貯蔵部１７０を有する。

比較部１１０は、ＤＮＡ情報が知られた参照配列を基準として、符号化される対象配列を整列した後、差異点を抽出する。この際、比較部１１０は、参照配列と対象配列とが最大限に一致するように整列する。分割部１２０は、抽出された参照配列と対象配列との差異点を、一定サイズの断片に分割する。前記断片のサイズは、配列貯蔵部１７０の全体容量の１５％のサイズであることが望ましい。図２にはＮＣＢＩが提供する基本ツールであるｂｌａｓｔを使用して参照配列と対象配列とを比較した結果が示されている。比較結果は、ｔｅｘｔ、ｈｔｍｌ、ｘｍｌなどのような形式の文書で出力できる。また、公知の構文解析法を利用すれば、比較結果から参照配列と対象配列との差異点のみが抽出できる。

変換部１３０は、抽出された参照配列と対象配列との差異点を１６個の文字を利用して文字列に変換する。参照配列と対象配列とを整列する際に現れうる配列の差異点は６つのパターンに区分できる。変換部１３０は、このような６つのパターンを１６個の文字を使用して参照配列と対象配列との差異点を文字列で表現する。１６個の文字は、数字１０種、ＤＮＡ配列の種類を表す形態識別子４種、及び情報間の区分のための文字２種で構成される。表１には、参照配列と対象配列との差異点を表現する１６個の文字及び説明が記載されている。

以下、図３に示された参照配列と対象配列とを例に挙げて差異点を文字列に変換する原理について説明する。下記に提示された変換原理は１つの例であり、本発明の思想を逸脱しない範囲で多様な方法が採択できることは当業者に自明な事実である。

まず、差異点に対するパターンを分析する。以下の説明において、「Ｘ_ｎ」とは、参照配列を基準とする、塩基配列の位置を意味する。例えば、「Ｘ_６」とは、参照配列の０番目の塩基と定義された塩基の位置から、正の方向に６だけ移動した位置を意味する。

Ａ．開始領域不一致：Ｘ_−３からＸ_−１までの領域は、開始領域が一致しない領域であって、参照配列には存在しないｇａｃが対象配列には存在する。

Ｂ．空白：Ｘ_６からＸ_７までの領域は、対象配列に塩基が存在しない領域であって、参照配列に存在するｔａが対象配列には存在しない。

Ｃ．単一塩基対不一致：Ｘ_１１は、参照配列の塩基と対象配列の塩基とが一致しない地点である。

Ｄ．挿入：対象配列のＸ_１３とＸ_１４との間には、参照配列には存在しないａｔｇｃａｔが存在する。

Ｅ．多重塩基対不一致：Ｘ_１６からＸ_１８までの領域は、複数の塩基にわたって参照配列の塩基と対象配列の塩基とが一致しない領域である。

Ｆ．終了領域不一致：Ｘ_２３からＸ_２４までの領域は、終了領域が不一致である領域であって、参照配列には存在しないａｇが対象配列には存在する。

次に、差異点に対するパターンを順に文字に変換する。

パターンＡを文字列に変換すれば、「／−３〜３ｇａｃ／３」である。ここで、「／」は、差異点の開始を示す文字であり、「−３」は、差異点が始まる位置を表す文字であって、Ｘ_０を基準として負の方向に３だけ移動した位置から対象配列の塩基が存在することを示し、「〜」は、差異点が連続することを表す文字であり、「３」は、差異点の連続した長さを表す文字であり、「ｇａｃ」は、差異点のＤＮＡ配列を表す文字であり、「／」は、差異点の終了を表す文字であり、「３」は、差異点の開始位置から終了位置までの距離を表す文字である。この際、「−」の文字を表わすコードは、「００００００００」である。ここで、「−」は、文字列の最初の部分にのみ１回だけ現れる文字であるため、別に４ビットのコードを付与する必要がない。ただし、「−」の文字を示すコードである「００００００００」と、連続する２つのゼロの文字「００」を示すコードである「００００００００」とを区別するため、本発明の配列符号化装置において、文字列の最初の文字である「／」を示すコードである「１１１０」の次に、「００００００００」のコードが存在する場合には、この「００００００００」のコードは、「／」を示すコードであるものとする。

パターンＢを文字列に変換すれば、「／６／２」である。ここで、「／６」は、前記パターンＡの差異点の開始位置から終了位置までの距離を表す「３」によって決定された位置であるＸ_０から正の方向に６つ移動した位置であるＸ_６から差異点が始まることを意味する。また、「２」は、差異点の開始位置であるＸ_６から終了位置までの距離を表す。

パターンＣを文字列に変換すれば、「／３〜１ｃ／１」である。ここで、「／３」は、前記パターンＢの差異点の開始位置から終了位置までの距離を表す「２」によって決定された位置であるＸ_８から正の方向に３つ移動した位置であるＸ_１１から差異点が始まることを意味する。また、「〜１」は、連続する塩基の数が１つであることを意味し、「ｃ」は、差異点のＤＮＡ配列を表し、「１」は差異点の開始位置であるＸ_１１から終了位置までの距離を表す。

パターンＤを文字列に変換すれば、「／１〜６ａｔｇｃａｔ／１」である。ここで、「／１」は、前記パターンＣの差異点の開始位置から終了位置までの距離を表す「１」によって決定された位置であるＸ_１２から正の方向に１つ移動した位置であるＸ_１３から差異点が始まることを意味する。また、「〜６」は、連続する塩基の数が６つであることを意味し、「ａｔｇｃａｔ」は、差異点のＤＮＡ配列を表す。また、「１」は、差異点の開始位置であるＸ_１３から終了位置までの距離を表し、この距離が「１」であるので、パターンＤは挿入であることが分かる。

パターンＥを文字列に変換すれば、「／２〜３ｔｃｃ／３」である。ここで、「／２」は、前記パターンＤの差異点の開始位置から終了位置までの距離を表す「１」によって決定された位置であるＸ_１４から正の方向に２つ移動した位置であるＸ_１６から差異点が始まることを意味する。また、「〜３」は、連続する塩基の数が３つであることを意味し、「ｔｃｃ」は差異点のＤＮＡ配列を表す。また、「３」は、差異点の開始位置であるＸ_１６から終了位置までの距離を表す。

パターンＦを文字列に変換すれば、「／３〜２ａｇ／２」である。ここで、「／３」は、前記パターンＥの差異点の開始位置から終了位置までの距離を表す「３」によって決定された位置であるＸ_１９から正の方向に３つ移動した位置であるＸ_２２から差異点が始まることを意味する。また、「〜２」は連続する塩基の数が２つであることを意味し、「ａｇ」は差異点のＤＮＡ配列を表す。また、「２」は差異点の開始位置であるＸ_２２から終了位置までの距離を表す。

以上の結果を１つの文字列に示せば、次の通りであり、文字１つが１バイトであるので、総５０バイトのサイズを有する。

「／−３〜３ｇａｃ／３／６／２／３〜１ｃ／１／１〜６ａｔｇｃａｔ／１／２〜３ｔｃｃ／３／３〜２ａｇ／２」

コーディング部１４０は、コード貯蔵部１６０に貯蔵されている４ビットサイズのコードを利用して、文字列を構成するそれぞれの文字をコーディングする。コード貯蔵部１６０に貯蔵されているコードの一例が図４に示されている。図３に示されたそれぞれのパターンに対する文字列を図４に示されたコードを利用してコーディングした結果は、次の通りである。

／−３〜３ｇａｃ／３：１１１０００００００００００１１１１１１００１１１１００１０１０１１０１１１１０００１１

／６／２：１１１００１１０１１１０００１０

／３〜１ｃ／１：１１１０００１１１１１１０００１１１０１１１１００００１

／１〜６ａｔｇｃａｔ／１：１１１００１１０１１１１１０１０１０１１１１００１１０１１０１０１１０１１１１００００１

／２〜３ｔｃｃ／３：１１１０００１０１１１１００１１１０１１１１０１１１０１１１１０００１１

／３〜２ａｇ／２：１１１０００１１１１１１００１０１０１０１１００１１１０００１０

したがって、コーディング部１４０で出力される最終的なコーディング結果は、１１１０００００００００００１１１１１１００１１１１００１０１０１１０１１１１０００１１１１１００１１０１１１０００１０１１１０００１１１１１１０００１１１０１１１１００００１１１１００１１０１１１１１０１０１０１１１１００１１０１１０１０１１０１１１１００００１１１１０００１０１１１１００１１１０１１１１０１１１０１１１１０００１１１１１０００１１１１１１００１０１０１０１１００１１１０００１０であり、サイズは２５バイトである。

圧縮部１５０はコーディング結果を通常の圧縮方法を利用して圧縮する。圧縮された結果は配列貯蔵部１７０に貯蔵される。

以下で説明するように、参照配列と対象配列との差異点を文字列に変換した後、４ビットのコードによってコーディングする過程をｍｏｄｙ３遺伝子のエクソン領域に適用すれば、９８．９％以上の圧縮率が得られる。また、コーディングされたｍｏｄｙ３遺伝子のエクソン領域を圧縮すれば、より高い圧縮率が得られる。図５にはｍｏｄｙ３遺伝子のエクソン領域を文字列に変換した結果及び文字列を４ビットのコードにコーディングした結果が示されている。図５を参照すれば、５５５２バイトのサイズを有する遺伝子のエクソン領域が１２２バイトの文字列に変換された後、６１バイトのコード列にコーディングされ、この際の圧縮率は９８．９％であることが分かる。

一方、本発明によるＤＮＡ配列符号化装置は、必要であれば、前処理部を具備し、同一のＤＮＡ配列に対して多様な形態の符号化を行うことが可能である。この際、前処理部はＤＮＡ配列の暗号化のための構成要素として機能する。一般に、コーディングされたＤＮＡ配列は公知の保安及び暗号化対策が適用された後、貯蔵手段に貯蔵されるが、別途の安全及び暗号化対策を適用しようとする場合には、本発明による配列符号化装置が使用されうる。前処理部を具備した配列符号化装置は、暗号化しようとするＤＮＡ配列情報で鋳型になる配列を生成し、生成された鋳型配列のうち暗号化キーとして使用する配列を選択してＤＮＡ配列情報を暗号化した後に、変換およびコーディング過程を行う。このようなＤＮＡ配列情報の特異的な暗号化方法によって暗号化されたＤＮＡ配列情報を復号化するためには、本発明による前処理部を具備したＤＮＡ配列情報符号化装置に対応する復号化装置を使用しなければならないので、秘密鍵が流出される場合が発生しても標準的な秘密鍵を使用した暗号化アルゴリズムを利用する従来の暗号化方法に比べてより安全である。

本発明によるＤＮＡ配列符号化方法は、生物情報研究のための通常の計算装置であるＰＣ、ワークステーション、スーパーコンピューターなどで具現できる。ゲノム配列が知られた生物個体に対するＤＮＡ配列の符号化過程と圧縮過程とは、６つの段階に区分できる。

図６は、本発明によるＤＮＡ配列符号化方法に対する一実施例の過程を図示するフローチャートである。

図６を参照すれば、まず、明らかになったゲノム配列（参照配列）と貯蔵する生物個体の配列（対象配列）との差異点を抽出する（Ｓ６００）。Ｓ６００段階における配列の比較は、生物情報学分野で公知の通常の比較方法を利用して行われうる。本発明で用いられうる配列比較方法には、Ｂｌａｓｔ、Ｂｌａｔ、Ｆａｓｔａ、ＳｍｉｔｈＷａｔｅｒｍａｎＡｌｇｏｒｉｔｈｍなどがある。このような方法を利用して配列を整列・比較し、結果ファイルを公知の構文解析技術によって解析して差異点を得る。本発明の特徴は、２つのＤＮＡ配列の差異点のみを符号化することであるので、ＤＮＡ配列の整列・比較をする際には、２つのＤＮＡ配列を最大限に一致させることが好ましい。

次に、Ｓ６００段階により得た結果を、メモリで処理するのに適したサイズの断片に分割する（Ｓ６１０）。ゲノム配列全体は数百メガのサイズを有するために結果ファイル全体に対してコーディングすることは望ましくない。したがって、例えば、比較・整列結果を本発明によるＤＮＡ配列コーディング装置に具備された全体メモリの１５％に該当するサイズの断片に分割する。

次に、参照配列と対象配列との差異点を文字列に変換する（Ｓ６２０）。参照配列と対象配列とを整列する際に現れうる配列の差異点は６つのパターンに区分できる。Ｓ６２０段階では、このような６つのパターンを１６個の文字を使用して文字列に変換する。１６個の文字は、数字１０種、ＤＮＡ配列の種類を表す形態識別子４種、及び情報間の区分のための文字２種で構成される。

配列の差異点のパターンは開始領域不一致、空白領域、単一塩基対不一致、多重塩基対不一致、挿入領域、及び終了領域不一致のように当業者であれば、容易に分かる用語で表現できる。

前記で提示した１６個の文字を組み合わせれば、配列の差異点である６種類のパターンについて差異点が存在する領域の位置、差異点のＤＮＡ配列、差の長さなどの情報を文字列で表現できる。文字列で表現された配列は、比較対象となった参照配列を参照することによって元の配列に情報の損失なしに復元できる。このような復元過程はＤＮＡ配列を文字列で表現する過程を逆に適用することにより行われる。

次に、文字列で表現されたＤＮＡ配列を４ビットのコードによって符号化する（Ｓ６３０）。図４に示すように、配列の差異点を１６個の文字によって表現した文字列を構成するそれぞれの文字は４ビットのコードで表されうる。

次に、符号化された結果を通常の圧縮アルゴリズムを使用して圧縮する（Ｓ６４０）。本発明で使われうる圧縮アルゴリズムとしては、ＬＺ７８、ホフマンコーディング、算術コーディングなどのようにデータ圧縮分野で公知の技術が挙げられる。さらに、遺伝情報の圧縮と関連した多様な公知の圧縮技術が用いられうる。圧縮されたＤＮＡ配列はハードディスク、ＣＤなどのような多様な貯蔵手段に貯蔵されうる（Ｓ６５０）。

図７は、本発明によるＤＮＡ配列符号化装置に対する他の実施例の構成を図示するブロック図である。図７に示されたＤＮＡ配列符号化装置の構成要素のうち、前処理部１８０、暗号化部１８５、及び変異配列貯蔵部１９０を除外した他の構成要素は図１を参照して説明したものと同一であるので、ここでは詳細な説明は省略する。

図７を参照すれば、前処理部１８０は符号化しようとするＤＮＡ配列の参照配列を前処理する。このような前処理部１８０による前処理過程はＤＮＡ配列情報の暗号化過程といえ、符号化が完了したＤＮＡ配列情報を、追加の暗号化部１８５によって二重に暗号化することもできる。この際、追加の暗号化部１８５は、本発明によるＤＮＡ配列符号化装置によって符号化されたＤＮＡ配列情報を、公知の暗号化アルゴリズムによって暗号化する。

前処理部１８０は、以下の過程によって、参照配列に対する前処理を行う。まず、参照配列の変異配列生成関数を生成する。変異配列生成関数は、電算学的に具現化された技術（例えば、乱数発生アルゴリズム）で得られるランダム変数を入力とする関数である。このような変異配列生成関数の出力（以下、「変異配列生成因子」）は、変異の総数ＴｏｔａｌＮｖ、変異間の距離Ｎｄ、変異の長さＬｖ、変異の種類挿入／置換、変異配列Ａ、Ｔ、Ｇ、Ｃ、Ｎ（ヌル変異）などである。表２には、変異の総数が４である場合の、それぞれの変異に対する変異配列生成因子の一例が記載されている。この際、Ｎ（ヌル変異）は他の変異配列と同時には存在できず、存在する場合には、変異の長さに該当する数だけ存在する。

図８は、表２に記載されている変異配列生成因子による参照配列の変異過程を図示する図面である。図８を参照すれば、参照配列の長さは１００００ｂｐであり、最初の変異である変異１は、参照配列の開始位置から１０３５番目のビットにおいて発生する。変異１の長さは１であり、変異の種類は置換であり、そして、変異配列はＴである。前処理部１８０は、変異配列生成関数によって得られた変異配列生成因子の中から選択された変異配列生成因子を用いて、参照配列を変形させる。すなわち、与えられたそれぞれの変異因子（変異１、変異２、変異３、及び変異４）に対して、変異因子のキューが空くまで参照配列から変異間の距離だけ移動し、定められた変異の長さだけ、変異配列を置換変異または挿入変異させる。変異配列は、変異配列貯蔵部１９０に貯蔵され、対象配列と共に比較部１１０に入力される。この際、参照配列と選択された変異配列生成因子とは、秘密鍵として別々に貯蔵される。

図７を参照して説明したような安全のためのＤＮＡ配列符号化装置は、参照配列を変形させるための前処理部１８０を具備しているか否かという点で、図１を参照して説明したＤＮＡ配列符号化装置とは異なる。公知の種について比較の対象となる参照配列が１つ存在する場合、それによって符号化を実行すると、元の参照配列なしに符号化されたＤＮＡ配列を復号化する際には、符号化されたＤＮＡ配列の長さに比例するだけの場合の数が生じる。例えば、１００,０００ｂｐのＤＮＡ配列を本発明によるＤＮＡ配列符号化装置で符号化して圧縮した場合、参照配列に対する情報なしに元の配列へ復元する際の場合の数は、ヒトゲノム配列の長さから、符号化された配列の長さを減じた３.０６×１０^９−１００,０００である。これを一般化すれば、長さｎのＤＮＡ配列を符号化する場合、参照配列に対する情報なしにあらゆる可能な組合せで復号化を試みると、あらゆる可能な場合の数は３.０６×１０^９−ｎであり、確率は１／（３.０６×１０^９−ｎ）である。したがって、ゲノム全体配列を符号化する場合のように相当長いＤＮＡ配列を符号化する場合には安全性が低下しうる。

しかし、前述したような前処理部によって参照配列を変形した後に文字列に変換し、さらにコーディングすれば、ＤＮＡ配列に対する安全性が向上しうる。このような前処理部は、秘密鍵を使用する暗号化手段として作用する。この際、秘密鍵は変形された参照配列となり、暗号化される文書はＤＮＡ配列といえる。本発明によれば、ユーザーは保安化したい程度によって、参照配列の変形の程度を決定できる。これはすなわち、生成する秘密鍵の数をユーザーが調節できるという意味である。よって、ユーザーの意思によって一般に用いられるトリプルＤＥＳのような暗号化方法において用いられる秘密鍵の数より、少ない数の秘密鍵または多い数の秘密鍵によってＤＮＡ配列が暗号化されうる。トリプルＤＥＳアルゴリズムで用いられる秘密鍵の数は２^１６８≒２.５６×１０^５０である。一方、図７を参照して説明したＤＮＡ配列符号化装置で生成する秘密鍵の数Ｎ_ｋeｙは次の数式によって得られる。

上記の数式によれば、参照配列の長さが１０,０００ｂｐである場合、変異の総数を１６個にすれば、トリプルＤＥＳアルゴリズムの秘密鍵の数より多い約４．７２×１０^５０個の秘密鍵が生成する。

図９は、図７に示されたＤＮＡ配列符号化装置でのＤＮＡ配列符号化方法の過程を図示するフローチャートである。

図９を参照すれば、前処理部１８０は、生成されたランダム変数を入力とする変異配列生成関数によって変異配列生成因子を生成する（Ｓ９００）。また、前処理部１８０は、生成した変異配列生成因子のうちで選択された変異配列生成因子によって参照配列を変形させた後、配列貯蔵部１９０に貯蔵する（Ｓ９１０）。比較部１１０は、配列貯蔵部１９０から提供される変形された参照配列と貯蔵する生物個体の配列（すなわち、対象配列）との差異点を抽出する（Ｓ９２０）。分割部１２０は、抽出された配列間の差異点をメモリで処理するのに適したサイズの断片に分割する（Ｓ９３０）。変換部１３０は、参照配列と対象配列との差異点を文字列に変換する（Ｓ９４０）。コーディング部１４０は、文字列で表現されたＤＮＡ配列を４ビットのコードによってコーディングする（Ｓ９５０）。暗号化部１８５は、符号化されたＤＮＡ配列を、通常の暗号化アルゴリズムによって暗号化する（Ｓ９６０）。暗号化部１８５による暗号化は必要であれば行われる。圧縮部１５０は、暗号化された結果を通常の圧縮アルゴリズムを使用して圧縮する（Ｓ９７０）。圧縮されたＤＮＡ配列は、配列貯蔵部１７０に貯蔵されるか、または通信網を通じて伝送される（Ｓ９８０）。

本発明は、対象配列を公知の参照配列と比較し、差異点のみを符号化して圧縮するので、参照配列との相同性が圧縮効率を決定する。また、一般的な生物学的知識によれば、同じ種内でＤＮＡ配列の同一性は９９％以上であるので、１％以下の差異点のみが記録の対象になるといえる。したがって、本発明をヒトゲノム配列の圧縮及び貯蔵に適用すれば、以下で説明するように９８.６５％以上の圧縮率が期待できる。

これについて、以下詳細に説明するが、このような仮定は当業者が十分に理解できる程度のものである。一般的に欠乏か挿入による差はほとんど起こらないので、あらゆる差異点が単一塩基対不一致と仮定し、一般的な遺伝学の仮説によって、１００個ｂｐ毎に１つずつの差異点が生じる場合、記録する量は元の情報の量の１％となる。したがって、全体の１％が符号化されなければならないので、文字列に変換する過程でそれぞれのｂｐ当たり８字（符号化のための１６種類の記号、例えば、／１００〜１／１）がさらに記録されなければならず、記録量が８％増加する。結果的に、記録する情報の量は元の情報の量の９％となる。しかし、文字列を４ビットのコードで表現すれば、記録する情報の量は半分に減り、７０％の圧縮率を有する圧縮アルゴリズムによって圧縮すれば、最終的に記録する情報の量は元の情報量の１.３５％となる。したがって、ヒトゲノム全体を圧縮する場合、理論上、保証できる最低圧縮率は９８.６５％以上であるといえる。

本発明はまた、コンピュータ読取り可能な記録媒体に記録されたコードとしても具現化が可能である。コンピュータ読取り可能な記録媒体は、コンピュータ装置によって読み出されるデータが貯蔵されうるあらゆる種類の記録装置を含む。コンピュータ読取り可能な記録媒体の例としては、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フレキシブルディスク、光データ貯蔵装置などがあり、また、キャリアウェーブ（例えば、インターネットを通した伝送）の形態で具現されるものも含む。また、コンピュータ読取り可能な記録媒体は、ネットワークで連結されたコンピュータ装置に分散され、分散方式でコンピュータが読み取れるコードが貯蔵されて実行されうる。

以上で、本発明の望ましい実施例について示して説明したが、本発明は前述した特定の望ましい実施例に限定されず、特許請求の範囲で請求する本発明の要旨を外れず、当業者であれば、多様な変形実施が可能であることはもとより、そのような変更は特許請求の範囲の記載の範囲内のものである。

本発明によるＤＮＡ配列符号化装置及び方法は個体の形質変換、疾病追跡など多様な分野に適用でき、相異なるＤＮＡ配列の効率的な比較及び検索に適用できる。

本発明によるＤＮＡ配列符号化装置に対する一実施例の構成を図示するブロック図である。配列比較の一例としてＮＣＢＩで提供する基本ツールであるｂｌａｓｔを使用して参照配列と対象配列とを比較した結果を図示する図面である。比較部で整列された参照配列と対象配列との差異点を文字列に変換する原理を図示する図面である。文字列をコーディングするための４ビットコードの一例を図示する図面である。ｍｏｄｙ３遺伝子のエクソン領域を文字列に変換した結果及び文字列を４ビットのコードにコーディングした結果を図示する図面である。本発明によるＤＮＡ配列符号化方法に対する一実施例の過程を図示するフローチャートである。本発明によるＤＮＡ配列符号化装置に対する他の実施例の構成を図示するブロック図である。表２に記載されている変異配列生成因子による参照配列の変異過程を図示する図面である。本発明によるＤＮＡ配列符号化方法に対する他の実施例の過程を図示するフローチャートである。

符号の説明

１００ＤＮＡ配列符号化装置
１１０比較部
１２０分割部
１３０変換部
１４０コーディング部
１５０圧縮部
１６０コード貯蔵部
１７０配列貯蔵部
１８０前処理部
１８５暗号化部
１９０変異配列貯蔵部

Claims

ＤＮＡ情報が知られた参照配列を基準として、符号化する対象配列を整列し、前記参照配列と前記対象配列との差異点を抽出する比較部と、
前記抽出された参照配列と対象配列との差異点を所定の文字によって文字列に変換する変換部と、
前記それぞれの文字に対応する所定の変換コードが貯蔵されるコード貯蔵部と、
前記文字列を構成するそれぞれの文字を前記変換コードによってコーディングするコーディング部と、を含むことを特徴とするＤＮＡ配列符号化装置。
前記文字はＤＮＡを構成する塩基を表す第１文字、前記差異点の数を表す第２文字、前記差異点の開始及び終了を表す第３文字、及び前記差異点の連続を表す第４文字を含むことを特徴とする請求項１に記載のＤＮＡ配列符号化装置。
前記変換部は前記差異点それぞれに対して前記差異点の開始、前記差異点の開始位置、前記差異点の連続、差異点の連続する塩基の数、前記差異点を構成する塩基、前記差異点の終了、及び前記差異点の開始位置から前記差異点の終了位置までの距離の情報を、それぞれ前記第３文字、前記第２文字、前記第４文字、前記第２文字、前記第１文字、前記第３文字、及び前記第２文字に変換し、変換された文字が連続的に配列された前記文字列を出力することを特徴とする請求項２に記載のＤＮＡ配列符号化装置。
前記差異点の形態は、前記参照配列と前記対象配列との開始領域が一致しない開始領域不一致、前記参照配列には存在する塩基が前記対象配列の対応する位置に存在しないことを表す空白、前記参照配列と前記対象配列との対応する１つの位置に相異なる塩基が存在する単一塩基対不一致、前記参照配列には存在しない塩基が前記対象配列の対応する位置に存在する挿入、前記参照配列と前記対象配列との対応する複数の位置に相異なる塩基が存在する多重塩基対不一致、及び前記参照配列と前記対象配列との終了領域が一致しない終了領域不一致を含むことを特徴とする請求項１に記載のＤＮＡ配列符号化装置。
前記変換コードは前記所定の文字それぞれに対応する４ビットのコードであることを特徴とする請求項１に記載のＤＮＡ配列符号化装置。
前記抽出された差異点を所定サイズの断片に分割する分割部をさらに含み、
前記変換部は前記分割部によって分割された断片を基準として前記抽出された差異点を文字列に変換することを特徴とする請求項１に記載のＤＮＡ配列符号化装置。
前記変換コードによってコーディングされた前記対象配列を圧縮する圧縮部と、
前記圧縮された対象配列が貯蔵される配列貯蔵部と、をさらに含むことを特徴とする請求項１に記載のＤＮＡ配列符号化装置。
ランダム変数を入力とする変異配列生成関数によって変異配列生成因子を生成し、前記変異配列生成因子によって前記参照配列を変形する前処理部をさらに含むことを特徴とする請求項１に記載のＤＮＡ配列符号化装置。
前記変異配列生成因子は、変異の総数、変異間の距離、変異の長さ、変異の種類、及び変異配列を含むことを特徴とする請求項８に記載のＤＮＡ配列符号化装置。
ＤＮＡ情報が知られた参照配列を基準として、符号化する対象配列を整列する段階と、
前記参照配列と前記対象配列との差異点を抽出する段階と、
前記抽出された参照配列と対象配列との差異点を所定の文字によって文字列に変換する段階と、
前記文字列を構成するそれぞれの文字をそれぞれの文字に対応する所定の変換コードによってコーディングする段階と、を含むことを特徴とするＤＮＡ配列符号化方法。
前記文字はＤＮＡを構成する塩基を表す第１文字、前記差異点の数を表す第２文字、前記差異点の開始及び終了を表す第３文字、及び前記差異点の連続を表す第４文字で構成されることを特徴とする請求項１０に記載のＤＮＡ配列符号化方法。
変換する段階は、
前記差異点それぞれに対して前記差異点の開始を表す前記第３文字を付与する段階と、
前記差異点の開始位置を表す前記第２文字を付与する段階と、
前記差異点の連続を表す前記第４文字を付与する段階と、
前記差異点を構成する塩基の数を表す前記第２文字を付与する段階と、
前記差異点を構成する塩基を表す前記第１文字を付与する段階と、
前記差異点の終了を表す前記第３文字を付与する段階と、
前記差異点の開始位置から前記差異点の終了位置までの距離を表す前記第２文字を付与する段階と、
前記付与された文字が連続的に配列された文字列を出力する段階と、を含むことを特徴とする請求項１１に記載のＤＮＡ配列符号化方法。
前記差異点の形態は前記参照配列と前記対象配列との開始領域が一致しない開始領域不一致、前記参照配列には存在する塩基が前記対象配列の対応する位置に存在しないことを表す空白、前記参照配列と前記対象配列との対応する１つの位置に相異なる塩基が存在する単一塩基対不一致、前記参照配列には存在しない塩基が前記対象配列の対応する位置に存在する挿入、前記参照配列と前記対象配列との対応する複数の位置に相異なる塩基が存在する多重塩基対不一致、及び前記参照配列と前記対象配列との終了領域が一致しない終了領域不一致を含むことを特徴とする請求項１０に記載のＤＮＡ配列符号化方法。
前記変換コードは前記所定の文字それぞれに対応する４ビットのコードであることを特徴とする請求項１０に記載のＤＮＡ配列符号化方法。
前記抽出された差異点を所定サイズの断片に分割する段階をさらに含み、
前記変換段階は前記分割された断片を基準として前記抽出された差異点を文字列に変換することを特徴とする請求項１０に記載のＤＮＡ配列符号化方法。
前記変換コードによってコーディングされた前記対象配列を圧縮する段階と、
前記圧縮された対象配列を貯蔵する段階と、をさらに含むことを特徴とする請求項１０に記載のＤＮＡ配列符号化方法。
対象配列を整列する段階の前に、
ランダム変数を入力とする変異配列生成関数によって変異配列生成因子を生成し、前記生成された変異配列生成因子によって前記参照配列を変形する段階をさらに含むことを特徴とする請求項１０に記載のＤＮＡ配列符号化方法。
前記変異配列生成因子は、変異の総数、変異間の距離、変異の長さ、変異の種類、及び変異配列を含むことを特徴とする請求項１７に記載のＤＮＡ配列符号化方法。
ＤＮＡ情報が知られた参照配列を基準として、符号化する対象配列を整列する段階と、
前記参照配列と前記対象配列との差異点を抽出する段階と、
前記抽出された参照配列と対象配列との差異点を所定の文字により文字列に変換する段階と、
前記文字列を構成するそれぞれの文字を所定の変換コードによってコーディングする段階と、を含むことを特徴とするＤＮＡ配列符号化方法をコンピュータで実行させるためのプログラムを記録したコンピュータ読取り可能な記録媒体。