JP2004240975A - Dna配列符号化装置及び方法 - Google Patents

Dna配列符号化装置及び方法 Download PDF

Info

Publication number
JP2004240975A
JP2004240975A JP2004027231A JP2004027231A JP2004240975A JP 2004240975 A JP2004240975 A JP 2004240975A JP 2004027231 A JP2004027231 A JP 2004027231A JP 2004027231 A JP2004027231 A JP 2004027231A JP 2004240975 A JP2004240975 A JP 2004240975A
Authority
JP
Japan
Prior art keywords
sequence
character
difference
target sequence
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004027231A
Other languages
English (en)
Other versions
JP4608221B2 (ja
Inventor
Tae-Jin Ahn
兌 臻 安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR10-2004-0005945A external-priority patent/KR100537523B1/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2004240975A publication Critical patent/JP2004240975A/ja
Application granted granted Critical
Publication of JP4608221B2 publication Critical patent/JP4608221B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】 DNA配列符号化装置及び方法を提供する。
【解決手段】 比較部110は、DNA情報が知られた参照配列とコーディングされる対象配列とが最大限に一致するように整列した後、差異点を抽出する。変換部130は、抽出された参照配列と対象配列との差異点を所定の文字を利用して文字列に変換する。コーディング部140は、コード貯蔵部に貯蔵されているそれぞれの文字に対応する所定のコードを利用して文字列を構成するそれぞれの文字をコーディングする。圧縮部150は、コーディング結果を通常の圧縮方法を利用して圧縮し、圧縮された結果は配列貯蔵部に貯蔵される。
【選択図】図1

Description

本発明は、DNA配列符号化装置及び方法に係り、より詳細には、より効率的な圧縮によって貯蔵空間及び伝送トラフィックの容量を減らすことができ、DNA配列の貯蔵及び伝送時に安全が維持できるようにDNA配列を符号化する装置及び方法に関する。
生命工学が発達するにつれて個体の遺伝情報を構成するDNA配列が明らかになっている。このような研究はコンピュータに助けられて行われ、このためにDNA配列をコンピュータで利用できる形態に変換して保存する必要がある。これによって、DNA配列を保存する必要性がだんだん高まっている。しかし、DNA配列は情報量が相当大きいために相当な貯蔵及び伝送コストがかかる。したがって、DNA配列の貯蔵、伝送、検索などのためにDNA配列の圧縮が要求される。
DNA配列の圧縮方法には、大きく辞書圧縮法と非辞書圧縮法とがある。このうち、辞書圧縮法の圧縮率が高く、一般的な環境下で70−80%の圧縮率を見せる。しかし、このような圧縮技術はゲノム全体領域に至るサイズのDNA配列には適用し難いという短所がある。
最近発表されたDNA配列の圧縮技術のうち、性能が最も良好な技術は全体ゲノムを圧縮するのにも適用されうる。これによれば、一般的な環境下で70−80%の圧縮率が保証でき、大腸菌ゲノムの場合、96.6%の圧縮率を保証すると発表された。しかし、このような圧縮率は単純な推定値に過ぎず、このような圧縮率を達成するための具体的な構成が提示されていないのが現状である。
本発明が解決しようとする技術的課題は、効率的な圧縮により貯蔵空間及び伝送トラフィックの容量を減らすことができ、DNA配列の貯蔵及び伝送時に安全が維持できるようなDNA配列を符号化する装置及び方法を提供するところにある。
本発明が解決しようとする他の技術的課題は、効率的な圧縮により貯蔵空間及び伝送トラフィックの容量を減らすことができ、DNA配列の貯蔵及び伝送時に安全が維持できるようにDNA配列を符号化する方法をコンピュータで実行させるためのプログラムを記録したコンピュータ読取り可能な記録媒体を提供するところにある。
前記の技術的課題を達成するための、本発明によるDNA配列符号化装置は、DNA情報が知られた参照配列を基準として、符号化する対象配列を整列し、前記参照配列と前記対象配列との差異点を抽出する比較部と、前記抽出された参照配列と対象配列との差異点を所定の文字によって文字列に変換する変換部と、前記それぞれの文字に対応する所定の変換コードが貯蔵されるコード貯蔵部と、前記文字列を構成するそれぞれの文字を前記変換コードによってコーディングするコーディング部と、を具備する。
前記の他の技術的課題を達成するための、本発明によるDNA配列符号化方法は、DNA情報が知られた参照配列を基準として、符号化する対象配列を整列する段階と、前記参照配列と前記対象配列との差異点を抽出する段階と、前記抽出された参照配列と対象配列との差異点を所定の文字によって文字列に変換する段階と、前記文字列を構成するそれぞれの文字をそれぞれの文字に対応する所定の変換コードによってコーディングする段階と、を含む。
これにより、DNA配列を90%以上の圧縮効率で情報の損失なしに圧縮して貯蔵でき、安全性が高められる。また、高効率でDNA配列を圧縮できるので、ゲノム配列やゲノム特定領域に対する多数のDNA配列を貯蔵するのに利用できる。
本発明によるDNA配列符号化装置及び方法によれば、90%以上の圧縮効率で情報の損失なしにDNA配列を圧縮して貯蔵できる。また、高効率でDNA配列を圧縮できるので、ゲノム配列やゲノム特定領域に対する多数のDNA配列を貯蔵するのに利用できる。例えば、特定疾患を引き起こす遺伝子が発見されて一万人の患者に対し、その遺伝子の配列を解読して貯蔵する場合、データを圧縮して貯蔵することによって貯蔵空間を減らすことができる。さらに、データの伝送速度及び検索効率を高めることができる。また、DNA配列の差異点のみを記録するので、相異なるDNA配列の効率的な比較・検索に応用できる。例えば、特定疾患を引き起こす遺伝子に対して、一万人の患者と正常人とのDNA配列が存在する場合には、一万人の患者と正常人との差、および、正常人と正常人との差を示す配列を効率的に検索できる。一方、参照配列を変形した後、DNA配列を符号化することによって、DNA配列情報の貯蔵及び伝送時の安全性を高めることができる。この際、多様に変形された多数の参照配列のうち選択された参照配列を秘密鍵として使用すると、より高い安全効果が得られる。
以下、添付した図面を参照して本発明によるDNA配列符号化装置及び方法の望ましい実施例について詳細に説明する。
図1は、本発明によるDNA配列符号化装置に対する一実施例の構成を図示するブロック図である。
図1を参照すれば、本発明によるDNA配列符号化装置100は、比較部110、分割部120、変換部130、コーディング部140、圧縮部150、コード貯蔵部160、及び配列貯蔵部170を有する。
比較部110は、DNA情報が知られた参照配列を基準として、符号化される対象配列を整列した後、差異点を抽出する。この際、比較部110は、参照配列と対象配列とが最大限に一致するように整列する。分割部120は、抽出された参照配列と対象配列との差異点を、一定サイズの断片に分割する。前記断片のサイズは、配列貯蔵部170の全体容量の15%のサイズであることが望ましい。図2にはNCBIが提供する基本ツールであるblastを使用して参照配列と対象配列とを比較した結果が示されている。比較結果は、text、html、xmlなどのような形式の文書で出力できる。また、公知の構文解析法を利用すれば、比較結果から参照配列と対象配列との差異点のみが抽出できる。
変換部130は、抽出された参照配列と対象配列との差異点を16個の文字を利用して文字列に変換する。参照配列と対象配列とを整列する際に現れうる配列の差異点は6つのパターンに区分できる。変換部130は、このような6つのパターンを16個の文字を使用して参照配列と対象配列との差異点を文字列で表現する。16個の文字は、数字10種、DNA配列の種類を表す形態識別子4種、及び情報間の区分のための文字2種で構成される。表1には、参照配列と対象配列との差異点を表現する16個の文字及び説明が記載されている。
Figure 2004240975
以下、図3に示された参照配列と対象配列とを例に挙げて差異点を文字列に変換する原理について説明する。下記に提示された変換原理は1つの例であり、本発明の思想を逸脱しない範囲で多様な方法が採択できることは当業者に自明な事実である。
まず、差異点に対するパターンを分析する。以下の説明において、「X」とは、参照配列を基準とする、塩基配列の位置を意味する。例えば、「X」とは、参照配列の0番目の塩基と定義された塩基の位置から、正の方向に6だけ移動した位置を意味する。
A.開始領域不一致:X−3からX−1までの領域は、開始領域が一致しない領域であって、参照配列には存在しないgacが対象配列には存在する。
B.空白:XからXまでの領域は、対象配列に塩基が存在しない領域であって、参照配列に存在するtaが対象配列には存在しない。
C.単一塩基対不一致:X11は、参照配列の塩基と対象配列の塩基とが一致しない地点である。
D.挿入:対象配列のX13とX14との間には、参照配列には存在しないatgcatが存在する。
E.多重塩基対不一致:X16からX18までの領域は、複数の塩基にわたって参照配列の塩基と対象配列の塩基とが一致しない領域である。
F.終了領域不一致:X23からX24までの領域は、終了領域が不一致である領域であって、参照配列には存在しないagが対象配列には存在する。
次に、差異点に対するパターンを順に文字に変換する。
パターンAを文字列に変換すれば、「/−3〜3gac/3」である。ここで、「/」は、差異点の開始を示す文字であり、「−3」は、差異点が始まる位置を表す文字であって、Xを基準として負の方向に3だけ移動した位置から対象配列の塩基が存在することを示し、「〜」は、差異点が連続することを表す文字であり、「3」は、差異点の連続した長さを表す文字であり、「gac」は、差異点のDNA配列を表す文字であり、「/」は、差異点の終了を表す文字であり、「3」は、差異点の開始位置から終了位置までの距離を表す文字である。この際、「−」の文字を表わすコードは、「00000000」である。ここで、「−」は、文字列の最初の部分にのみ1回だけ現れる文字であるため、別に4ビットのコードを付与する必要がない。ただし、「−」の文字を示すコードである「00000000」と、連続する2つのゼロの文字「00」を示すコードである「00000000」とを区別するため、本発明の配列符号化装置において、文字列の最初の文字である「/」を示すコードである「1110」の次に、「00000000」のコードが存在する場合には、この「00000000」のコードは、「/」を示すコードであるものとする。
パターンBを文字列に変換すれば、「/6/2」である。ここで、「/6」は、前記パターンAの差異点の開始位置から終了位置までの距離を表す「3」によって決定された位置であるXから正の方向に6つ移動した位置であるXから差異点が始まることを意味する。また、「2」は、差異点の開始位置であるXから終了位置までの距離を表す。
パターンCを文字列に変換すれば、「/3〜1c/1」である。ここで、「/3」は、前記パターンBの差異点の開始位置から終了位置までの距離を表す「2」によって決定された位置であるXから正の方向に3つ移動した位置であるX11から差異点が始まることを意味する。また、「〜1」は、連続する塩基の数が1つであることを意味し、「c」は、差異点のDNA配列を表し、「1」は差異点の開始位置であるX11から終了位置までの距離を表す。
パターンDを文字列に変換すれば、「/1〜6atgcat/1」である。ここで、「/1」は、前記パターンCの差異点の開始位置から終了位置までの距離を表す「1」によって決定された位置であるX12から正の方向に1つ移動した位置であるX13から差異点が始まることを意味する。また、「〜6」は、連続する塩基の数が6つであることを意味し、「atgcat」は、差異点のDNA配列を表す。また、「1」は、差異点の開始位置であるX13から終了位置までの距離を表し、この距離が「1」であるので、パターンDは挿入であることが分かる。
パターンEを文字列に変換すれば、「/2〜3tcc/3」である。ここで、「/2」は、前記パターンDの差異点の開始位置から終了位置までの距離を表す「1」によって決定された位置であるX14から正の方向に2つ移動した位置であるX16から差異点が始まることを意味する。また、「〜3」は、連続する塩基の数が3つであることを意味し、「tcc」は差異点のDNA配列を表す。また、「3」は、差異点の開始位置であるX16から終了位置までの距離を表す。
パターンFを文字列に変換すれば、「/3〜2ag/2」である。ここで、「/3」は、前記パターンEの差異点の開始位置から終了位置までの距離を表す「3」によって決定された位置であるX19から正の方向に3つ移動した位置であるX22から差異点が始まることを意味する。また、「〜2」は連続する塩基の数が2つであることを意味し、「ag」は差異点のDNA配列を表す。また、「2」は差異点の開始位置であるX22から終了位置までの距離を表す。
以上の結果を1つの文字列に示せば、次の通りであり、文字1つが1バイトであるので、総50バイトのサイズを有する。
「/−3〜3gac/3/6/2/3〜1c/1/1〜6atgcat/1/2〜3tcc/3/3〜2ag/2」
コーディング部140は、コード貯蔵部160に貯蔵されている4ビットサイズのコードを利用して、文字列を構成するそれぞれの文字をコーディングする。コード貯蔵部160に貯蔵されているコードの一例が図4に示されている。図3に示されたそれぞれのパターンに対する文字列を図4に示されたコードを利用してコーディングした結果は、次の通りである。
/−3〜3gac/3:11100000000000111111001111001010110111100011
/6/2:1110011011100010
/3〜1c/1:1110001111110001110111100001
/1〜6atgcat/1:11100110111110101011110011011010110111100001
/2〜3tcc/3:111000101111001110111101110111100011
/3〜2ag/2:11100011111100101010110011100010
したがって、コーディング部140で出力される最終的なコーディング結果は、11100000000000111111001111001010110111100011111001101110001011100011111100011101111000011110011011111010101111001101101011011110000111100010111100111011110111011110001111100011111100101010110011100010であり、サイズは25バイトである。
圧縮部150はコーディング結果を通常の圧縮方法を利用して圧縮する。圧縮された結果は配列貯蔵部170に貯蔵される。
以下で説明するように、参照配列と対象配列との差異点を文字列に変換した後、4ビットのコードによってコーディングする過程をmody3遺伝子のエクソン領域に適用すれば、98.9%以上の圧縮率が得られる。また、コーディングされたmody3遺伝子のエクソン領域を圧縮すれば、より高い圧縮率が得られる。図5にはmody3遺伝子のエクソン領域を文字列に変換した結果及び文字列を4ビットのコードにコーディングした結果が示されている。図5を参照すれば、5552バイトのサイズを有する遺伝子のエクソン領域が122バイトの文字列に変換された後、61バイトのコード列にコーディングされ、この際の圧縮率は98.9%であることが分かる。
一方、本発明によるDNA配列符号化装置は、必要であれば、前処理部を具備し、同一のDNA配列に対して多様な形態の符号化を行うことが可能である。この際、前処理部はDNA配列の暗号化のための構成要素として機能する。一般に、コーディングされたDNA配列は公知の保安及び暗号化対策が適用された後、貯蔵手段に貯蔵されるが、別途の安全及び暗号化対策を適用しようとする場合には、本発明による配列符号化装置が使用されうる。前処理部を具備した配列符号化装置は、暗号化しようとするDNA配列情報で鋳型になる配列を生成し、生成された鋳型配列のうち暗号化キーとして使用する配列を選択してDNA配列情報を暗号化した後に、変換およびコーディング過程を行う。このようなDNA配列情報の特異的な暗号化方法によって暗号化されたDNA配列情報を復号化するためには、本発明による前処理部を具備したDNA配列情報符号化装置に対応する復号化装置を使用しなければならないので、秘密鍵が流出される場合が発生しても標準的な秘密鍵を使用した暗号化アルゴリズムを利用する従来の暗号化方法に比べてより安全である。
本発明によるDNA配列符号化方法は、生物情報研究のための通常の計算装置であるPC、ワークステーション、スーパーコンピューターなどで具現できる。ゲノム配列が知られた生物個体に対するDNA配列の符号化過程と圧縮過程とは、6つの段階に区分できる。
図6は、本発明によるDNA配列符号化方法に対する一実施例の過程を図示するフローチャートである。
図6を参照すれば、まず、明らかになったゲノム配列(参照配列)と貯蔵する生物個体の配列(対象配列)との差異点を抽出する(S600)。S600段階における配列の比較は、生物情報学分野で公知の通常の比較方法を利用して行われうる。本発明で用いられうる配列比較方法には、Blast、Blat、Fasta、Smith Waterman Algorithmなどがある。このような方法を利用して配列を整列・比較し、結果ファイルを公知の構文解析技術によって解析して差異点を得る。本発明の特徴は、2つのDNA配列の差異点のみを符号化することであるので、DNA配列の整列・比較をする際には、2つのDNA配列を最大限に一致させることが好ましい。
次に、S600段階により得た結果を、メモリで処理するのに適したサイズの断片に分割する(S610)。ゲノム配列全体は数百メガのサイズを有するために結果ファイル全体に対してコーディングすることは望ましくない。したがって、例えば、比較・整列結果を本発明によるDNA配列コーディング装置に具備された全体メモリの15%に該当するサイズの断片に分割する。
次に、参照配列と対象配列との差異点を文字列に変換する(S620)。参照配列と対象配列とを整列する際に現れうる配列の差異点は6つのパターンに区分できる。S620段階では、このような6つのパターンを16個の文字を使用して文字列に変換する。16個の文字は、数字10種、DNA配列の種類を表す形態識別子4種、及び情報間の区分のための文字2種で構成される。
配列の差異点のパターンは開始領域不一致、空白領域、単一塩基対不一致、多重塩基対不一致、挿入領域、及び終了領域不一致のように当業者であれば、容易に分かる用語で表現できる。
前記で提示した16個の文字を組み合わせれば、配列の差異点である6種類のパターンについて差異点が存在する領域の位置、差異点のDNA配列、差の長さなどの情報を文字列で表現できる。文字列で表現された配列は、比較対象となった参照配列を参照することによって元の配列に情報の損失なしに復元できる。このような復元過程はDNA配列を文字列で表現する過程を逆に適用することにより行われる。
次に、文字列で表現されたDNA配列を4ビットのコードによって符号化する(S630)。図4に示すように、配列の差異点を16個の文字によって表現した文字列を構成するそれぞれの文字は4ビットのコードで表されうる。
次に、符号化された結果を通常の圧縮アルゴリズムを使用して圧縮する(S640)。本発明で使われうる圧縮アルゴリズムとしては、LZ78、ホフマンコーディング、算術コーディングなどのようにデータ圧縮分野で公知の技術が挙げられる。さらに、遺伝情報の圧縮と関連した多様な公知の圧縮技術が用いられうる。圧縮されたDNA配列はハードディスク、CDなどのような多様な貯蔵手段に貯蔵されうる(S650)。
図7は、本発明によるDNA配列符号化装置に対する他の実施例の構成を図示するブロック図である。図7に示されたDNA配列符号化装置の構成要素のうち、前処理部180、暗号化部185、及び変異配列貯蔵部190を除外した他の構成要素は図1を参照して説明したものと同一であるので、ここでは詳細な説明は省略する。
図7を参照すれば、前処理部180は符号化しようとするDNA配列の参照配列を前処理する。このような前処理部180による前処理過程はDNA配列情報の暗号化過程といえ、符号化が完了したDNA配列情報を、追加の暗号化部185によって二重に暗号化することもできる。この際、追加の暗号化部185は、本発明によるDNA配列符号化装置によって符号化されたDNA配列情報を、公知の暗号化アルゴリズムによって暗号化する。
前処理部180は、以下の過程によって、参照配列に対する前処理を行う。まず、参照配列の変異配列生成関数を生成する。変異配列生成関数は、電算学的に具現化された技術(例えば、乱数発生アルゴリズム)で得られるランダム変数を入力とする関数である。このような変異配列生成関数の出力(以下、「変異配列生成因子」)は、変異の総数TotalNv、変異間の距離Nd、変異の長さLv、変異の種類挿入/置換、変異配列A、T、G、C、N(ヌル変異)などである。表2には、変異の総数が4である場合の、それぞれの変異に対する変異配列生成因子の一例が記載されている。この際、N(ヌル変異)は他の変異配列と同時には存在できず、存在する場合には、変異の長さに該当する数だけ存在する。
Figure 2004240975
図8は、表2に記載されている変異配列生成因子による参照配列の変異過程を図示する図面である。図8を参照すれば、参照配列の長さは10000bpであり、最初の変異である変異1は、参照配列の開始位置から1035番目のビットにおいて発生する。変異1の長さは1であり、変異の種類は置換であり、そして、変異配列はTである。前処理部180は、変異配列生成関数によって得られた変異配列生成因子の中から選択された変異配列生成因子を用いて、参照配列を変形させる。すなわち、与えられたそれぞれの変異因子(変異1、変異2、変異3、及び変異4)に対して、変異因子のキューが空くまで参照配列から変異間の距離だけ移動し、定められた変異の長さだけ、変異配列を置換変異または挿入変異させる。変異配列は、変異配列貯蔵部190に貯蔵され、対象配列と共に比較部110に入力される。この際、参照配列と選択された変異配列生成因子とは、秘密鍵として別々に貯蔵される。
図7を参照して説明したような安全のためのDNA配列符号化装置は、参照配列を変形させるための前処理部180を具備しているか否かという点で、図1を参照して説明したDNA配列符号化装置とは異なる。公知の種について比較の対象となる参照配列が1つ存在する場合、それによって符号化を実行すると、元の参照配列なしに符号化されたDNA配列を復号化する際には、符号化されたDNA配列の長さに比例するだけの場合の数が生じる。例えば、100,000bpのDNA配列を本発明によるDNA配列符号化装置で符号化して圧縮した場合、参照配列に対する情報なしに元の配列へ復元する際の場合の数は、ヒトゲノム配列の長さから、符号化された配列の長さを減じた3.06×10−100,000である。これを一般化すれば、長さnのDNA配列を符号化する場合、参照配列に対する情報なしにあらゆる可能な組合せで復号化を試みると、あらゆる可能な場合の数は3.06×10−nであり、確率は1/(3.06×10−n)である。したがって、ゲノム全体配列を符号化する場合のように相当長いDNA配列を符号化する場合には安全性が低下しうる。
しかし、前述したような前処理部によって参照配列を変形した後に文字列に変換し、さらにコーディングすれば、DNA配列に対する安全性が向上しうる。このような前処理部は、秘密鍵を使用する暗号化手段として作用する。この際、秘密鍵は変形された参照配列となり、暗号化される文書はDNA配列といえる。本発明によれば、ユーザーは保安化したい程度によって、参照配列の変形の程度を決定できる。これはすなわち、生成する秘密鍵の数をユーザーが調節できるという意味である。よって、ユーザーの意思によって一般に用いられるトリプルDESのような暗号化方法において用いられる秘密鍵の数より、少ない数の秘密鍵または多い数の秘密鍵によってDNA配列が暗号化されうる。トリプルDESアルゴリズムで用いられる秘密鍵の数は2168≒2.56×1050である。一方、図7を参照して説明したDNA配列符号化装置で生成する秘密鍵の数Nkeyは次の数式によって得られる。
Figure 2004240975
上記の数式によれば、参照配列の長さが10,000bpである場合、変異の総数を16個にすれば、トリプルDESアルゴリズムの秘密鍵の数より多い約4.72×1050個の秘密鍵が生成する。
図9は、図7に示されたDNA配列符号化装置でのDNA配列符号化方法の過程を図示するフローチャートである。
図9を参照すれば、前処理部180は、生成されたランダム変数を入力とする変異配列生成関数によって変異配列生成因子を生成する(S900)。また、前処理部180は、生成した変異配列生成因子のうちで選択された変異配列生成因子によって参照配列を変形させた後、配列貯蔵部190に貯蔵する(S910)。比較部110は、配列貯蔵部190から提供される変形された参照配列と貯蔵する生物個体の配列(すなわち、対象配列)との差異点を抽出する(S920)。分割部120は、抽出された配列間の差異点をメモリで処理するのに適したサイズの断片に分割する(S930)。変換部130は、参照配列と対象配列との差異点を文字列に変換する(S940)。コーディング部140は、文字列で表現されたDNA配列を4ビットのコードによってコーディングする(S950)。暗号化部185は、符号化されたDNA配列を、通常の暗号化アルゴリズムによって暗号化する(S960)。暗号化部185による暗号化は必要であれば行われる。圧縮部150は、暗号化された結果を通常の圧縮アルゴリズムを使用して圧縮する(S970)。圧縮されたDNA配列は、配列貯蔵部170に貯蔵されるか、または通信網を通じて伝送される(S980)。
本発明は、対象配列を公知の参照配列と比較し、差異点のみを符号化して圧縮するので、参照配列との相同性が圧縮効率を決定する。また、一般的な生物学的知識によれば、同じ種内でDNA配列の同一性は99%以上であるので、1%以下の差異点のみが記録の対象になるといえる。したがって、本発明をヒトゲノム配列の圧縮及び貯蔵に適用すれば、以下で説明するように98.65%以上の圧縮率が期待できる。
これについて、以下詳細に説明するが、このような仮定は当業者が十分に理解できる程度のものである。一般的に欠乏か挿入による差はほとんど起こらないので、あらゆる差異点が単一塩基対不一致と仮定し、一般的な遺伝学の仮説によって、100個bp毎に1つずつの差異点が生じる場合、記録する量は元の情報の量の1%となる。したがって、全体の1%が符号化されなければならないので、文字列に変換する過程でそれぞれのbp当たり8字(符号化のための16種類の記号、例えば、/100〜1/1)がさらに記録されなければならず、記録量が8%増加する。結果的に、記録する情報の量は元の情報の量の9%となる。しかし、文字列を4ビットのコードで表現すれば、記録する情報の量は半分に減り、70%の圧縮率を有する圧縮アルゴリズムによって圧縮すれば、最終的に記録する情報の量は元の情報量の1.35%となる。したがって、ヒトゲノム全体を圧縮する場合、理論上、保証できる最低圧縮率は98.65%以上であるといえる。
本発明はまた、コンピュータ読取り可能な記録媒体に記録されたコードとしても具現化が可能である。コンピュータ読取り可能な記録媒体は、コンピュータ装置によって読み出されるデータが貯蔵されうるあらゆる種類の記録装置を含む。コンピュータ読取り可能な記録媒体の例としては、ROM、RAM、CD−ROM、磁気テープ、フレキシブルディスク、光データ貯蔵装置などがあり、また、キャリアウェーブ(例えば、インターネットを通した伝送)の形態で具現されるものも含む。また、コンピュータ読取り可能な記録媒体は、ネットワークで連結されたコンピュータ装置に分散され、分散方式でコンピュータが読み取れるコードが貯蔵されて実行されうる。
以上で、本発明の望ましい実施例について示して説明したが、本発明は前述した特定の望ましい実施例に限定されず、特許請求の範囲で請求する本発明の要旨を外れず、当業者であれば、多様な変形実施が可能であることはもとより、そのような変更は特許請求の範囲の記載の範囲内のものである。
本発明によるDNA配列符号化装置及び方法は個体の形質変換、疾病追跡など多様な分野に適用でき、相異なるDNA配列の効率的な比較及び検索に適用できる。
本発明によるDNA配列符号化装置に対する一実施例の構成を図示するブロック図である。 配列比較の一例としてNCBIで提供する基本ツールであるblastを使用して参照配列と対象配列とを比較した結果を図示する図面である。 比較部で整列された参照配列と対象配列との差異点を文字列に変換する原理を図示する図面である。 文字列をコーディングするための4ビットコードの一例を図示する図面である。 mody3遺伝子のエクソン領域を文字列に変換した結果及び文字列を4ビットのコードにコーディングした結果を図示する図面である。 本発明によるDNA配列符号化方法に対する一実施例の過程を図示するフローチャートである。 本発明によるDNA配列符号化装置に対する他の実施例の構成を図示するブロック図である。 表2に記載されている変異配列生成因子による参照配列の変異過程を図示する図面である。 本発明によるDNA配列符号化方法に対する他の実施例の過程を図示するフローチャートである。
符号の説明
100 DNA配列符号化装置
110 比較部
120 分割部
130 変換部
140 コーディング部
150 圧縮部
160 コード貯蔵部
170 配列貯蔵部
180 前処理部
185 暗号化部
190 変異配列貯蔵部

Claims (19)

  1. DNA情報が知られた参照配列を基準として、符号化する対象配列を整列し、前記参照配列と前記対象配列との差異点を抽出する比較部と、
    前記抽出された参照配列と対象配列との差異点を所定の文字によって文字列に変換する変換部と、
    前記それぞれの文字に対応する所定の変換コードが貯蔵されるコード貯蔵部と、
    前記文字列を構成するそれぞれの文字を前記変換コードによってコーディングするコーディング部と、を含むことを特徴とするDNA配列符号化装置。
  2. 前記文字はDNAを構成する塩基を表す第1文字、前記差異点の数を表す第2文字、前記差異点の開始及び終了を表す第3文字、及び前記差異点の連続を表す第4文字を含むことを特徴とする請求項1に記載のDNA配列符号化装置。
  3. 前記変換部は前記差異点それぞれに対して前記差異点の開始、前記差異点の開始位置、前記差異点の連続、差異点の連続する塩基の数、前記差異点を構成する塩基、前記差異点の終了、及び前記差異点の開始位置から前記差異点の終了位置までの距離の情報を、それぞれ前記第3文字、前記第2文字、前記第4文字、前記第2文字、前記第1文字、前記第3文字、及び前記第2文字に変換し、変換された文字が連続的に配列された前記文字列を出力することを特徴とする請求項2に記載のDNA配列符号化装置。
  4. 前記差異点の形態は、前記参照配列と前記対象配列との開始領域が一致しない開始領域不一致、前記参照配列には存在する塩基が前記対象配列の対応する位置に存在しないことを表す空白、前記参照配列と前記対象配列との対応する1つの位置に相異なる塩基が存在する単一塩基対不一致、前記参照配列には存在しない塩基が前記対象配列の対応する位置に存在する挿入、前記参照配列と前記対象配列との対応する複数の位置に相異なる塩基が存在する多重塩基対不一致、及び前記参照配列と前記対象配列との終了領域が一致しない終了領域不一致を含むことを特徴とする請求項1に記載のDNA配列符号化装置。
  5. 前記変換コードは前記所定の文字それぞれに対応する4ビットのコードであることを特徴とする請求項1に記載のDNA配列符号化装置。
  6. 前記抽出された差異点を所定サイズの断片に分割する分割部をさらに含み、
    前記変換部は前記分割部によって分割された断片を基準として前記抽出された差異点を文字列に変換することを特徴とする請求項1に記載のDNA配列符号化装置。
  7. 前記変換コードによってコーディングされた前記対象配列を圧縮する圧縮部と、
    前記圧縮された対象配列が貯蔵される配列貯蔵部と、をさらに含むことを特徴とする請求項1に記載のDNA配列符号化装置。
  8. ランダム変数を入力とする変異配列生成関数によって変異配列生成因子を生成し、前記変異配列生成因子によって前記参照配列を変形する前処理部をさらに含むことを特徴とする請求項1に記載のDNA配列符号化装置。
  9. 前記変異配列生成因子は、変異の総数、変異間の距離、変異の長さ、変異の種類、及び変異配列を含むことを特徴とする請求項8に記載のDNA配列符号化装置。
  10. DNA情報が知られた参照配列を基準として、符号化する対象配列を整列する段階と、
    前記参照配列と前記対象配列との差異点を抽出する段階と、
    前記抽出された参照配列と対象配列との差異点を所定の文字によって文字列に変換する段階と、
    前記文字列を構成するそれぞれの文字をそれぞれの文字に対応する所定の変換コードによってコーディングする段階と、を含むことを特徴とするDNA配列符号化方法。
  11. 前記文字はDNAを構成する塩基を表す第1文字、前記差異点の数を表す第2文字、前記差異点の開始及び終了を表す第3文字、及び前記差異点の連続を表す第4文字で構成されることを特徴とする請求項10に記載のDNA配列符号化方法。
  12. 変換する段階は、
    前記差異点それぞれに対して前記差異点の開始を表す前記第3文字を付与する段階と、
    前記差異点の開始位置を表す前記第2文字を付与する段階と、
    前記差異点の連続を表す前記第4文字を付与する段階と、
    前記差異点を構成する塩基の数を表す前記第2文字を付与する段階と、
    前記差異点を構成する塩基を表す前記第1文字を付与する段階と、
    前記差異点の終了を表す前記第3文字を付与する段階と、
    前記差異点の開始位置から前記差異点の終了位置までの距離を表す前記第2文字を付与する段階と、
    前記付与された文字が連続的に配列された文字列を出力する段階と、を含むことを特徴とする請求項11に記載のDNA配列符号化方法。
  13. 前記差異点の形態は前記参照配列と前記対象配列との開始領域が一致しない開始領域不一致、前記参照配列には存在する塩基が前記対象配列の対応する位置に存在しないことを表す空白、前記参照配列と前記対象配列との対応する1つの位置に相異なる塩基が存在する単一塩基対不一致、前記参照配列には存在しない塩基が前記対象配列の対応する位置に存在する挿入、前記参照配列と前記対象配列との対応する複数の位置に相異なる塩基が存在する多重塩基対不一致、及び前記参照配列と前記対象配列との終了領域が一致しない終了領域不一致を含むことを特徴とする請求項10に記載のDNA配列符号化方法。
  14. 前記変換コードは前記所定の文字それぞれに対応する4ビットのコードであることを特徴とする請求項10に記載のDNA配列符号化方法。
  15. 前記抽出された差異点を所定サイズの断片に分割する段階をさらに含み、
    前記変換段階は前記分割された断片を基準として前記抽出された差異点を文字列に変換することを特徴とする請求項10に記載のDNA配列符号化方法。
  16. 前記変換コードによってコーディングされた前記対象配列を圧縮する段階と、
    前記圧縮された対象配列を貯蔵する段階と、をさらに含むことを特徴とする請求項10に記載のDNA配列符号化方法。
  17. 対象配列を整列する段階の前に、
    ランダム変数を入力とする変異配列生成関数によって変異配列生成因子を生成し、前記生成された変異配列生成因子によって前記参照配列を変形する段階をさらに含むことを特徴とする請求項10に記載のDNA配列符号化方法。
  18. 前記変異配列生成因子は、変異の総数、変異間の距離、変異の長さ、変異の種類、及び変異配列を含むことを特徴とする請求項17に記載のDNA配列符号化方法。
  19. DNA情報が知られた参照配列を基準として、符号化する対象配列を整列する段階と、
    前記参照配列と前記対象配列との差異点を抽出する段階と、
    前記抽出された参照配列と対象配列との差異点を所定の文字により文字列に変換する段階と、
    前記文字列を構成するそれぞれの文字を所定の変換コードによってコーディングする段階と、を含むことを特徴とするDNA配列符号化方法をコンピュータで実行させるためのプログラムを記録したコンピュータ読取り可能な記録媒体。
JP2004027231A 2003-02-03 2004-02-03 Dna配列符号化装置及び方法 Expired - Fee Related JP4608221B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20030006543 2003-02-03
KR10-2004-0005945A KR100537523B1 (ko) 2003-02-03 2004-01-30 Dna 서열 부호화 장치 및 방법

Publications (2)

Publication Number Publication Date
JP2004240975A true JP2004240975A (ja) 2004-08-26
JP4608221B2 JP4608221B2 (ja) 2011-01-12

Family

ID=32658680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004027231A Expired - Fee Related JP4608221B2 (ja) 2003-02-03 2004-02-03 Dna配列符号化装置及び方法

Country Status (4)

Country Link
US (1) US20040153255A1 (ja)
EP (1) EP1443449A3 (ja)
JP (1) JP4608221B2 (ja)
CN (1) CN100367189C (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163546A (ja) * 2004-12-03 2006-06-22 Dainippon Printing Co Ltd 生物情報の解析装置および圧縮装置
JP2006163734A (ja) * 2004-12-06 2006-06-22 Dainippon Printing Co Ltd 生物情報の検索装置
JP2007193708A (ja) * 2006-01-20 2007-08-02 Fujitsu Ltd ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法
KR100753835B1 (ko) 2005-12-08 2007-08-31 한국전자통신연구원 유전자 조절 관계 예측 방법 및 장치
JP2013531980A (ja) * 2010-05-25 2013-08-15 ザ・リージェンツ・オブ・ザ・ユニバーシティー・オブ・カリフォルニア Bambam:ハイスループットシークエンシングデータの同時比較解析
WO2013140313A1 (en) * 2012-03-23 2013-09-26 International Business Machines Corporation Surprisal data reduction of genetic data for transmission, storage, and analysis
WO2013171689A1 (en) * 2012-05-18 2013-11-21 International Business Machines Corporation Minimization of surprisal data through application of hierarchy of reference genomes
US8751166B2 (en) 2012-03-23 2014-06-10 International Business Machines Corporation Parallelization of surprisal data reduction and genome construction from genetic data for transmission, storage, and analysis
US8812243B2 (en) 2012-05-09 2014-08-19 International Business Machines Corporation Transmission and compression of genetic data
JP2014525080A (ja) * 2011-07-05 2014-09-25 コーニンクレッカ フィリップス エヌ ヴェ バイオインフォマティクス文字セット及びマップされたバイオインフォマティクスフォントを用いたゲノム/プロテオミクス配列の表現、視覚化、比較及びレポーティング
US8855938B2 (en) 2012-05-18 2014-10-07 International Business Machines Corporation Minimization of surprisal data through application of hierarchy of reference genomes
JP2014533858A (ja) * 2011-11-18 2014-12-15 ザ・リージェンツ・オブ・ザ・ユニバーシティー・オブ・カリフォルニアThe Regents Of The University Of California Bambam:高スループット配列決定データの並列比較分析
US8972406B2 (en) 2012-06-29 2015-03-03 International Business Machines Corporation Generating epigenetic cohorts through clustering of epigenetic surprisal data based on parameters
US9002888B2 (en) 2012-06-29 2015-04-07 International Business Machines Corporation Minimization of epigenetic surprisal data of epigenetic data within a time series
WO2015146852A1 (ja) * 2014-03-24 2015-10-01 株式会社 東芝 基準ゲノムデータを生成する方法、装置及びプログラム、差分ゲノムデータを生成する方法、装置及びプログラム、データを復元する方法、装置及びプログラム
JP2018180867A (ja) * 2017-04-11 2018-11-15 チトセ バイオ エボリューション ピーティーイー リミテッド トランスクリプトームデータの解析方法
JP2019537781A (ja) * 2016-10-11 2019-12-26 ゲノムシス エスアーGenomsys Sa バイオインフォマティクスデータを格納およびアクセスするための方法およびシステム
JP2022525042A (ja) * 2019-03-05 2022-05-11 ヘセグ インコーポレイテッド Dnaのコード化方法及びそのコード化方法の生命工学的応用

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281560B (zh) * 2008-06-05 2012-07-25 中国人民解放军军事医学科学院放射与辐射医学研究所 一种设计具有多稳健结构的核糖核酸分子的方法
NL2003311C2 (en) * 2009-07-30 2011-02-02 Intresco B V Method for producing a biological pin code.
WO2011076130A1 (en) * 2009-12-23 2011-06-30 Industrial Technology Research Institute Method and apparatus for compressing nucleotide sequence data
CN102081707B (zh) * 2011-01-07 2013-04-17 深圳大学 一种dna序列数据压缩和解压系统及方法
CN102200967B (zh) * 2011-03-30 2012-10-24 中国人民解放军军事医学科学院放射与辐射医学研究所 一种基于dna序列的文本处理方法和系统
KR101295784B1 (ko) * 2011-10-31 2013-08-12 삼성에스디에스 주식회사 목표 유전체 서열 내의 신규서열 생성 장치 및 방법
US9715574B2 (en) 2011-12-20 2017-07-25 Michael H. Baym Compressing, storing and searching sequence data
US8937564B2 (en) * 2013-01-10 2015-01-20 Infinidat Ltd. System, method and non-transitory computer readable medium for compressing genetic information
JP6054790B2 (ja) * 2013-03-28 2016-12-27 三菱スペース・ソフトウエア株式会社 遺伝子情報記憶装置、遺伝子情報検索装置、遺伝子情報記憶プログラム、遺伝子情報検索プログラム、遺伝子情報記憶方法、遺伝子情報検索方法及び遺伝子情報検索システム
US20140310214A1 (en) * 2013-04-12 2014-10-16 International Business Machines Corporation Optimized and high throughput comparison and analytics of large sets of genome data
US9760546B2 (en) * 2013-05-24 2017-09-12 Xerox Corporation Identifying repeat subsequences by left and right contexts
CN103546162B (zh) * 2013-09-22 2016-08-17 上海交通大学 基于非连续上下文建模和最大熵原则的基因压缩方法
CN103546160B (zh) * 2013-09-22 2016-07-06 上海交通大学 基于多参考序列的基因序列分级压缩方法
US10902937B2 (en) 2014-02-12 2021-01-26 International Business Machines Corporation Lossless compression of DNA sequences
CN105022935A (zh) * 2014-04-22 2015-11-04 中国科学院青岛生物能源与过程研究所 一种利用dna进行信息存储的编码方法和解码方法
WO2017070514A1 (en) * 2015-10-21 2017-04-27 Coherent Logix, Incorporated Dna alignment using a hierarchical inverted index table
WO2017190297A1 (zh) * 2016-05-04 2017-11-09 深圳华大基因研究院 利用dna存储文本信息的方法、其解码方法及应用
US10790044B2 (en) * 2016-05-19 2020-09-29 Seven Bridges Genomics Inc. Systems and methods for sequence encoding, storage, and compression
CN107633158B (zh) * 2016-07-18 2020-12-01 三星(中国)半导体有限公司 对基因序列进行压缩和解压缩的方法和设备
US11763918B2 (en) 2016-10-11 2023-09-19 Genomsys Sa Method and apparatus for the access to bioinformatics data structured in access units
WO2018071078A1 (en) * 2016-10-11 2018-04-19 Genomsys Sa Method and apparatus for the access to bioinformatics data structured in access units
CN110663022B (zh) * 2016-10-11 2024-03-15 耶诺姆希斯股份公司 使用基因组描述符紧凑表示生物信息学数据的方法和设备
JP2020505702A (ja) * 2016-10-11 2020-02-20 ゲノムシス エスエー 保存または送信されたバイオインフォマティクスデータへの選択的アクセスのための方法およびシステム
CN106971090A (zh) * 2017-03-10 2017-07-21 首度生物科技(苏州)有限公司 一种基因测序数据压缩和传输方法
CN107169315B (zh) * 2017-03-27 2020-08-04 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种海量dna数据的传输方法及系统
CN109300508B (zh) * 2017-07-25 2020-08-11 南京金斯瑞生物科技有限公司 一种dna数据存储编码解码方法
US10742416B2 (en) * 2017-08-21 2020-08-11 Andrew J. Polcha Fuzzy dataset processing and biometric identity technology leveraging blockchain ledger technology
US11810651B2 (en) 2017-09-01 2023-11-07 Seagate Technology Llc Multi-dimensional mapping of binary data to DNA sequences
TWI770247B (zh) * 2018-08-03 2022-07-11 大陸商南京金斯瑞生物科技有限公司 核酸用於資料儲存之方法、及其非暫時性電腦可讀儲存介質、系統及電子裝置
CN110867213B (zh) * 2018-08-28 2023-10-20 华为技术有限公司 一种dna数据的存储方法和装置
CN109450452B (zh) * 2018-11-27 2020-07-10 中国科学院计算技术研究所 一种针对基因数据的取样字典树索引的压缩方法和系统
CN110310709B (zh) * 2019-07-04 2022-08-16 南京邮电大学 一种基于参考序列的基因压缩方法
WO2021134574A1 (zh) * 2019-12-31 2021-07-08 深圳华大智造科技有限公司 创建基因突变词典及利用基因突变词典压缩基因组数据的方法和装置
WO2021243605A1 (zh) * 2020-06-03 2021-12-09 深圳华大生命科学研究院 生成dna存储编解码规则的方法和装置及dna存储编解码方法和装置
CN113300720B (zh) * 2021-05-25 2022-06-28 天津大学 一种针对叠加水印的长dna序列的插入删节的分段识别方法
CN114356220B (zh) * 2021-12-10 2022-10-28 中科碳元(深圳)生物科技有限公司 基于dna存储的编码方法、电子设备及可读存储介质
CN114356222B (zh) * 2021-12-13 2022-08-19 深圳先进技术研究院 数据存储方法、装置、终端设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002024416A (ja) * 2000-07-04 2002-01-25 Sony Corp Dna情報管理システム及びdna情報管理方法
JP2003188735A (ja) * 2001-12-13 2003-07-04 Ntt Data Corp データ圧縮装置及び方法並びにプログラム
JP2003228565A (ja) * 2001-04-18 2003-08-15 Satoshi Omori 生物学的物質の配列情報の記録方法及び装置、前記配列情報の供給方法、並びに前記配列情報を記録した記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4560976A (en) * 1981-10-15 1985-12-24 Codex Corporation Data compression
GB9713921D0 (en) * 1997-07-01 1997-09-03 Hexagen Technology Limited Biological data
US6917882B2 (en) * 1999-01-19 2005-07-12 Maxygen, Inc. Methods for making character strings, polynucleotides and polypeptides having desired characteristics
AU4878401A (en) * 2000-04-19 2001-10-30 Satoshi Omori Nucleotide sequence information, and method and device for recording informationon sequence of amino acid
JP3913004B2 (ja) * 2001-05-28 2007-05-09 キヤノン株式会社 データ圧縮方法及び装置及びコンピュータプログラム及び記憶媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002024416A (ja) * 2000-07-04 2002-01-25 Sony Corp Dna情報管理システム及びdna情報管理方法
JP2003228565A (ja) * 2001-04-18 2003-08-15 Satoshi Omori 生物学的物質の配列情報の記録方法及び装置、前記配列情報の供給方法、並びに前記配列情報を記録した記録媒体
JP2003188735A (ja) * 2001-12-13 2003-07-04 Ntt Data Corp データ圧縮装置及び方法並びにプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6009053115, Grumbach, S., "A new challenge for compression algorithms: Genetic sequences", Information Processing & Management, 1994, Vol.30, No.6, p.875−886 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163546A (ja) * 2004-12-03 2006-06-22 Dainippon Printing Co Ltd 生物情報の解析装置および圧縮装置
JP2006163734A (ja) * 2004-12-06 2006-06-22 Dainippon Printing Co Ltd 生物情報の検索装置
JP4638721B2 (ja) * 2004-12-06 2011-02-23 大日本印刷株式会社 生物情報の検索装置
KR100753835B1 (ko) 2005-12-08 2007-08-31 한국전자통신연구원 유전자 조절 관계 예측 방법 및 장치
JP2007193708A (ja) * 2006-01-20 2007-08-02 Fujitsu Ltd ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法
JP2013531980A (ja) * 2010-05-25 2013-08-15 ザ・リージェンツ・オブ・ザ・ユニバーシティー・オブ・カリフォルニア Bambam:ハイスループットシークエンシングデータの同時比較解析
JP2014525080A (ja) * 2011-07-05 2014-09-25 コーニンクレッカ フィリップス エヌ ヴェ バイオインフォマティクス文字セット及びマップされたバイオインフォマティクスフォントを用いたゲノム/プロテオミクス配列の表現、視覚化、比較及びレポーティング
JP2014533858A (ja) * 2011-11-18 2014-12-15 ザ・リージェンツ・オブ・ザ・ユニバーシティー・オブ・カリフォルニアThe Regents Of The University Of California Bambam:高スループット配列決定データの並列比較分析
WO2013140313A1 (en) * 2012-03-23 2013-09-26 International Business Machines Corporation Surprisal data reduction of genetic data for transmission, storage, and analysis
US8751166B2 (en) 2012-03-23 2014-06-10 International Business Machines Corporation Parallelization of surprisal data reduction and genome construction from genetic data for transmission, storage, and analysis
US8812243B2 (en) 2012-05-09 2014-08-19 International Business Machines Corporation Transmission and compression of genetic data
US10331626B2 (en) 2012-05-18 2019-06-25 International Business Machines Corporation Minimization of surprisal data through application of hierarchy filter pattern
US8855938B2 (en) 2012-05-18 2014-10-07 International Business Machines Corporation Minimization of surprisal data through application of hierarchy of reference genomes
WO2013171689A1 (en) * 2012-05-18 2013-11-21 International Business Machines Corporation Minimization of surprisal data through application of hierarchy of reference genomes
CN104335213A (zh) * 2012-05-18 2015-02-04 国际商业机器公司 通过应用参考基因组的分层结构使诧异数据最小
US10353869B2 (en) 2012-05-18 2019-07-16 International Business Machines Corporation Minimization of surprisal data through application of hierarchy filter pattern
US8972406B2 (en) 2012-06-29 2015-03-03 International Business Machines Corporation Generating epigenetic cohorts through clustering of epigenetic surprisal data based on parameters
US9002888B2 (en) 2012-06-29 2015-04-07 International Business Machines Corporation Minimization of epigenetic surprisal data of epigenetic data within a time series
JPWO2015146852A1 (ja) * 2014-03-24 2017-04-13 株式会社東芝 基準ゲノムデータを生成する方法、装置及びプログラム、差分ゲノムデータを生成する方法、装置及びプログラム、データを復元する方法、装置及びプログラム
WO2015146852A1 (ja) * 2014-03-24 2015-10-01 株式会社 東芝 基準ゲノムデータを生成する方法、装置及びプログラム、差分ゲノムデータを生成する方法、装置及びプログラム、データを復元する方法、装置及びプログラム
JP2019537781A (ja) * 2016-10-11 2019-12-26 ゲノムシス エスアーGenomsys Sa バイオインフォマティクスデータを格納およびアクセスするための方法およびシステム
JP7092757B2 (ja) 2016-10-11 2022-06-28 ゲノムシス エスアー バイオインフォマティクスデータを格納およびアクセスするための方法およびシステム
US11386979B2 (en) 2016-10-11 2022-07-12 Genomsys Sa Method and system for storing and accessing bioinformatics data
JP2018180867A (ja) * 2017-04-11 2018-11-15 チトセ バイオ エボリューション ピーティーイー リミテッド トランスクリプトームデータの解析方法
JP2022525042A (ja) * 2019-03-05 2022-05-11 ヘセグ インコーポレイテッド Dnaのコード化方法及びそのコード化方法の生命工学的応用
JP7275301B2 (ja) 2019-03-05 2023-05-17 ヘセグ インコーポレイテッド Dnaのコード化方法及びそのコード化方法の生命工学的応用

Also Published As

Publication number Publication date
EP1443449A2 (en) 2004-08-04
US20040153255A1 (en) 2004-08-05
JP4608221B2 (ja) 2011-01-12
EP1443449A3 (en) 2006-02-22
CN100367189C (zh) 2008-02-06
CN1536068A (zh) 2004-10-13

Similar Documents

Publication Publication Date Title
JP4608221B2 (ja) Dna配列符号化装置及び方法
JP4893750B2 (ja) データ圧縮装置およびデータ復元装置
JP4801776B2 (ja) データ圧縮
JP5498783B2 (ja) データ圧縮の方法
CN101610088B (zh) 基于具有安全特性的压缩技术来编码数据的系统和方法
JP2019537172A (ja) バイオインフォマティクスデータのインデックスを付けるための方法及びシステム
KR100537523B1 (ko) Dna 서열 부호화 장치 및 방법
JP2007508753A (ja) データ圧縮システム及び方法
Al-Okaily et al. Toward a better compression for DNA sequences using Huffman encoding
JP2008067361A (ja) 符号化装置、復号化装置、符号化方法及びプログラム
Vinodhini et al. A survey on DNA and image steganography
IL268649B1 (en) Method and systems for reconstructing standard genome sequences from compressed genome sequence records
JP2015534795A (ja) セキュアで損失のないデータ圧縮
CN110021368B (zh) 比对型基因测序数据压缩方法、系统及计算机可读介质
Goel A compression algorithm for DNA that uses ASCII values
Long et al. GeneComp, a new reference-based compressor for SAM files
JP6005273B2 (ja) データストリームの符号化方法、送信方法、伝送方法、データストリームを符号化するための符号化装置、送信装置、および、伝送装置
CN110915140B (zh) 用于编码和解码数据结构的质量值的方法
KR100597004B1 (ko) 심볼 사전 재배치 방식을 이용한 이진 영상 처리 장치 및방법
Chen A novel biology-based reversible data hiding fusion scheme
WO2022009342A1 (ja) 情報処理プログラム、情報処理方法および情報処理装置
Khan et al. Polynomial based representation for dna sequence compression and search
JP2011041102A (ja) 圧縮暗号化装置、復号伸長装置、それらの方法及びプログラム
Alsaffar An encryption by using DNA algorithm for hiding a compressed message in Image
JP2007134860A (ja) 暗号化プログラムおよび復号化プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091020

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100120

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100721

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100928

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101008

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees