JP4770163B2 - 生物情報の解析装置および圧縮装置 - Google Patents
生物情報の解析装置および圧縮装置 Download PDFInfo
- Publication number
- JP4770163B2 JP4770163B2 JP2004350575A JP2004350575A JP4770163B2 JP 4770163 B2 JP4770163 B2 JP 4770163B2 JP 2004350575 A JP2004350575 A JP 2004350575A JP 2004350575 A JP2004350575 A JP 2004350575A JP 4770163 B2 JP4770163 B2 JP 4770163B2
- Authority
- JP
- Japan
- Prior art keywords
- array
- data
- sequence
- partial
- integrated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
(生物情報の分離)
ここで、本発明で解析・圧縮の対象とする生物情報の構造について説明しておく。本発明では、生物情報として、塩基配列、アミノ酸配列等を利用することができる。本実施形態では、塩基配列について説明する。図1(a)は、代表的なデータ形式であるFASTA形式で表現した原塩基配列ファイルを示す図である。図1において、t、c、a、g(大文字T、C、A、Gも同一)は、それぞれチミン、シトニン、アデニン、グアニンの4種類の塩基を示している。なお、ここでは、塩基を示す4文字以外の注釈情報は、<ANNOTATION>として省略して示してあるが、実際には、塩基配列を説明するための注釈情報が記されている。注釈情報を構成する文字、および各塩基は、ASCIIコードで記録されており、1文字の記録に8ビットを要している。
図2は、本発明に係る生物情報の解析装置の構成を示す機能ブロック図である。図2において、10は配列再配置手段、20は参照配列作成手段、30は重複配列探索手段、40は部分配列符号化手段である。配列再配置手段10は、1塩基1バイトで記録されている塩基配列データの配列構成を、3塩基1バイトで記録される構成に、再配置する機能を有している。参照配列作成手段20は、配列の再配置により得られた統合配列データを基に、複数セットの参照配列データを作成する機能を有している。重複配列探索手段30は、複数セットの参照配列データに対して、統合配列データ内の部分配列よりアドレス上前方に位置し、かつ部分配列と一致する重複配列を探索する機能を有している。なお、部分配列とは、統合配列データ中の一部分の配列を意味し、重複配列とは部分配列の一部もしくは全部と重複する配列を意味する。部分配列符号化手段40は、探索により得られた部分配列および重複配列を、部分配列および重複配列のアドレスおよびデータ幅を所定の形式に符号化して出力する機能を有している。図2に示した装置は、現実には、コンピュータに専用のソフトウェアを搭載することにより実現される。また、処理過程において作成される配列データは、コンピュータが管理するメモリの記憶領域に作成される。
上記のようにして圧縮した生物情報を検索に用いる場合、生物情報を復元した後、検索するようにしても良いが、圧縮ファイルの構造を利用して検索することも可能である。その場合、上記のような圧縮ファイルをデータベースとして蓄積しておく。そして、検索キーとする塩基配列も、上記圧縮装置で実行したのと同様の処理により、圧縮配列データと圧縮部分配列符号化データに符号化しておく。そして、検索する際には、圧縮部分配列符号化データを可変長符号化に対応する処理のみ復号して部分配列符号化データを得ると共に、データベースに記録された各圧縮ファイルの圧縮部分配列符号化データからも部分配列符号化データを復元する。そして、検索キーとする側の部分配列符号化データと、データベースに記録された各圧縮ファイルから得られた部分配列符号化データの照合を行う。
20・・・参照配列作成手段
30・・・重複配列探索手段
40・・・部分配列符号化手段
50・・・データ分離手段
60・・・可変長符号化手段
100・・・配列本体符号化手段
Claims (8)
- 生物情報を表現した配列データに対して、隣接する複数の配列要素を1つの配列単位に格納して統合配列データを作成する配列再配置手段と、
前記統合配列データにおける配列要素を、順序をそのままに1以上移動させた参照配列データと、前記統合配列データと同一の配列である参照配列データを含み、各参照配列データが、前記統合配列データと論理的に同じアドレスで管理される複数セットの参照配列データを作成する参照配列作成手段と、
前記各参照配列データについて、前記統合配列データ内の所定アドレスPtの配列要素と、前記統合配列データ内の配列要素よりPsだけ前方に位置する配列要素のアドレスPt−Psに対応する前記各参照配列データ内の配列要素とを起点として、前記統合配列データのアドレスを1ずつ移動させるとともに、参照配列データのアドレスを1ずつ移動させながら、両配列データの配列要素が一致するかどうかを前記配列単位ごとに判定し、前記統合配列データ内の配列要素と対応する前記参照配列データ内の配列要素が所定数Wsだけ連続して一致した後、その直後の両配列データの配列要素が一致しない場合に、前記Wsだけ連続した配列要素を重複配列として検出し、前記統合配列データ内のアドレスPt+Wsの配列要素と、前記参照配列データにおいて重複配列として検出した先頭アドレスPt−Psの配列要素とを起点として、両配列データの配列要素が一致するかどうかの前記配列単位ごとの判定を繰り返し実行し、当該判定を繰り返し実行した結果、前記重複配列と同数Wsの配列要素が幅Wtに渡って前記統合配列データ内の配列要素と連続して一致する場合に、前記重複配列を繰り返しの重複配列として検出し、部分配列の絶対アドレスPt、部分配列の幅Wt、前記繰り返しの重複配列の幅Ws、部分配列に対する重複配列の相対アドレスPsを部分配列パラメータとして求める重複配列探索手段と、
前記部分配列パラメータにおける前記部分配列の絶対アドレスPtを可変長、部分配列の幅Wt、前記繰り返しの重複配列の幅Ws、部分配列に対する重複配列の相対アドレスPsを固定長で符号化する部分配列符号化手段と、
を有することを特徴とする生物情報の解析装置。 - 請求項1において、
前記配列データは、A、G、C、Tの4種類の文字から構成される塩基配列データであり、前記配列再配置手段は、3つの隣接する塩基を前記隣接する複数の配列要素とし、1バイトを前記1つの配列単位として、前記統合配列データを作成するものであり、前記参照配列作成手段は、前記順序をそのままに1以上移動させた参照配列データを、1塩基もしくは2塩基分移動させた位置から3つの隣接する塩基を1バイトに格納して作成するものであることを特徴とする生物情報の解析装置。 - 請求項2において、
前記参照配列作成手段は、さらに、前記統合配列データの各バイト内における3つの隣接する塩基の配列順位を逆転させた参照配列データを作成するものであることを特徴とする生物情報の解析装置。 - 請求項2または3において、
前記参照配列作成手段は、さらに、塩基Aと塩基Tを相互に、塩基Gと塩基Cを相互に変換した参照配列データを作成するものであることを特徴とする生物情報の解析装置。 - 請求項1から4のいずれか一項において、
前記部分配列符号化手段は、可変長の前記部分配列の絶対アドレスPtを構成する最下位のバイトの先頭のビット値を、最下位以外のバイトの先頭のビット値と異なる所定の値に設定することを特徴とする生物情報の解析装置。 - 所定の範囲内で定義された文字の配列情報と前記配列情報の特定の範囲の情報を注釈する注釈情報で構成される生物情報ファイルに対して、
前記注釈情報と配列情報を分離して、注釈データ、配列データ本体とするとともに、前記生物情報ファイルを復元できるように、前記注釈データに前記配列データ本体へのリンク情報を追加するためのデータ分離手段と、
所定の範囲内で定義された文字または数値の配列情報で構成される生物情報に対して、前記各配列情報に対して、隣接する複数の配列要素を1つの配列単位に格納して統合配列データを作成する配列再配置手段と、
前記統合配列データにおける配列要素を、順序をそのままに1以上移動させた参照配列データと、前記統合配列データと同一の配列である参照配列データを含み、各参照配列データが、前記統合配列データと論理的に同じアドレスで管理される複数セットの参照配列データを作成する参照配列作成手段と、
前記各参照配列データについて、前記統合配列データ内の所定アドレスPtの配列要素と、前記統合配列データ内の配列要素よりPsだけ前方に位置する配列要素のアドレスPt−Psに対応する前記各参照配列データ内の配列要素とを起点として、前記統合配列データのアドレスを1ずつ移動させるとともに、参照配列データのアドレスを1ずつ移動させながら、両配列データの配列要素が一致するかどうかを前記配列単位ごとに判定し、前記統合配列データ内の配列要素と対応する前記参照配列データ内の配列要素が所定数Wsだけ連続して一致した後、その直後の両配列データの配列要素が一致しない場合に、前記Wsだけ連続した配列要素を重複配列として検出し、前記統合配列データ内のアドレスPt+Wsの配列要素と、前記参照配列データにおいて重複配列として検出した先頭アドレスPt−Psの配列要素とを起点として、両配列データの配列要素が一致するかどうかの前記配列単位ごとの判定を繰り返し実行し、当該判定を繰り返し実行した結果、前記重複配列と同数Wsの配列要素が幅Wtに渡って前記統合配列データ内の配列要素と連続して一致する場合に、前記重複配列を繰り返しの重複配列として検出し、部分配列の絶対アドレスPt、部分配列の幅Wt、前記繰り返しの重複配列の幅Ws、部分配列に対する重複配列の相対アドレスPsを部分配列パラメータとして求める重複配列探索手段と、
前記部分配列パラメータにおける前記部分配列の絶対アドレスPtを可変長、部分配列の幅Wt、前記繰り返しの重複配列の幅Ws、部分配列に対する重複配列の相対アドレスPsを固定長で符号化する部分配列符号化手段と、
を有することを特徴とする生物情報の圧縮装置。 - 請求項6において、
前記部分配列符号化手段より出力される部分配列符号化データ、および前記注釈データそれぞれに対して、可変ビット長でデータ圧縮を行う可変長符号化手段をさらに有することを特徴とする生物情報の圧縮装置。 - 請求項6または7において、
前記部分配列符号化手段は、可変長の前記部分配列の絶対アドレスPtを構成する最下位のバイトの先頭のビット値を、最下位以外のバイトの先頭のビット値と異なる所定の値に設定することを特徴とする生物情報の圧縮装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004350575A JP4770163B2 (ja) | 2004-12-03 | 2004-12-03 | 生物情報の解析装置および圧縮装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004350575A JP4770163B2 (ja) | 2004-12-03 | 2004-12-03 | 生物情報の解析装置および圧縮装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006163546A JP2006163546A (ja) | 2006-06-22 |
JP4770163B2 true JP4770163B2 (ja) | 2011-09-14 |
Family
ID=36665525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004350575A Expired - Fee Related JP4770163B2 (ja) | 2004-12-03 | 2004-12-03 | 生物情報の解析装置および圧縮装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4770163B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112013004650T5 (de) * | 2012-09-24 | 2015-06-18 | Cb Biotechnologies, Inc. | Multiplexpyrosequenzierung unter Verwendung nichtinterferierender, rauschbeendender Polynukleotididentifikationstags |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11110390A (ja) * | 1997-09-29 | 1999-04-23 | Hitachi Ltd | アミノ酸配列比較方法 |
JP2002041528A (ja) * | 2000-04-19 | 2002-02-08 | Satoshi Omori | ヌクレオチド等の配列情報の記録方法及び装置、前記配列情報の供給方法、前記配列情報を記録した記録媒体、並びに要約値の計算方法 |
JP2003188735A (ja) * | 2001-12-13 | 2003-07-04 | Ntt Data Corp | データ圧縮装置及び方法並びにプログラム |
JP3903420B2 (ja) * | 2002-02-14 | 2007-04-11 | 国立国際医療センター総長 | 塩基配列からrnaの機能性部位を同定するシステム |
US20040153255A1 (en) * | 2003-02-03 | 2004-08-05 | Ahn Tae-Jin | Apparatus and method for encoding DNA sequence, and computer readable medium |
-
2004
- 2004-12-03 JP JP2004350575A patent/JP4770163B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006163546A (ja) | 2006-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019537172A (ja) | バイオインフォマティクスデータのインデックスを付けるための方法及びシステム | |
JP4538449B2 (ja) | 文字列検索の方法および設備 | |
Apostolico et al. | Compression of biological sequences by greedy off-line textual substitution | |
Claude et al. | Compressed q-gram indexing for highly repetitive biological sequences | |
Rizzi et al. | Overlap graphs and de Bruijn graphs: data structures for de novo genome assembly in the big data era | |
KR20110129628A (ko) | Dna 서열 검색 방법 및 장치 | |
US20030220771A1 (en) | Method of discovering patterns in symbol sequences | |
Kumar et al. | Fast and memory efficient approach for mapping NGS reads to a reference genome | |
JP2005165598A (ja) | 可変長文字列検索装置及び可変長文字列検索方法並びにプログラム | |
Mantaci et al. | An extension of the Burrows Wheeler transform and applications to sequence comparison and data compression | |
Navarro | Indexing highly repetitive string collections | |
JP2002015278A (ja) | ハードコピー・ドキュメントのための画像データ生成方法及び同装置 | |
Haubold et al. | Exact matching | |
JP4770163B2 (ja) | 生物情報の解析装置および圧縮装置 | |
KR20190113971A (ko) | 다중 게놈 디스크립터를 이용한 생명정보학 데이터의 압축 표현 방법 및 장치 | |
JP4334955B2 (ja) | 生物情報のロスレス符号化装置 | |
Navarro | Regular expression searching on compressed text | |
JP4638721B2 (ja) | 生物情報の検索装置 | |
Ferragina et al. | Computational biology | |
US6731229B2 (en) | Method to reduce storage requirements when storing semi-redundant information in a database | |
US7479905B2 (en) | Apparatus, system and method for data compression using irredundant patterns | |
Pathak et al. | RETRACTED: LFQC: a lossless compression algorithm for FASTQ files | |
Petri et al. | Efficient indexing algorithms for approximate pattern matching in text | |
Delgrange et al. | Location of repetitive regions in sequences by optimizing a compression method | |
US20090292699A1 (en) | Nucleotide and amino acid sequence compression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100525 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101116 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110524 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110606 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140701 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4770163 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |