JP4334955B2 - Biological information lossless encoder - Google Patents

Biological information lossless encoder Download PDF

Info

Publication number
JP4334955B2
JP4334955B2 JP2003323368A JP2003323368A JP4334955B2 JP 4334955 B2 JP4334955 B2 JP 4334955B2 JP 2003323368 A JP2003323368 A JP 2003323368A JP 2003323368 A JP2003323368 A JP 2003323368A JP 4334955 B2 JP4334955 B2 JP 4334955B2
Authority
JP
Japan
Prior art keywords
data
information
annotation
length
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003323368A
Other languages
Japanese (ja)
Other versions
JP2005087069A (en
Inventor
敏雄 茂出木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2003323368A priority Critical patent/JP4334955B2/en
Publication of JP2005087069A publication Critical patent/JP2005087069A/en
Application granted granted Critical
Publication of JP4334955B2 publication Critical patent/JP4334955B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、バイオインフォマティクス、ゲノム創薬、バイオ新素材開発など生物情報データベースの構築、検索を行う分野、コンピュータグラフィックスを用いたCGアニメーション映像制作分野、科学技術シミュレーションにおける可視化映像制作、CGを用いた高分子構造・挙動の可視化分野に関する。   The present invention uses bioinformatics, genomic drug discovery, development of new biomaterials, and other fields to construct and search biological information databases, CG animation video production using computer graphics, visualization video production in science and technology simulation, and CG It relates to the field of visualization of polymer structure and behavior.

近年、ヒトゲノムプロジェクトなどバイオインフォマティクス(生物情報科学)の急速な進展に伴い、膨大な生物情報データベースが構築されつつある。特に、DNA配列については、完成度が高まっており、現在急ピッチでプロテオーム情報の蓄積が進行している。このように蓄積される大容量のデータベースを活用し、医薬品開発や新規素材開発などに応用するためには、ネットワーク経由の円滑なデータベースの扱いが重要となる。すなわち、いかに効率良く圧縮し、効率良く検索するかが重要となる。   In recent years, with the rapid development of bioinformatics (bioinformatics) such as the Human Genome Project, a huge biological information database is being built. In particular, the completeness of DNA sequences is increasing, and accumulation of proteome information is progressing at a rapid pace. In order to utilize such a large-capacity database accumulated and applied to drug development, new material development, etc., it is important to handle the database smoothly via a network. In other words, how to efficiently compress and search efficiently is important.

生物情報配列は、1文字のエラーでも致命的な欠陥につながるため、圧縮を行う場合、MPEGなどのロッシー型圧縮やニアロスレス型圧縮は適用できず、ロスレス型圧縮に限定される。幸い、生物情報配列は、ASCIIテキスト形式であるため、テキストを対象とした汎用可逆圧縮ツール(ZIP、LZH等)である程度の圧縮が可能であり、現在蓄積されているデータベースにおいてもZIP技術が適用されている。   Since the biological information sequence leads to a fatal defect even with a single character error, when compression is performed, lossy compression or near lossless compression such as MPEG cannot be applied, and is limited to lossless compression. Fortunately, the biological information sequence is in ASCII text format, so it can be compressed to some extent with general-purpose lossless compression tools (ZIP, LZH, etc.) for text, and the ZIP technology can be applied to currently accumulated databases. Has been.

このような生物情報の符号化については、他にもいくつかの技術が提案されている(例えば、特許文献1、特許文献2参照)。
特開2003−188735号公報 特開2003−101485号公報 また、生物情報の解析には、タンパク質立体構造等の3次元モデルの解析も必要となるが、このような3次元モデルを圧縮する手法についても提案されている(例えば、特許文献3参照)。 特開平10−320583号公報
Several other techniques have been proposed for encoding such biological information (see, for example, Patent Document 1 and Patent Document 2).
JP 2003-188735 A JP-A-2003-101485 Further, analysis of biological information requires analysis of a three-dimensional model such as a protein three-dimensional structure, and a method for compressing such a three-dimensional model has also been proposed (for example, And Patent Document 3). Japanese Patent Laid-Open No. 10-320583

しかしながら、上記のような汎用圧縮ツール(ユニバーサル圧縮方式)もしくは上記特許文献に示した技術では、生物情報の特徴を活かせないため、圧縮率に限界がある。例えば、DNA配列は4文字で構成されるため、理論上は1文字あたり2ビットで符号化できるが、DNAの代表的な相同検索エンジンFASTAに用いられている記録形式であるFASTA形式では、注釈情報を混在するため3ビット程度までしか圧縮できない。また、DNAには特有の繰り返しパターンがあり、これを活用すると2ビット未満に圧縮できる可能性がある。   However, the general-purpose compression tool (universal compression method) as described above or the technology shown in the above-mentioned patent document cannot limit the characteristics of biological information, and therefore has a limit on the compression rate. For example, since a DNA sequence is composed of 4 characters, it can theoretically be encoded with 2 bits per character. However, in the FASTA format, which is a recording format used in the DNA homologous search engine FASTA, an annotation is used. Since information is mixed, compression is possible only up to about 3 bits. Further, DNA has a unique repetitive pattern, and if this is utilized, there is a possibility that it can be compressed to less than 2 bits.

そこで、本発明は、生物情報配列の特徴を活かし、注釈情報が混在しても生物情報を最適な符号長で圧縮できる生物情報のロスレス符号化装置、圧縮された生物情報配列を完全には復号しなくても、少ないメモリで検索可能な生物情報の検索装置、3次元モデルに対しても、ロスレス圧縮することが可能な三次元情報のロスレス符号化装置を提供することを課題とする。   Therefore, the present invention makes use of the characteristics of the biological information sequence, and is a lossless encoding device for biological information that can compress biological information with an optimal code length even when annotation information is mixed, and completely decodes the compressed biological information sequence. It is an object of the present invention to provide a biological information retrieval apparatus that can be retrieved with a small amount of memory, and a three-dimensional information lossless encoding apparatus that can perform lossless compression even for a three-dimensional model.

上記課題を解決するため、本発明では、生物情報のロスレス符号化装置を、所定の範囲内で定義された文字の配列情報と前記配列情報の特定の範囲の情報を注釈する注釈情報で構成される生物情報ファイルに対して、前記注釈情報と配列情報を分離して、注釈データ、配列データ本体とするとともに、前記生物情報ファイルを復元できるように、前記注釈データに前記配列データ本体へのリンク情報を追加するためのデータ分離手段と、前記配列データ本体に記録された各文字に対して固定ビット長を割り当てることによりデータ圧縮を行って、中間配列データを得る固定長符号化手段と、前記固定長で圧縮された中間配列データ、および前記注釈データそれぞれに対して、可変ビット長でデータ圧縮を行う可変長符号化手段を有する構成としたことを特徴とする。   In order to solve the above-described problem, in the present invention, a lossless encoding device for biological information is composed of character sequence information defined within a predetermined range and annotation information for annotating information in a specific range of the sequence information. The annotation information and the sequence data body are separated from the biological information file to form the annotation data and the sequence data body, and the biological data file can be restored, and the annotation data is linked to the sequence data body. Data separating means for adding information, fixed length encoding means for obtaining intermediate array data by performing data compression by assigning a fixed bit length to each character recorded in the array data body, and A configuration having variable length encoding means for compressing data with a variable bit length for each of the intermediate sequence data compressed at a fixed length and the annotation data; Characterized in that was.

また、本発明では、1バイト未満で1つの塩基もしくはアミノ酸が記録された検索用配列データから、目的とする配列を検索する生物情報の検索装置を、検索キーとする配列を入力する検索キー入力手段と、前記入力された検索キーを1塩基もしくは1アミノ酸の記録単位ずつ移動させて、全体としてバイト単位になるように任意ビットを追加した、複数の検索パターンを作成する検索パターン作成手段と、前記作成された検索パターンと、前記検索用配列データを1バイト単位で比較していくことにより照合を行う照合手段を有する構成としたことを特徴とする。   Further, in the present invention, a search key input for inputting a sequence using a search device for biological information that searches for a target sequence from sequence data for search in which one base or amino acid is recorded in less than 1 byte. And a search pattern creation means for creating a plurality of search patterns by moving the input search key by one base or one amino acid recording unit and adding arbitrary bits so as to be a whole byte unit, It is characterized by having a collating means for performing collation by comparing the created search pattern with the search array data in units of 1 byte.

また、本発明では、三次元情報のロスレス符号化装置を、所定の範囲内で定義された数値を含む文字情報と前記文字情報の特定の範囲の情報を注釈する注釈情報で構成される三次元情報ファイルに対して、情報の区切りを示す空白文字符号を抽出し、ランレングス符号化を行い、前記三次元情報ファイル内の空白文字部分を所定のランレングス符号に変換するランレングス符号化手段と、前記文字情報に含まれる数値を分離して数値データ本体とし、分離された他方を注釈データとして、前記三次元情報ファイルを復元できるように、前記注釈データに前記数値データ本体へのリンク情報を追加するためのデータ分離手段と、前記数値データ本体、および前記注釈データそれぞれに対して、可変ビット長でデータ圧縮を行う可変長符号化手段を有する構成としたことを特徴とする。   In the present invention, the lossless encoding device for three-dimensional information is a three-dimensional information composed of character information including numerical values defined within a predetermined range and annotation information for annotating information in a specific range of the character information. A run-length encoding unit that extracts a blank character code indicating an information delimiter from the information file, performs run-length encoding, and converts a blank character part in the three-dimensional information file into a predetermined run-length code; The numerical value included in the character information is separated into a numerical data body, and the separated other is used as annotation data, so that the three-dimensional information file can be restored in the annotation data with link information to the numerical data body. Data separation means for adding, variable length encoding means for compressing data with variable bit length for each of the numeric data body and the annotation data Characterized by being configured to include.

本発明の生物情報のロスレス符号化装置によれば、注釈情報と配列情報が混在した生物情報ファイルについて、注釈情報と配列情報を分離して、それぞれ注釈データ、配列データ本体とするとともに、注釈データに、配列データ本体へのリンク情報を追加した後、それぞれを符号化するようにしたので、注釈情報が混在しても生物情報を最適な符号長で圧縮することが可能となるという効果を奏する。   According to the biological information lossless encoding apparatus of the present invention, for a biological information file in which annotation information and sequence information are mixed, the annotation information and the sequence information are separated into an annotation data and an array data body, respectively. In addition, since the link information to the sequence data main body is added and then encoded, the biological information can be compressed with the optimum code length even if the annotation information is mixed. .

本発明の生物情報の検索装置によれば、入力された検索キーを、1文字(1塩基もしくはアミノ酸)ずつ移動させて、全体としてバイト単位とした複数の検索パターンを作成し、この検索パターンを利用して配列データの検索を行うようにしたので、少ないメモリで検索可能となるという効果を奏する。   According to the biological information search apparatus of the present invention, the input search key is moved one character (one base or amino acid) at a time to create a plurality of search patterns in byte units as a whole. Since the sequence data is searched by using it, there is an effect that the search can be performed with a small amount of memory.

本発明の三次元情報のロスレス符号化装置によれば、注釈情報と数値情報が混在した三次元情報ファイルについて、情報の区切りを示す空白文字符号を抽出し、ランレングス符号化を行った後、注釈情報と数値情報を分離して、それぞれ注釈データ、数値データ本体とするとともに、注釈データに、数値データ本体へのリンク情報を追加した後、それぞれを符号化するようにしたので、3次元モデルに対しても、ロスレス圧縮することが可能となるという効果を奏する。   According to the lossless encoding apparatus for three-dimensional information of the present invention, for a three-dimensional information file in which annotation information and numerical information are mixed, after extracting a blank character code indicating a delimiter of information and performing run-length encoding, Annotation information and numeric information are separated into annotation data and numeric data body, respectively, and after adding link information to the numeric data body in the annotation data, each is encoded, so the 3D model As a result, the lossless compression can be performed.

以下、本発明の実施形態について図面を参照して詳細に説明する。
(生物情報のロスレス符号化装置)
図1は、本発明に係る生物情報のロスレス符号化装置の構成を示す機能ブロック図である。図1において、1はデータ分離手段、2は固定長符号化手段、3は可変長符号化手段である。データ分離手段1は、生物情報ファイルに記録されている注釈情報と配列情報を分離して注釈データと、配列データ本体を得る機能を有している。固定長符号化手段2は、データ分離手段1により分離された一方の配列データ本体を、各配列文字の別によらず各文字に固定ビット長を割り当てることにより符号化する機能を有している。可変長符号化手段3は、データ分離手段1により分離された一方の注釈データ、固定長符号化手段2により符号化された配列データ本体を、それぞれ可変長で符号化する機能を有している。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
(Lossless encoding device for biological information)
FIG. 1 is a functional block diagram showing a configuration of a biological information lossless encoding apparatus according to the present invention. In FIG. 1, 1 is data separation means, 2 is fixed length coding means, and 3 is variable length coding means. The data separating means 1 has a function of separating annotation information and sequence information recorded in a biological information file to obtain annotation data and a sequence data body. The fixed-length encoding unit 2 has a function of encoding one array data body separated by the data separating unit 1 by assigning a fixed bit length to each character regardless of each array character. The variable length encoding means 3 has a function of encoding one annotation data separated by the data separation means 1 and the array data main body encoded by the fixed length encoding means 2 with variable lengths, respectively. .

ここで、本発明で圧縮対象とする生物情報の構造について説明しておく。本実施形態では、生物情報として、塩基配列、アミノ酸配列を利用することができる。ここでは、まず、塩基配列について説明する。図2(a)は、代表的なデータ形式であるFASTA形式で表現した原塩基配列ファイルを示す図である。図1において、t、c、a、gは、それぞれチミン、シトニン、アデニン、グアニンの4種類の塩基を示している。なお、ここでは、塩基を示す4文字以外の注釈情報は、<ANNOTATION>として省略して示してあるが、実際には、塩基配列を説明するための注釈情報が記されている。注釈情報を構成する文字、および各塩基は、ASCIIコードで記録されており、1文字の記録に8ビットを要している。   Here, the structure of biological information to be compressed in the present invention will be described. In this embodiment, a base sequence and an amino acid sequence can be used as biological information. Here, first, the base sequence will be described. FIG. 2A is a diagram showing an original base sequence file expressed in the FASTA format which is a typical data format. In FIG. 1, t, c, a, and g represent four types of bases, thymine, cytonin, adenine, and guanine, respectively. Here, the annotation information other than the four characters indicating the base is omitted as <ANNOTATION>, but actually, the annotation information for explaining the base sequence is described. The characters that make up the annotation information and each base are recorded in ASCII code, and 8 bits are required to record one character.

続いて、図1に示した装置の処理動作について説明する。まず、図2(a)に示したような原塩基配列ファイルを入力すると、まず、データ分離手段1が、原塩基配列ファイル内の注釈情報と配列情報を分離して、注釈データ、配列データ本体とする。具体的には、図2(a)に示したような原塩基配列ファイルを先頭から順に解読していき、データがt、c、a、gのASCII文字データだけから構成されるテキスト形式である場合には、配列データ本体であると判断し、t、c、a、g以外のASCII文字データを含むテキスト形式である場合には、注釈データであると判断して分離する。この際、配列データ本体として分離される塩基の数をカウントしておき、各注釈情報の後に、記録されていた塩基の数を記録する。例えば、図2(a)の例では、<ANNOTATION2>の後に67の塩基が記録されていたので、注釈データ内に、67の塩基を挿入すべき旨の情報を記録することになる。ただし、本実施形態では、注釈情報がASCIIコードで記録されており、0〜127の値は、文字情報として認識されることになる。そのため、文字情報として使用される最大値127に塩基数67を加算して記録されることになる。このため、図2(b)に示すように、<ANNOTATION2>の後には、「194」が記録されることになる。   Next, the processing operation of the apparatus shown in FIG. 1 will be described. First, when the original base sequence file as shown in FIG. 2 (a) is input, first, the data separating means 1 separates the annotation information and the sequence information in the original base sequence file to obtain the annotation data and the sequence data body. And Specifically, the original base sequence file as shown in FIG. 2 (a) is decoded in order from the top, and the data is a text format composed only of ASCII character data of t, c, a, and g. In this case, it is determined that the data is an array data body. If the text format includes ASCII character data other than t, c, a, and g, it is determined that the data is annotation data and separated. At this time, the number of bases separated as the sequence data body is counted, and the number of recorded bases is recorded after each annotation information. For example, in the example of FIG. 2A, since 67 bases are recorded after <ANNOTATION2>, information indicating that 67 bases should be inserted is recorded in the annotation data. However, in the present embodiment, the annotation information is recorded in the ASCII code, and values from 0 to 127 are recognized as character information. Therefore, the base value 67 is added to the maximum value 127 used as character information and recorded. Therefore, as shown in FIG. 2B, “194” is recorded after <ANNOTATION2>.

1バイトで記録できる情報は、0〜255までであり、上述のように、0〜127は文字情報として使用されているので、1バイトで記録できる塩基数は、128までとなる。そのため、塩基数が129以上となった場合は、2バイトで記録することになる。例えば、図2(a)の例では、<ANNOTATION1>の後に136の塩基が記録されていたので、注釈データ内に、136の塩基を挿入すべき旨の情報を記録することになる。この場合、136を128と8に分け、1バイト目、2バイト目にそれぞれ127を加算して記録する。このため、図2(b)に示すように、<ANNOTATION1>の後には、「255」「135」が記録されることになる。このように、注釈データに、挿入すべき塩基の数が記録されることにより、復号時に配列データ本体とのリンクをとることが可能となる。   The information that can be recorded in 1 byte is from 0 to 255. As described above, 0 to 127 are used as character information. Therefore, the number of bases that can be recorded in 1 byte is up to 128. Therefore, when the number of bases is 129 or more, it is recorded with 2 bytes. For example, in the example of FIG. 2A, since 136 bases are recorded after <ANNOTATION1>, information indicating that 136 bases should be inserted is recorded in the annotation data. In this case, 136 is divided into 128 and 8, and 127 is added to the first byte and the second byte for recording. Therefore, as shown in FIG. 2B, “255” and “135” are recorded after <ANNOTATION1>. Thus, by recording the number of bases to be inserted in the annotation data, it becomes possible to establish a link with the sequence data body at the time of decoding.

配列データ本体は、原塩基配列ファイルから注釈情報を外して、塩基を連続して配列させたものとなる。そのため、図2(a)のように、136の塩基と67の塩基が記録されていた場合は、図2(c)に示すように、203の塩基が連続して記録されることになる。   The sequence data body is obtained by removing the annotation information from the original base sequence file and arranging the bases continuously. For this reason, when 136 bases and 67 bases are recorded as shown in FIG. 2A, 203 bases are continuously recorded as shown in FIG. 2C.

続いて、固定長符号化手段2が、配列データ本体を固定長符号化し、中間配列データを得る。具体的には、8ビットで記録されている各塩基を2ビットに置き換えて符号化する。具体的には、図3に示した塩基変換テーブルを利用して、置き換えることになる。この結果、1塩基について8ビットで記録されていたものが、2ビットで記録されることになり、大幅にデータ量が削減される。   Subsequently, the fixed length encoding means 2 performs fixed length encoding on the array data body to obtain intermediate array data. Specifically, encoding is performed by replacing each base recorded in 8 bits with 2 bits. Specifically, replacement is performed using the base conversion table shown in FIG. As a result, what was recorded in 8 bits per base is recorded in 2 bits, and the amount of data is greatly reduced.

一方、可変長符号化手段3は、注釈データを可変長で符号化していく。ここで、可変長符号化手段3による処理概要を図4のフローチャートに示す。まず、読み込んだ注釈データをバイト単位でランレングス圧縮する(ステップS1)。次に、バイトデータの頻度テーブルを作成する(ステップS2)。具体的には、出現頻度の高いバイトデータの順に、少ないビット長のビット配列を対応させた頻度テーブルを作成することになる。作成された頻度テーブルは、後で利用するために保存される。次に、ランレングス圧縮したデータを、作成した頻度テーブルで変換する(ステップS3)。これにより、頻度が高いデータほど、小さい値になる。続いて、頻度テーブルで変換されたデータを可変長符号化する(ステップS4)。このステップS4における可変長符号化処理は、Golomb-Rice等の周知の手法を用いることができる。この結果、圧縮注釈データが得られることになる。   On the other hand, the variable length encoding means 3 encodes the annotation data with a variable length. Here, an outline of the processing by the variable length coding means 3 is shown in the flowchart of FIG. First, the read annotation data is run-length compressed byte by byte (step S1). Next, a byte data frequency table is created (step S2). Specifically, a frequency table is created in which bit arrays having a small bit length are associated in the order of byte data having a high appearance frequency. The created frequency table is saved for later use. Next, the run-length compressed data is converted using the created frequency table (step S3). As a result, the higher the frequency, the smaller the value. Subsequently, the data converted by the frequency table is subjected to variable length coding (step S4). For the variable length encoding process in step S4, a known method such as Golomb-Rice can be used. As a result, compressed annotation data is obtained.

可変長符号化手段3は、注釈データの処理後、固定長符号化手段2より固定長符号化された中間配列データを可変長符号化する。この処理は、上記ステップS1〜ステップS4の処理と同一である。この結果、圧縮配列データが得られることになる。   After processing the annotation data, the variable length encoding means 3 performs variable length encoding on the intermediate sequence data that has been fixed length encoded by the fixed length encoding means 2. This process is the same as the process in steps S1 to S4. As a result, compressed array data is obtained.

以上の処理により、圧縮ファイル(圧縮注釈データ、圧縮配列データ、注釈頻度テーブル、配列頻度テーブル、塩基変換テーブルを含む)が得られることになる。この圧縮ファイルを所定の記憶装置に記憶させておくことにより、圧縮ファイルの流通が可能となる。例えば、これらを、インターネットに公開されたコンピュータの所定のディレクトリに保存しておけば、利用者は、データ量の小さいデータ量をダウンロードすれば良いため、データの取得を迅速に行うことが可能となる。   Through the above processing, a compressed file (including compressed annotation data, compressed sequence data, annotation frequency table, sequence frequency table, and base conversion table) is obtained. By storing this compressed file in a predetermined storage device, the compressed file can be distributed. For example, if these are stored in a predetermined directory of a computer that is open to the Internet, the user can download a small amount of data, so that data can be acquired quickly. Become.

続いて、圧縮ファイルの復号処理について説明する。復号処理は、圧縮注釈データと注釈頻度テーブルから注釈データを復元し、圧縮配列データと配列頻度テーブルから中間配列データを復元し、中間配列データと塩基変換テーブルから配列データ本体を復元し、最後に、注釈データと配列データ本体を統合して元の生物情報ファイルを得ることになる。具体的には、まず、圧縮注釈データに対して、図4のフローチャートに示した処理と逆の処理を行い、注釈頻度テーブルを利用して注釈データを復元する。また、圧縮配列データに対しても、図4のフローチャートに示した処理と逆の処理を行い、配列頻度テーブルを利用して、中間配列データを復元する。中間配列データは、各塩基が2ビットで表現されているので、塩基変換テーブルを利用して各塩基8ビットに戻してやることにより、配列データ本体が復元される。次に、注釈データと配列データ本体の統合を行うが、これは、注釈データの注釈情報<ANNOTATION>を読み込み、その直後に記録されている挿入文字数分に対応する数の塩基を配列データ本体から読み込み、注釈情報の後に挿入していく。この処理を各注釈情報に対して行っていくことにより、生物情報ファイルが復元される。   Next, the compressed file decoding process will be described. In the decoding process, the annotation data is restored from the compressed annotation data and the annotation frequency table, the intermediate sequence data is restored from the compressed sequence data and the sequence frequency table, the sequence data body is restored from the intermediate sequence data and the base conversion table, and finally The original biological information file is obtained by integrating the annotation data and the sequence data body. Specifically, first, the processing opposite to the processing shown in the flowchart of FIG. 4 is performed on the compressed annotation data, and the annotation data is restored using the annotation frequency table. Also, the compressed array data is subjected to a process reverse to the process shown in the flowchart of FIG. 4, and the intermediate array data is restored using the array frequency table. In the intermediate sequence data, each base is represented by 2 bits. Therefore, the sequence data body is restored by returning to 8 bits for each base using the base conversion table. Next, the annotation data and the sequence data body are integrated. This is done by reading the annotation information <ANNOTATION> of the annotation data and adding the number of bases corresponding to the number of inserted characters immediately after that from the sequence data body. Read and insert after annotation information. By performing this process on each piece of annotation information, the biological information file is restored.

(生物情報の検索装置)
次に、本発明に係る生物情報の検索装置について説明する。図5は、本発明に係る生物情報の検索装置の構成を示す機能ブロック図である。図5において、11は検索キー入力手段、12は検索パターン作成手段、13は照合手段である。検索キー入力手段1は、検索の目的とする配列である検索キーを入力する機能を有している。検索パターン作成手段12は、入力された検索キーを1文字ずつ移動させた複数の検索パターンを作成する機能を有している。照合手段13は、作成された検索パターンと、中間配列データ内の配列との照合を行う機能を有している。
(Biological information search device)
Next, a biological information search apparatus according to the present invention will be described. FIG. 5 is a functional block diagram showing the configuration of the biological information search apparatus according to the present invention. In FIG. 5, 11 is a search key input means, 12 is a search pattern creation means, and 13 is a collation means. The search key input means 1 has a function of inputting a search key that is an array to be searched. The search pattern creation means 12 has a function of creating a plurality of search patterns by moving the input search key character by character. The collation means 13 has a function of collating the created search pattern with the array in the intermediate array data.

続いて、図5に示した検索装置の処理動作について説明する。中間配列データの構造を図6(a)に示す。上述のように、中間配列データにおいては、各塩基は2ビットで記録されている。図6では、1バイト(4塩基)単位で区切って示している。このような中間配列データを用いて、「tatagc」という配列を検索する場合を考えてみる。この場合、検索キー入力手段11から「tatagc」という検索キーを入力すると、検索パターン作成手段12は、図6(b)に示すようなA「tatagc**」、B「*tatagc*」、C「**tatagc」、D「***tatagc***」という4通りの検索パターンを作成する。ここで、「*」は2ビットの任意の配列である。この検索パターンは、整数バイトとなっており、ここでは、検索パターンA、B、Cは2バイト、検索パターンDは3バイトである。次に、照合手段13が、検索パターンの先頭から、バイト単位で検索する。例えば、まず、Aパターンの先頭1バイトの「tata」を利用して、1バイト単位で、中間配列データとのマッチングを行い、一致する配列が存在したら、2バイト目の「gc**」とのマッチングを行う。このようにすることにより、検索対象とする配列全てのマッチングをいきなり行う必要がなく、1バイト目が一致した場合のみ、2バイト目以降のマッチングを行えば良いことになり、検索時間が大幅に短縮される。Aパターンで一致する配列が見つからなかった場合は、Bパターン、Cパターン、Dパターンという順に、全てのパターンで検索を試みる。   Next, the processing operation of the search device shown in FIG. 5 will be described. The structure of the intermediate sequence data is shown in FIG. As described above, in the intermediate sequence data, each base is recorded with 2 bits. In FIG. 6, the data is divided in units of 1 byte (4 bases). Consider a case where such an intermediate sequence data is used to search for an array “tatagc”. In this case, when a search key “tatagc” is input from the search key input means 11, the search pattern creation means 12 displays A “tatagc **”, B “* tagtagc *”, C, as shown in FIG. Four types of search patterns, “** tagtagc” and D “*** tagagc ***”, are created. Here, “*” is an arbitrary array of 2 bits. This search pattern is an integer byte. Here, the search patterns A, B, and C are 2 bytes, and the search pattern D is 3 bytes. Next, the collation means 13 searches in byte units from the top of the search pattern. For example, first, “data” of the first byte of the A pattern is used to perform matching with the intermediate array data in units of 1 byte. If there is a matching array, “gc **” in the second byte is Perform matching. By doing so, it is not necessary to perform matching of all the sequences to be searched suddenly, and only when the first byte is matched, it is only necessary to perform matching after the second byte. Shortened. If no matching sequence is found in the A pattern, the search is attempted in all patterns in the order of the B pattern, the C pattern, and the D pattern.

(アミノ酸配列の例)
上記生物情報のロスレス符号化装置および検索装置の例では、DNA塩基配列を例にとって説明したが、アミノ酸配列でも同様である。ここでは、アミノ酸配列を圧縮、検索する場合について、上記DNA塩基配列の場合と異なる点について説明する。アミノ酸配列の場合は、データ分離手段1による処理の後、固定長符号化手段2により8ビットで表現されている各アミノ酸を4ビットに変換する。ただし、アミノ酸は20種類あるため、4ビットでは表現しきれないため、比較的出現頻度の低いもの5種については、8ビットで表現し、他の15種について4ビットで表現することとしている。具体的には、図7に示したアミノ酸変換テーブルを利用して変換することになる。
(Example of amino acid sequence)
In the above-described examples of the lossless encoding device and search device for biological information, the DNA base sequence has been described as an example, but the same applies to amino acid sequences. Here, differences in the case of compressing and searching for amino acid sequences from the case of the DNA base sequence will be described. In the case of an amino acid sequence, after processing by the data separation unit 1, each fixed-length encoding unit 2 converts each amino acid represented by 8 bits into 4 bits. However, since there are 20 types of amino acids, they cannot be expressed in 4 bits, so 5 types with relatively low appearance frequency are expressed in 8 bits, and the other 15 types are expressed in 4 bits. Specifically, the conversion is performed using the amino acid conversion table shown in FIG.

次に、アミノ酸配列の検索について説明する。アミノ酸の場合の中間配列データの構造を図7に示す。中間配列データにおいては、上述のように各アミノ酸は4ビットもしくは8ビットで記録されている。図8では、1バイト(1もしくは2アミノ酸)単位で区切って示している。このような中間配列データを用いて、「EKAR」という配列を検索する場合を考えてみる。この場合、図8(b)に示すようなE「EKAR」、F「*EKAR*」という2通りのパターンを作成し、バイト単位で検索する。ここで、「*」は4ビットの任意の配列である。例えば、まず、Eパターンの先頭1バイトの「EK」を利用して、1バイト単位で、中間配列データとのマッチングを行い、一致する配列が存在したら、2バイト目の「AR」とのマッチングを行う。このようにすることにより、検索対象とする配列全てのマッチングをいきなり行う必要がなく、1バイト目が一致した場合のみ、2バイト目以降のマッチングを行えば良いことになり、検索時間が大幅に短縮される。Eパターンで一致する配列が見つからなかった場合は、Fパターンで検索を試みる。   Next, the search for amino acid sequences will be described. The structure of the intermediate sequence data in the case of amino acids is shown in FIG. In the intermediate sequence data, each amino acid is recorded in 4 bits or 8 bits as described above. In FIG. 8, the data is shown in units of 1 byte (1 or 2 amino acids). Consider a case where such an intermediate sequence data is used to search for an array “EKAR”. In this case, two patterns E “EKAR” and F “* EKAR *” as shown in FIG. 8B are created and searched in byte units. Here, “*” is an arbitrary array of 4 bits. For example, first, “EK” in the first 1 byte of the E pattern is used to perform matching with intermediate array data in units of 1 byte. If there is a matching array, matching with “AR” in the second byte I do. By doing so, it is not necessary to perform matching of all the sequences to be searched suddenly, and only when the first byte is matched, it is only necessary to perform matching after the second byte. Shortened. If no matching sequence is found in the E pattern, a search is attempted using the F pattern.

(三次元情報のロスレス符号化装置)
図9は、本発明に係る三次元情報のロスレス符号化装置の構成を示す機能ブロック図である。図9において、21はランレングス符号化手段、22は定型タグ符号化手段、23はデータ分離手段、24は可変長符号化手段である。ランレングス符号化手段21は、三次元情報ファイル内の空白文字のランレングス符号化を行う機能を有している。定型タグ符号化手段22は、三次元情報ファイル内の定型のタグを対応するビット列に変換する機能を有している。データ分離手段23は、三次元情報ファイルに記録されている注釈情報と数値情報を分離して注釈データと、数値データ本体を得る機能を有している。可変長符号化手段24は、データ分離手段23により分離された注釈データ、数値データ本体を、それぞれ可変長で符号化する機能を有している。
(Lossless encoding device for 3D information)
FIG. 9 is a functional block diagram showing the configuration of the lossless encoding apparatus for three-dimensional information according to the present invention. In FIG. 9, 21 is a run length encoding means, 22 is a fixed tag encoding means, 23 is a data separation means, and 24 is a variable length encoding means. The run-length encoding means 21 has a function of performing run-length encoding of blank characters in the three-dimensional information file. The fixed tag encoding means 22 has a function of converting a fixed tag in the three-dimensional information file into a corresponding bit string. The data separation means 23 has a function of obtaining annotation data and a numerical data body by separating the annotation information and the numerical information recorded in the three-dimensional information file. The variable length encoding unit 24 has a function of encoding the annotation data and the numerical data main body separated by the data separation unit 23 with variable lengths.

本発明で圧縮対象とする三次元情報ファイルの構造について説明しておく。図10(a)は、代表的なデータ形式であるVRML形式で表現した三次元CGファイルを示す図である。図10(a)において、下線は「スペース」を示している。なお、ここでは、数値以外の注釈情報は、図1と同様<ANNOTATION>として省略して示してあるが、実際には、数値を説明するための注釈情報が記されている。   The structure of the three-dimensional information file to be compressed in the present invention will be described. FIG. 10A is a diagram showing a three-dimensional CG file expressed in the VRML format, which is a typical data format. In FIG. 10A, the underline indicates “space”. Here, annotation information other than numerical values is omitted as <ANNOTATION> in the same manner as in FIG. 1, but actually, annotation information for explaining numerical values is described.

続いて、三次元情報ファイルの圧縮について説明する。まず、三次元データを読み込むと、ランレングス符号化手段11が、スペース(空白)情報をランレングス符号化する。次に、定型タグ符号化手段12が、定型タグを符号化していく。具体的には、図11に示すような定型タグ変換テーブルを利用して符号化することになる。次に、データ分離手段13が、文字情報に含まれる数値を分離して数値データ本体とし、分離された他方を注釈データとする。具体的には、図10(a)に示したような原三次元CGファイルを先頭から順に解読していき、データが0,1,2,3,4,5,6,7,8,9、および負符号と小数点記号のASCII文字データのみから構成されるテキスト形式である場合には、数値データ本体であると判断し、データに上記以外のASCII文字データを含むテキスト形式である場合には、注釈データであると判断して分離する。この際、数値データ本体として分離される数値の個数をカウントしておき、各注釈情報の後に、記録されていた数値に関する情報を記録する。この際、バイト単位で読み込んだ文字に、以下の〔変換規則1〕に従って数値を割り当てる。   Subsequently, compression of the three-dimensional information file will be described. First, when three-dimensional data is read, the run-length encoding means 11 performs run-length encoding of space (blank) information. Next, the fixed tag encoding means 12 encodes the fixed tag. Specifically, encoding is performed using a fixed tag conversion table as shown in FIG. Next, the data separating means 13 separates the numerical values included in the character information into a numerical data body, and sets the other separated as annotation data. Specifically, the original three-dimensional CG file as shown in FIG. 10A is sequentially decoded from the top, and the data is 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 If the text format is composed only of ASCII character data with a minus sign and a decimal symbol, it is determined that the data is a numeric data body, and if the text format includes ASCII character data other than the above, It is determined that it is annotation data and is separated. At this time, the number of numerical values separated as the numerical data body is counted, and information about the recorded numerical values is recorded after each annotation information. At this time, a numerical value is assigned to the character read in byte units according to the following [Conversion rule 1].

〔変換規則1〕
0〜127:ASCII文字列
128〜191:挿入数値長+127
192〜223:定型タグコード+192
224〜255:挿入スペース長+223
例えば、図10(a)に示した先頭5文字のスペースは、挿入スペース長「5」に223を加算して「228」として図10(b)に示す注釈データに記録される。同様に、2文字のスペースは、挿入スペース長「2」に223を加算して「225」として注釈データに記録される。また、図10(a)に示した「POINT」という定型タグは、図9に示したテーブルにより得られる「21」に192を加算して「213」として図10(b)に示す注釈データに記録される。数値については、「.」も含めて連続する数値の個数に127を加算した値として記録される。すなわち、「0.000000」のように8個の場合は、「135」として記録され、「−0.000100」のように9個の場合は、「136」として記録される。
[Conversion rule 1]
0 to 127: ASCII character string 128 to 191: Inserted numerical value length +127
192 to 223: Fixed tag code +192
224 to 255: insertion space length + 223
For example, the space of the first five characters shown in FIG. 10A is recorded in the annotation data shown in FIG. 10B as “228” by adding 223 to the insertion space length “5”. Similarly, a two-character space is recorded in the annotation data as “225” by adding 223 to the insertion space length “2”. Further, the standard tag “POINT” shown in FIG. 10A is added to “21” obtained from the table shown in FIG. 9 by adding 192 to “213” to the annotation data shown in FIG. 10B. To be recorded. The numerical value is recorded as a value obtained by adding 127 to the number of consecutive numerical values including “.”. That is, when there are 8 such as “0.000000”, it is recorded as “135”, and when 9 such as “−0.000100”, it is recorded as “136”.

数値データ本体は、原三次元CGデータから注釈情報を外して、数値を連続して配列させたものとなる。そのため、図1(c)に示すように、数値が連続して記録されることになる。   The numerical data body is obtained by removing the annotation information from the original three-dimensional CG data and arranging the numerical values continuously. Therefore, as shown in FIG. 1C, numerical values are continuously recorded.

可変長符号化手段24は、注釈データ、数値データ本体を可変長で符号化していく。具体的には、図4のフローチャートに示した処理を実行することになる。この結果、圧縮ファイル(圧縮注釈データ、圧縮数値データ、注釈頻度テーブル、数値頻度テーブル、定型タグ変換テーブル)が得られることになる。   The variable length encoding means 24 encodes the annotation data and the numerical data main body with a variable length. Specifically, the processing shown in the flowchart of FIG. 4 is executed. As a result, a compressed file (compressed annotation data, compressed numerical data, annotation frequency table, numerical frequency table, fixed tag conversion table) is obtained.

続いて、復号処理について説明する。復号処理は、圧縮注釈データと注釈頻度テーブルから注釈データを復元し、圧縮数値データ本体と数値頻度テーブルから数値データ本体を復元し、最後に、注釈データと数値データ本体を統合して元の配列データを得ることになる。具体的には、まず、圧縮注釈データに対して、図4のフローチャートに示した処理と逆の処理を行い、注釈頻度テーブルを利用して注釈データを復元する。また、圧縮数値データ本体に対しても、図4のフローチャートに示した処理と逆の処理を行い、数値頻度テーブルを利用して、数値データ本体を復元する。次に、注釈データと数値データ本体の統合を行うが、これは、注釈データの注釈情報<ANNOTATION>を読み込み、その直後に記録されている数値を、上述の〔変換規則1〕によって変換し、対応する個数の数値を数値データ本体から読み込み、注釈情報の後に挿入していく。この処理を各注釈情報に対して行っていくことにより、三次元情報ファイルが復元される。   Subsequently, the decoding process will be described. The decryption process restores the annotation data from the compressed annotation data and the annotation frequency table, restores the numeric data body from the compressed numeric data body and the numeric frequency table, and finally integrates the annotation data and the numeric data body into the original array. You will get data. Specifically, first, the processing opposite to the processing shown in the flowchart of FIG. 4 is performed on the compressed annotation data, and the annotation data is restored using the annotation frequency table. Also, the compressed numeric data body is processed in reverse to the processing shown in the flowchart of FIG. 4, and the numeric data body is restored using the numeric frequency table. Next, the annotation data and the numerical data body are integrated. This is done by reading the annotation information <ANNOTATION> of the annotation data, and converting the numerical value recorded immediately after that according to the above-mentioned [Conversion Rule 1]. The corresponding number of numerical values are read from the numerical data body and inserted after the annotation information. By performing this process for each piece of annotation information, the three-dimensional information file is restored.

なお、上記図1、図5、図8に示した各装置は、具体的には、コンピュータ等のハードウェアに、専用のソフトウェアプログラムを搭載することにより実現される。   Note that each of the devices shown in FIGS. 1, 5, and 8 is specifically realized by installing a dedicated software program in hardware such as a computer.

本発明に係る生物情報のロスレス符号化装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the lossless encoding apparatus of the biological information which concerns on this invention. データ分離手段1による処理の様子を示す図である。It is a figure which shows the mode of the process by the data separation means. 塩基変換テーブルの一例を示す図である。It is a figure which shows an example of a base conversion table. 可変長符号化手段による処理概要を示すフローチャートである。It is a flowchart which shows the process outline | summary by a variable-length encoding means. 本発明に係る生物情報の検索装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the search apparatus of the biological information which concerns on this invention. 塩基配列の場合の中間配列データおよび検索パターンを示す図である。It is a figure which shows the intermediate sequence data and search pattern in the case of a base sequence. アミノ酸変換テーブルの一例を示す図である。It is a figure which shows an example of an amino acid conversion table. アミノ酸配列の場合の中間配列データおよび検索パターンを示す図である。It is a figure which shows the intermediate sequence data in the case of an amino acid sequence, and a search pattern. 本発明に係る三次元情報のロスレス符号化装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the lossless encoding apparatus of the three-dimensional information which concerns on this invention. データ分離手段23による処理の様子を示す図である。It is a figure which shows the mode of the process by the data separation means. 定型タグ変換テーブルの一例を示す図である。It is a figure which shows an example of a fixed tag conversion table.

符号の説明Explanation of symbols

1、23・・・データ分離手段
2・・・固定長符号化手段
3、24・・・可変長符号化手段
11・・・検索キー入力手段
12・・・検索パターン作成手段
13・・・照合手段
14・・・アーカイブ実行手段
21・・・ランレングス符号化手段
22・・・定型タグ符号化手段

1, 23 ... Data separation means 2 ... Fixed length encoding means 3, 24 ... Variable length encoding means 11 ... Search key input means 12 ... Search pattern creation means 13 ... Verification Means 14 ... Archive execution means 21 ... Run length encoding means 22 ... Fixed tag encoding means

Claims (4)

所定の範囲内で定義された文字の配列情報と前記配列情報の特定の範囲の情報を注釈する注釈情報で構成される生物情報ファイルに対して、
前記注釈情報と配列情報を分離して、注釈データ、配列データ本体とするとともに、前記生物情報ファイルを復元できるように、前記注釈データに前記配列データ本体へのリンク情報を追加するためのデータ分離手段と、
前記配列データ本体に記録された各文字に対して固定ビット長を割り当てることによりデータ圧縮を行って、中間配列データを得る固定長符号化手段と、
前記固定長で圧縮された中間配列データ、および前記注釈データそれぞれに対して、可変ビット長でデータ圧縮を行う可変長符号化手段と、
を有することを特徴とする生物情報のロスレス符号化装置。
For a biological information file composed of character sequence information defined within a predetermined range and annotation information that annotates information of a specific range of the sequence information,
Data separation for adding link information to the sequence data body to the annotation data so that the annotation information and the sequence data body can be separated into the annotation data and the sequence data body and the biological information file can be restored. Means,
Fixed-length encoding means for obtaining intermediate array data by performing data compression by assigning a fixed bit length to each character recorded in the array data body;
Variable length encoding means for compressing data with a variable bit length for each of the intermediate array data compressed with the fixed length and the annotation data;
A lossless encoding apparatus for biological information, comprising:
請求項1において、
前記可変長符号化手段は、前記注釈データまたは配列データ本体の各バイト配列単位にランレングス圧縮を行うとともに、各バイトデータの発生頻度順に短い長さのビットを割り当てることにより符号化を行うものであることを特徴とする生物情報のロスレス符号化装置。
In claim 1,
The variable-length encoding means performs run-length compression on each byte array unit of the annotation data or array data body, and performs encoding by assigning bits having a short length in order of occurrence frequency of each byte data. A lossless encoding device for biological information, characterized in that it exists.
請求項1において、
前記配列データ本体は、a、g、c、t(大文字も可)の4種類の文字から構成され、各文字が8ビットで記録された塩基配列データであり、前記固定長符号化手段は、前記各文字を2ビットの固定長で符号化を行うものであることを特徴とする生物情報のロスレス符号化装置。
In claim 1,
The sequence data body is composed of four types of characters a, g, c, and t (capital letters are acceptable), each sequence data is recorded in 8 bits, and the fixed-length encoding means includes: A lossless encoding device for biological information, wherein each character is encoded with a fixed length of 2 bits.
請求項1において、
前記配列データ本体は、L、A、S、G、V、E、K、I、T、D、R、P、N、F、Q、Y、M、H、C、W(小文字も可)の20種類の文字から構成され、各文字が8ビットで記録されたアミノ酸配列データであり、前記固定長符号化手段は、L、A、S、G、V、E、K、I、T、D、R、P、N、F、Qの文字に対しては4ビットの固定長で符号化を行い、Y、M、H、C、Wの文字に対しては8ビットの固定長で符号化を行うものであることを特徴とする生物情報のロスレス符号化装置。
In claim 1,
The array data body is L, A, S, G, V, E, K, I, T, D, R, P, N, F, Q, Y, M, H, C, W (lower case is also acceptable) The fixed-length encoding means includes L, A, S, G, V, E, K, I, T, the amino acid sequence data in which each character is recorded in 8 bits. D, R, P, N, F, and Q characters are encoded with a fixed length of 4 bits, and Y, M, H, C, and W characters are encoded with a fixed length of 8 bits. A lossless encoding apparatus for biological information, characterized in that it performs the conversion.
JP2003323368A 2003-09-16 2003-09-16 Biological information lossless encoder Expired - Fee Related JP4334955B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003323368A JP4334955B2 (en) 2003-09-16 2003-09-16 Biological information lossless encoder

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003323368A JP4334955B2 (en) 2003-09-16 2003-09-16 Biological information lossless encoder

Publications (2)

Publication Number Publication Date
JP2005087069A JP2005087069A (en) 2005-04-07
JP4334955B2 true JP4334955B2 (en) 2009-09-30

Family

ID=34454467

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003323368A Expired - Fee Related JP4334955B2 (en) 2003-09-16 2003-09-16 Biological information lossless encoder

Country Status (1)

Country Link
JP (1) JP4334955B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4852313B2 (en) * 2006-01-20 2012-01-11 富士通株式会社 Genome analysis program, recording medium recording the program, genome analysis apparatus, and genome analysis method
JP4873004B2 (en) 2006-03-17 2012-02-08 日本電気株式会社 3D data processing system
EP2634717A2 (en) * 2012-02-28 2013-09-04 Koninklijke Philips Electronics N.V. Compact next generation sequencing dataset and efficient sequence processing using same
CN105320674B (en) * 2014-07-03 2020-05-12 腾讯科技(深圳)有限公司 Method and device for establishing domain ontology base and server

Also Published As

Publication number Publication date
JP2005087069A (en) 2005-04-07

Similar Documents

Publication Publication Date Title
US11404143B2 (en) Method and systems for the indexing of bioinformatics data
JP4261779B2 (en) Data compression apparatus and method
US8120516B2 (en) Data compression using a stream selector with edit-in-place capability for compressed data
Apostolico et al. Compression of biological sequences by greedy off-line textual substitution
KR101969848B1 (en) Method and apparatus for compressing genetic data
EP3526709B1 (en) Efficient data structures for bioinformatics information representation
Bonfield CRAM 3.1: advances in the CRAM file format
Kumar et al. Fast and memory efficient approach for mapping NGS reads to a reference genome
JP5656593B2 (en) Apparatus and method for decoding encoded data
CN110168652B (en) Method and system for storing and accessing bioinformatic data
EP3583249A1 (en) Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads
JP4334955B2 (en) Biological information lossless encoder
KR20190113971A (en) Compression representation method and apparatus of bioinformatics data using multiple genome descriptors
Cánovas et al. Practical compression for multi-alignment genomic files
CN110111852A (en) A kind of magnanimity DNA sequencing data lossless Fast Compression platform
US6731229B2 (en) Method to reduce storage requirements when storing semi-redundant information in a database
JP4770163B2 (en) Biological information analysis device and compression device
Kumar et al. WBFQC: A new approach for compressing next-generation sequencing data splitting into homogeneous streams
Pathak et al. RETRACTED: LFQC: a lossless compression algorithm for FASTQ files
Gupta et al. An efficient compressor for biological sequences
Mridula et al. Lossless segment based DNA compression
Huo et al. CIndex: compressed indexes for fast retrieval of FASTQ files
CN115691683A (en) Genotype information compression method, genotype information compression device and computer readable storage medium
Gupta et al. Searching a pattern in compressed DNA sequences
JPH06274311A (en) Data compression device and data restoration device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090402

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090618

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090624

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4334955

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130703

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees