JPH1165902A - 圧縮方法、伸長方法、圧縮装置、伸長装置および記録媒体 - Google Patents

圧縮方法、伸長方法、圧縮装置、伸長装置および記録媒体

Info

Publication number
JPH1165902A
JPH1165902A JP9217406A JP21740697A JPH1165902A JP H1165902 A JPH1165902 A JP H1165902A JP 9217406 A JP9217406 A JP 9217406A JP 21740697 A JP21740697 A JP 21740697A JP H1165902 A JPH1165902 A JP H1165902A
Authority
JP
Japan
Prior art keywords
data
section
information file
compressed
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9217406A
Other languages
English (en)
Inventor
Hideyuki Adachi
秀行 足立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AIBITSUKUSU KK
Original Assignee
AIBITSUKUSU KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AIBITSUKUSU KK filed Critical AIBITSUKUSU KK
Priority to JP9217406A priority Critical patent/JPH1165902A/ja
Publication of JPH1165902A publication Critical patent/JPH1165902A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 圧縮率を高める。 【解決手段】 CPU10は情報ファイルの複数のレコ
ードを区分データが共通する集合に分類し、1つのレコ
ードを構成する複数の区分データを区分の種類毎に並び
換えるこで圧縮を行う。この際に共通する区分データは
1つで代表される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報ファイルやプ
リントデータを構成する大量の文字データを圧縮/伸長
するための圧縮方法、伸長方法、圧縮装置、伸長装置お
よび記録媒体。
【0002】
【従来の技術】大量の文字データで構成される情報ファ
イル、たとえば、辞書、データベース、文書、プリント
データは記録媒体に保存したり、通信で他の装置に転送
する場合がある。記録媒体に保存する場合には、記憶容
量を増やす目的のため、通信の場合には通信時間を短縮
する目的のためにデータ圧縮が行われる。圧縮方法には
可逆圧縮と、不可逆圧縮の2種類がある。可逆圧縮方法
は圧縮したファイルを伸長した場合に、圧縮前のファイ
ルと伸長後のファイルが完全一致する方法であり、ラン
レニグス圧縮方法やハフマン符号化方法、LZ法等と呼
ばれる圧縮/伸長方法が知られている。
【0003】一方、不可逆圧縮方法は、圧縮前のファイ
ルと伸長後のファイルとは微妙に異なるが圧縮率が高い
方法である。
【0004】不可逆圧縮方法は、DCT(離散コサイン
変換)やDST(離散サイン変換)などの変換符号化方
法が知られている。
【0005】伸長後のファイルを完全一致させるために
は可逆圧縮方法による圧縮方法が好適であるが、圧縮率
が低いという問題がある。
【0006】
【発明が解決しようとする課題】このため、辞書に文字
列と対応する符号を登録し、符号を通信したり、記録媒
体に記録するという圧縮方法が提案されているがこの圧
縮方法については圧縮率が1/10程度である。たとえ
ば、100メガバイトのデータを圧縮しても10メガバ
イトとなり、ISDNのような高速通信回線を使用して
もその通信時間は30分もかかってしまう。
【0007】そこで、本発明の目的は、上述の点に鑑み
て、文字データで構成される情報ファイルを高い圧縮率
で圧縮し、かつ完全一致となるように伸長することがで
きる圧縮方法、伸長方法、圧縮装置、伸長装置および記
録媒体を提供することにある。
【0008】
【課題を解決するための手段】このような目的を達成す
るために、請求項1の発明は、複数のレコードを有し、
各レコードが複数の区分に分割された区分データで構成
される情報ファイルを情報処理装置により圧縮する圧縮
方法において、前記情報処理装置は、前記情報ファイル
の複数のレコードを、その中の特定の区分の区分データ
が共通する集合に分類し、当該分類された集合の各々の
レコードについて、区分毎に区分データを並び換え、前
記特定の区分の複数の区分データについては共通の1つ
の区分データにより代表させることにより前記情報ファ
イルを圧縮することを特徴とする。
【0009】請求項2の発明は、請求項1に記載の圧縮
方法において、圧縮された情報ファイルは他の装置に通
信されることを特徴とする。
【0010】請求項3の発明は、請求項1に記載の圧縮
方法において、圧縮された情報ファイルは記録媒体に記
録されることを特徴とする。
【0011】請求項4の発明は、複数のレコードを有
し、各レコードが複数の区分に分割された区分データで
構成される情報ファイルを圧縮する圧縮装置において、
前記情報ファイルの複数のレコードを、その中の特定の
区分の区分データが共通する集合に分類する分類手段
と、当該分類された集合の各々のレコードについて、区
分毎に区分データを並び換え、前記特定の区分の複数の
区分データについては共通の1つの区分データにより代
表させる並び換え手段とを有し、当該並び換えられた区
分データの列を前記情報ファイルに対する圧縮データと
することを特徴とする。
【0012】請求項5の発明は、請求項4に記載の圧縮
装置において、圧縮された情報ファイルは他の装置に通
信されることを特徴とする。
【0013】請求項6の発明は、請求項4に記載の圧縮
装置において、圧縮された情報ファイルは記録媒体に記
録されることを特徴とする。
【0014】請求項7の発明は、複数のレコードを有
し、各レコードが複数の区分に分割された区分データで
構成される情報ファイルをコンピュータにより圧縮する
ためのプログラムを記録媒体において、前記プログラム
は、前記情報ファイルの複数のレコードを、その中の特
定の区分の区分データが共通する集合に情報処理装置に
より分類する処理手順と、当該分類された集合の各々の
レコードについて、区分毎に区分データを前記情報処理
装置により並び換え、前記特定の区分の複数の区分デー
タについては共通の1つの区分データにより代表させる
処理手順とを有し、当該並び換えられた区分データの列
を前記情報ファイルに対する圧縮データとすることを特
徴とする。
【0015】請求項8の発明は、複数のレコードを有
し、各レコードが複数の区分に分割された区分データで
構成される情報ファイルを情報処理装置により圧縮し、
当該圧縮された情報ファイルを記録した記録媒体におい
て、前記情報処理装置は、前記情報ファイルの複数のレ
コードを、その中の特定の区分の区分データが共通する
集合に分類し、当該分類された集合の各々のレコードに
ついて、区分毎に区分データを並び換え、前記特定の区
分の複数の区分データについては共通の1つの区分デー
タにより代表させることにより圧縮された情報ファイル
を記録したことを特徴とする。
【0016】請求項9の発明は、複数のレコードを有
し、各レコードが複数の区分に分割された区分データで
構成される情報ファイルを第1の情報処理装置により圧
縮し、当該圧縮された情報ファイルを第2の情報処理装
置により伸長する伸長方法において、前記第1の情報処
理装置は、前記情報ファイルの複数のレコードを、その
中の特定の区分の区分データが共通する集合に分類し、
当該分類された集合の各々のレコードについて、区分毎
に区分データを並び換え、前記特定の区分の複数の区分
データについては共通の1つの区分データにより代表さ
せることにより前記情報ファイルを圧縮し、前記第2の
情報処理装置では前記複数のレコードを記憶する記憶領
域を用意し、並び換えられた前記区分データを逆順に並
び換えて前記記憶領域に各区分毎に記憶していき、前記
記憶領域内の前記特定の区分の全ての記憶欄には、代表
される1つの区分データを記憶することにより圧縮され
た情報ファイルを伸長することを特徴とする。
【0017】請求項10の発明は、複数のレコードを有
し、各レコードが複数の区分に分割された区分データで
構成される情報ファイルを圧縮装置により圧縮し、当該
圧縮された情報ファイルを伸長する伸長装置において、
前記圧縮装置は、前記情報ファイルの複数のレコード
を、その中の特定の区分の区分データが共通する集合に
分類し、当該分類された集合の各々のレコードについ
て、区分毎に区分データを並び換え、前記特定の区分の
複数の区分データについては共通の1つの区分データに
より代表させることにより前記情報ファイルを圧縮して
おり、前記複数のレコードを記憶するための記憶手段
と、並び換えられた前記区分データを逆順に並び換えて
前記記憶手段に各区分毎に記憶する書き込み手段とを有
し、該書き込み手段は、前記記憶手段内の前記特定の区
分の全ての記憶欄には、代表される1つの区分データを
書き込みすることにより圧縮された情報ファイルを伸長
することを特徴とする。
【0018】請求項11の発明は、圧縮前の情報ファイ
ルが複数のレコードを有し、各レコードが複数の区分に
分割された区分データで構成される圧縮情報ファイルを
コンピュータにより伸長するためのプログラムを記録し
た記録媒体において、前記情報ファイルの複数のレコー
ドを、その中の特定の区分の区分データが共通する集合
に分類し、当該分類された集合の各々のレコードについ
て、区分毎に区分データを並び換え、前記特定の区分の
複数の区分データについては共通の1つの区分データに
より代表させることにより前記情報ファイルが圧縮され
ており、前記プログラムは、前記複数のレコードを記憶
するための記憶領域を確保する処理手順と、当該並び換
えられた前記区分データを逆順に並び換えて前記記憶領
域に各区分毎に記憶する処理手順と、前記記憶領域内の
前記特定の区分の全ての記憶欄には、代表される1つの
区分データを記憶する処理手順とを有することを特徴と
する。
【0019】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。
【0020】(第1の実施形態)図1は圧縮対象の情報
ファイルの内容を示す。図1において、符号100は圧
縮対象の情報ファイルの一例であり、図1には住所録に
関する情報ファイルの例を示している。情報ファイルは
複数のレコードで構成されており1レコードが複数の区
分(図1の例では第1〜第5の区分)に分割される。図
1の例では第1の区分は都道府県に関する区分データ、
第2の区分には市町村、区、番地に関する区分データ、
第3の区分には番地に関する区分データ、第4の区分に
は姓に関する区分データ、第5の区分には名に関する区
分データが記述されている。
【0021】なお、データベースや表計算では複数の区
分データで構成されるデータの1記憶単位をレコードと
呼び、区分(項目欄)をフィールドと呼ぶが、フィール
ドは他の分野では別の意味を持つので、混乱を避けるた
め、本実施の形態ではレコードを構成する種類ごとの区
分けを区分と呼ぶことにする。
【0022】このような情報ファイルを圧縮するための
圧縮方法を図1、および図2を参照しながら説明する。
【0023】第1の実施の形態では、情報ファイルを分
類し、情報ファイルの中の第1の区分データが共通する
レコードの集合を作成する。図1の例では東京都の名前
を有するレコードの集合、神奈川県の名前を持つレコー
ド,...に情報ファイルを分類する。
【0024】次に、分類されたレコードの集合のデータ
を並び換えることにより圧縮データを作成する。より具
体的には、図1の例では、第1の区分データが共通であ
るので、共通のデータ(東京都)1つを代表させて圧縮
データの中の第1番目に並べる。次に第2の区分のデー
タを列方向に取り出して、2番目から順に並べる。以
下、1つの区分の区分データが終了すると、次の区分の
区分データを列方向に取り出して、これまでに並べた区
分データに付加する。このような並び換えを行うと、図
1の(a)に符号101で示す区分データの系列が圧縮
データとして作成される。
【0025】通常、データベースなどの情報ファイルは
ランダムファイルと呼ばれる形式で記憶され、各区分の
データが共通化されて記憶されているわけではない。第
1の実施の形態では情報ファイルの特定の区分のデータ
が全て共通するデータ集合に分類し、共通するデータを
1つで代表させることによりデータ圧縮を行う。たとえ
ば、100個のレコードにおいて、第1の区分のデータ
は共通データ1個(この場合、東京都)で代表され、こ
の共通データのみが通信/記録される。したがって、デ
ータを共有するレコードが多いほどデータ圧縮率は高く
なる。
【0026】次に上述の圧縮データの伸長方法を説明す
る。圧縮データの送信側では、区分の個数(この場合
「5」)とレコードの個数(たとえば、「1000
0」)および共通データの区分位置(この場合
「1」)、ファイルの種類(たとえば、CSV)を圧縮
データのヘッダ(先頭部)に記述してヘッダと圧縮デー
タを送信する。受信側では、ヘッダと圧縮データを受信
すると、伸長データを記憶するための記憶領域(テーブ
ル)をヘッダ情報に基づき用意する。この場合、レコー
ド数「10000」。区分数「5」の記憶領域が確保さ
れる。なお、各区分の文字数を異ならせたい場合には区
分毎の最大文字数を送信側から受信側に転送するとよ
い。
【0027】受信側では、ヘッダ情報の中の共通データ
の示す記憶位置(区分1)に最初に受信した共通データ
(図1の(a)参照、「東京都」)をレコード数分だけ
記憶する。この後、記憶領域の第2の区分に該当する領
域に受信した第2の区分以降の受信データ(中野区、中
野区、葛飾区...)を記憶していく。
【0028】全ての受信データを記憶領域に記憶する
と、受信側では、指定されたファイルの種類(CSV
(コンマ区切りテキスト))のフォーマットの形態に上
記記憶領域の記憶データを編集してデータ伸長を完了す
る。ここで注意してほしいことは、本実施の形態では、
データ圧縮の際に、分類を行うので、レコードのデータ
ベース上の位置は、圧縮データ中では反映されない。し
かしながら、ランダムファイル形態のデータベースで
は、区分データまたはレコードをキーワードで検索する
ので、レコードの内容が変更されなければ、受信側で作
成したデータベースのレコードの記述位置が送信側のデ
ータベースの記述位置と異なっても、何らの影響を受け
ないということである。
【0029】本実施の形態での圧縮データは並び換えと
いう単純な処理のみで作成されるので、処理時間が早
く、内容については完全一致で伸長される。
【0030】上述の圧縮/伸長方法で通信や記録を行う
ための圧縮/伸長システムを図3を参照して説明する。
図3において、この例では、情報処理装置として汎用パ
ーソナルコンピュータを使用する場合を示す。送信側の
装置と受信側の装置は同じ装置構成とする。
【0031】汎用パーソナルコンピュータ1は周知のよ
うにCPU10、ハードディスク記憶装置(HDD)1
1、モデム4に接続するための通信インタフェース1
2、ROMおよびRAMで構成されるシステムメモリ1
3、フロッピーディスクドライブ(FDD)14、CD
ROMドライブ15およびディスプレイ2、入力装置3
と接続するためのインタフェース等を有する。
【0032】入力装置3はキーボードおよびマウスから
構成される。HDD11には図4および図5に示す圧縮
および伸長用のプログラムが格納されており、入力装置
3からのプログラム起動指示に応じて、所定のプログラ
ムがシステムメモリ13にロードされて、CPU10に
おいて実行される。このためのオペレーティングシステ
ム(OS)がHDD11、およびシステムメモリ13に
格納されている。
【0033】図4および図5に示す処理手順は、CPU
10が実行可能なプログラム言語で記述され、フロッピ
ーディスクやCDROMに記憶されており、FDD14
あるいはCDROMドライブ15を介してHDD11に
インストールされる。圧縮の対象となる情報ファイルは
HDD11に保存されている。
【0034】このようなシステム構成で実行される圧縮
/伸長処理を説明する。この例では、モデム4を介して
他の装置に圧縮データを通信する場合を例にとり、説明
する。また、通信対象の情報ファイルは図1に示すよう
な住所録ファイルであるものとする。
【0035】ユーザは、図4に示す圧縮用プログラムの
起動を入力装置3から指示すると、CPU10は図4の
処理手順を開始する。CPU10は圧縮対象の情報ファ
イルの指定を入力装置3から受け付けると、指定された
情報ファイルの分類を行う(ステップS1→S2)。情
報ファイルの分類にはソーティングと呼ばれる情報処理
方法を使用する。ソーティングとは、ランダムに並べら
れた、データを昇順、降順にならべる情報処理手法であ
り、このソーティングを行うと、同じ名前を持つデータ
は、1つのデータ群に自動的にまとめられる。たとえ
ば、図1の情報ファイルの第1の区分のデータに文字コ
ードの数値順でのソーティングをかけると、第1の区分
のデータは先頭の文字コードの値の小さいものからレコ
ードが並び換えられ、同じ文字コード列、この場合「東
京都」を第1区分に有するレコードは1つの集合に分類
される。
【0036】CPU10によるソーティングの結果はシ
ステムメモリ13内に格納される。次にCPU10は上
述の圧縮方法により圧縮データを作成する。すなわち、
CPU10はデータの並び換えを行うために、ソーティ
ングの対象となった、区分(この場合、第1区分)の共
通データをソーティング結果から取り出し、システムメ
モリ13のワーク領域の先頭に格納する。以下、第2区
分以降のデータをソーティング結果から区分毎に取り出
してワーク領域に連続的に格納する(図1の(a)参
照、ステップS30)。この際に、1つの区分のデータ
を格納すると、区分の区切れを示す記号(図1の例では
/記号)が挿入される。
【0037】CPU10は、伸長のために使用するフォ
ーマット定義、この例では、レコード数、区分数、共通
データの区分番号を記述したフォーマット定義を作成す
る(ステップS40)。レコード数や区分数は上述のソ
ーティング処理に関連して計数してもよいし、情報ファ
イルがこれらのデータを管理データとして持っている場
合には、これらの管理データを使用することができる。
【0038】最後に、CPU10は通信用プログラムを
手動/自動の指示により起動して、受信先の装置と接続
し、ワーク領域に作成されたフォーマット定義および圧
縮データを送信(出力)する(ステップS50)。
【0039】一方、圧縮データを受信する受信装置側で
は、図5の処理プログラムにより圧縮データ(フォーマ
ット定義含む)をモデム4を介して、受信し、HDD1
1に一時的に格納する(ステップS100)。CPU1
0は受信したフォーマット定義に記述されたレコード
数、区分数に基づいて、伸長用のワーク領域(テーブ
ル)をシステムメモリ13上に確保した後、上述した伸
長方法にしたがって、ワーク領域に圧縮データを伸長し
て行く。この例では共通データの区分を示すフォーマッ
ト定義情報にしたがって、最初に「東京都」が第1の区
分の全てのデータ記憶欄に記憶(書き込み)されたの
ち、第2の区分のデータが第2の区分のデータ欄に順次
に記憶される。区切り記号が検出されると、CPU10
は区分の欄を変更して、次の区分欄に圧縮データを順に
記憶する。全ての圧縮データの並び換え(伸長)を終了
すると、CPU10は、ユーザから入力装置3を介して
ファイル名およびファイルの種類(たとえば、CSV)
受け付けた後、指定された書式にワーク領域のデータを
編集し、ファイル名を付加して、HDD11に保存する
(ステップS120→S130)。
【0040】(第2実施形態)第1実施形態では、複数
のレコードを1つの共通する区分で分類したが、図1の
例の「東京都」、「中野区」のように2つの区分でデー
タ共通する場合がある。このような場合には、図1の
(b)に示すように共通データの後に共通する個数を付
加して情報ファイルを圧縮するとよい。この形態では、
区分の区切れを示す記号「/」と、共通データの区切れ
を示す記号「,」を挿入することになる。伸長の場合に
は、共通データに付加された個数だけ、連続的に区分内
のデータ記述欄に共通データを記述し、区分の区切れ記
号を検出すると、記述の区分欄を変更する。この形態で
は、レコード数等が圧縮データから得られるので、レコ
ードに関するフォーマット定義が不要という利点があ
る。
【0041】(第3実施形態)第2実施形態では共通デ
ータの後に共通データ数を付加しているが、圧縮データ
の先頭に共通データ数を並べるようにした圧縮データ例
を図1の(c)に示す。この形態では、区分毎に共通デ
ータ数を列挙するので、1つの区分中に記述された共通
データ数を合計すると、レコード数が得られる。図1の
(c)の形態では、第1の区分は共通データがnでレコ
ード数がnであることを示し、第2の区分は共通データ
がm個、次にn個あることを示す。なお、zは共通デー
タがまったくないことを示している。このようなフォー
マット定義にしたがって、以下、並び換えのデータが順
次に接続される。
【0042】(他の実施形態) 1)上述の実施形態では、圧縮データを通信する例を示
したが、他に、フロッピーディスク等の記録媒体への記
録、プリンタへの印刷データの送信等圧縮データを取り
扱う装置に本発明を適用できる。
【0043】2)圧縮対象の情報ファイルは複数のレコ
ードを有し、各レコードが複数の区分(フィールド)に
分割されているデータ群、たとえば、データベース、表
(テーブルを含む)等に本発明を適用できる。
【0044】3)本発明の圧縮方法により圧縮したデー
タに対して、既知の可逆圧縮方法をさらに施すことによ
り圧縮効率がさらに向上する。
【0045】4)上述した圧縮/伸長システムでは汎用
のパーソナルコンピュータを使用したが、これに限るこ
とはなく、圧縮/伸長プログラムを記録した記録媒体、
CPUのようなプログラム実行装置(コンピュータ)、
圧縮/伸長データを記憶する記憶装置で圧縮/伸長シス
テムを構成するとよい。
【0046】
【発明の効果】以上、説明したように、請求項1、4、
7、8、9、10、11の発明では、データベースや表
等の情報ファイルの中の区分データが共通するレコード
の集合に分類され、共通の区分データについては1つの
共通データに代表させて、複数のレコードの区分データ
を区分毎に並び換える。このような簡単な圧縮処理を行
うことで、大量のデータを短時間で圧縮できる。また、
共通データの個数が多いほど圧縮率が高まり、圧縮デー
タに既知の圧縮を施すとさらに圧縮率が高まる。また、
逆順に圧縮データを並び換えることでレコード内容を変
更することなく完全に伸長することができる。
【0047】請求項2、5の発明では、通信時間の短縮
に寄与することができる。
【0048】請求項3、6の発明では、記録時間の短縮
に寄与することができ、記録容量が制限された記録媒体
に対しては従来よりも多量のデータを記録できる。
【図面の簡単な説明】
【図1】圧縮対象の情報ファイルの内容および圧縮され
たデータの内容を示す説明図である。
【図2】圧縮および伸長の処理手順を示す説明図であ
る。
【図3】本発明実施形態の圧縮/伸長システム(装置)
の構成を示すブロック図である。
【図4】本発明実施形態の圧縮処理手順を示すフローチ
ャートである。
【図5】本発明実施形態の伸長処理手順を示すフローチ
ャートである。
【符号の説明】 1 汎用パーソナルコンピュータ 2 ディスプレイ 3 入力装置 4 モデム 10 CPU 11 HDD 12 通信インタフェース 13 システムメモリ 14 FDD 15 CDROMドライブ

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 複数のレコードを有し、各レコードが複
    数の区分に分割された区分データで構成される情報ファ
    イルを情報処理装置により圧縮する圧縮方法において、
    前記情報処理装置は、 前記情報ファイルの複数のレコードを、その中の特定の
    区分の区分データが共通する集合に分類し、 当該分類された集合の各々のレコードについて、区分毎
    に区分データを並び換え、 前記特定の区分の複数の区分データについては共通の1
    つの区分データにより代表させることにより前記情報フ
    ァイルを圧縮することを特徴とする圧縮方法。
  2. 【請求項2】 請求項1に記載の圧縮方法において、圧
    縮された情報ファイルは他の装置に通信されることを特
    徴とする圧縮方法。
  3. 【請求項3】 請求項1に記載の圧縮方法において、圧
    縮された情報ファイルは記録媒体に記録されることを特
    徴とする圧縮方法。
  4. 【請求項4】 複数のレコードを有し、各レコードが複
    数の区分に分割された区分データで構成される情報ファ
    イルを圧縮する圧縮装置において、 前記情報ファイルの複数のレコードを、その中の特定の
    区分の区分データが共通する集合に分類する分類手段
    と、 当該分類された集合の各々のレコードについて、区分毎
    に区分データを並び換え、前記特定の区分の複数の区分
    データについては共通の1つの区分データにより代表さ
    せる並び換え手段とを有し、当該並び換えられた区分デ
    ータの列を前記情報ファイルに対する圧縮データとする
    ことを特徴とする圧縮装置。
  5. 【請求項5】 請求項4に記載の圧縮装置において、圧
    縮された情報ファイルは他の装置に通信されることを特
    徴とする圧縮装置。
  6. 【請求項6】 請求項4に記載の圧縮装置において、圧
    縮された情報ファイルは記録媒体に記録されることを特
    徴とする圧縮装置。
  7. 【請求項7】 複数のレコードを有し、各レコードが複
    数の区分に分割された区分データで構成される情報ファ
    イルをコンピュータにより圧縮するためのプログラムを
    記録媒体において、前記プログラムは、 前記情報ファイルの複数のレコードを、その中の特定の
    区分の区分データが共通する集合に情報処理装置により
    分類する処理手順と、 当該分類された集合の各々のレコードについて、区分毎
    に区分データを前記情報処理装置により並び換え、前記
    特定の区分の複数の区分データについては共通の1つの
    区分データにより代表させる処理手順とを有し、当該並
    び換えられた区分データの列を前記情報ファイルに対す
    る圧縮データとすることを特徴とする記録媒体。
  8. 【請求項8】 複数のレコードを有し、各レコードが複
    数の区分に分割された区分データで構成される情報ファ
    イルを情報処理装置により圧縮し、当該圧縮された情報
    ファイルを記録した記録媒体において、 前記情報処理装置は、前記情報ファイルの複数のレコー
    ドを、その中の特定の区分の区分データが共通する集合
    に分類し、当該分類された集合の各々のレコードについ
    て、区分毎に区分データを並び換え、前記特定の区分の
    複数の区分データについては共通の1つの区分データに
    より代表させることにより圧縮された情報ファイルを記
    録したことを特徴とする記録媒体。
  9. 【請求項9】 複数のレコードを有し、各レコードが複
    数の区分に分割された区分データで構成される情報ファ
    イルを第1の情報処理装置により圧縮し、当該圧縮され
    た情報ファイルを第2の情報処理装置により伸長する伸
    長方法において、前記第1の情報処理装置は、前記情報
    ファイルの複数のレコードを、その中の特定の区分の区
    分データが共通する集合に分類し、当該分類された集合
    の各々のレコードについて、区分毎に区分データを並び
    換え、前記特定の区分の複数の区分データについては共
    通の1つの区分データにより代表させることにより前記
    情報ファイルを圧縮し、前記第2の情報処理装置では前
    記複数のレコードを記憶する記憶領域を用意し、並び換
    えられた前記区分データを逆順に並び換えて前記記憶領
    域に各区分毎に記憶していき、 前記記憶領域内の前記特定の区分の全ての記憶欄には、
    代表される1つの区分データを記憶することにより圧縮
    された情報ファイルを伸長することを特徴とする伸長方
    法。
  10. 【請求項10】 複数のレコードを有し、各レコードが
    複数の区分に分割された区分データで構成される情報フ
    ァイルを圧縮装置により圧縮し、当該圧縮された情報フ
    ァイルを伸長する伸長装置において、 前記圧縮装置は、前記情報ファイルの複数のレコード
    を、その中の特定の区分の区分データが共通する集合に
    分類し、当該分類された集合の各々のレコードについ
    て、区分毎に区分データを並び換え、前記特定の区分の
    複数の区分データについては共通の1つの区分データに
    より代表させることにより前記情報ファイルを圧縮して
    おり、前記複数のレコードを記憶するための記憶手段
    と、 並び換えられた前記区分データを逆順に並び換えて前記
    記憶手段に各区分毎に記憶する書き込み手段とを有し、
    該書き込み手段は、前記記憶手段内の前記特定の区分の
    全ての記憶欄には、代表される1つの区分データを書き
    込みすることにより圧縮された情報ファイルを伸長する
    ことを特徴とする伸長装置。
  11. 【請求項11】 圧縮前の情報ファイルが複数のレコー
    ドを有し、各レコードが複数の区分に分割された区分デ
    ータで構成される圧縮情報ファイルをコンピュータによ
    り伸長するためのプログラムを記録した記録媒体におい
    て、前記情報ファイルの複数のレコードを、その中の特
    定の区分の区分データが共通する集合に分類し、当該分
    類された集合の各々のレコードについて、区分毎に区分
    データを並び換え、前記特定の区分の複数の区分データ
    については共通の1つの区分データにより代表させるこ
    とにより前記情報ファイルが圧縮されており、前記プロ
    グラムは、 前記複数のレコードを記憶するための記憶領域を確保す
    る処理手順と、 当該並び換えられた前記区分データを逆順に並び換えて
    前記記憶領域に各区分毎に記憶する処理手順と、 前記記憶領域内の前記特定の区分の全ての記憶欄には、
    代表される1つの区分データを記憶する処理手順とを有
    することを特徴とする記録媒体。
JP9217406A 1997-08-12 1997-08-12 圧縮方法、伸長方法、圧縮装置、伸長装置および記録媒体 Pending JPH1165902A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9217406A JPH1165902A (ja) 1997-08-12 1997-08-12 圧縮方法、伸長方法、圧縮装置、伸長装置および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9217406A JPH1165902A (ja) 1997-08-12 1997-08-12 圧縮方法、伸長方法、圧縮装置、伸長装置および記録媒体

Publications (1)

Publication Number Publication Date
JPH1165902A true JPH1165902A (ja) 1999-03-09

Family

ID=16703704

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9217406A Pending JPH1165902A (ja) 1997-08-12 1997-08-12 圧縮方法、伸長方法、圧縮装置、伸長装置および記録媒体

Country Status (1)

Country Link
JP (1) JPH1165902A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007310842A (ja) * 2006-05-22 2007-11-29 Nomura Research Institute Ltd データ処理システム
WO2016084228A1 (ja) * 2014-11-28 2016-06-02 株式会社日立製作所 ストレージ装置
US10581456B2 (en) 2016-06-22 2020-03-03 Fujitsu Limited Data compression device and data decompression device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007310842A (ja) * 2006-05-22 2007-11-29 Nomura Research Institute Ltd データ処理システム
WO2016084228A1 (ja) * 2014-11-28 2016-06-02 株式会社日立製作所 ストレージ装置
JPWO2016084228A1 (ja) * 2014-11-28 2017-06-22 株式会社日立製作所 ストレージ装置
US10581456B2 (en) 2016-06-22 2020-03-03 Fujitsu Limited Data compression device and data decompression device

Similar Documents

Publication Publication Date Title
CN102804168B (zh) 在数据库系统中减少存储需求的数据压缩
US5680612A (en) Document retrieval apparatus retrieving document data using calculated record identifier
US5812999A (en) Apparatus and method for searching through compressed, structured documents
US7689630B1 (en) Two-level bitmap structure for bit compression and data management
US20160196277A1 (en) Data record compression with progressive and/or selective decompression
CN1868127B (zh) 数据压缩系统和方法
US11157463B2 (en) Understanding data in data sets
JPH06508456A (ja) 多重レベルを利用するデータ圧縮
US20040225497A1 (en) Compressed yet quickly searchable digital textual data format
CN100535889C (zh) 文件处理方法和数据处理装置
CN109661779B (zh) 用于压缩数据的方法和系统
JPH1165902A (ja) 圧縮方法、伸長方法、圧縮装置、伸長装置および記録媒体
JPH10261969A (ja) データ圧縮方法および装置
US6731229B2 (en) Method to reduce storage requirements when storing semi-redundant information in a database
JP3253657B2 (ja) 文書検索方法
JP4451722B2 (ja) データベースサーバ及びデータベースシステム
JP7377915B2 (ja) 個別データ検索サービスを提供する方法、コンピュータ装置、およびコンピュータプログラム
JP2009093405A (ja) データ検索のためのシステム、方法及びコンピュータプログラム
JP2001312517A (ja) インデクス生成装置及び文書検索装置
Urgese et al. SUPPLEMENTARY MATERIAL OF BIOSEQZIP: A COLLAPSER OF NGS REDUNDANT READS FOR THE OPTIMISATION OF SEQUENCE ANALYSIS
US20230376542A1 (en) Identifying similar documents in a file repository using unique document signatures
JP3549251B2 (ja) ソート処理装置及びソート処理方法
JP2002197099A (ja) データベースの処理方法
JPH08314958A (ja) 議会議事録検索システムにおけるデータ登録方法
US20100268695A1 (en) Systems and methods associated with hybrid paged encoding and decoding