JP5194936B2

JP5194936B2 - ファイル変換装置、ファイル変換方法及びプログラム

Info

Publication number: JP5194936B2
Application number: JP2008083670A
Authority: JP
Inventors: 伸也宮川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-03-27
Filing date: 2008-03-27
Publication date: 2013-05-08
Anticipated expiration: 2028-03-27
Also published as: JP2009237934A

Description

本発明は、複数のファイルのデータ変換を効率よく実行することが可能なファイル変換装置、ファイル変換方法及びプログラムに関する。

近年、ファイル内のデータを暗号化したり圧縮したりするファイル変換技術が進歩している。

たとえば、データ圧縮技術はデータ容量を削減するために利用され、メールシステムやＣＶＳ（Concurrent Versions System）等のバージョン管理システム等の分散システムにおいて、大容量データを送受信する場合やバンド幅が制限された携帯端末などの環境でデータを送受信する場合に、データ送受信にかかる時間を短縮することを可能にする（例えば特許文献１参照）。

特開２００４−２７４８９

特許文献１に記載されたファイル変換技術は、メールデータを保存しているセンターからインターネットを介して接続される端末へ送信されるメールデータを圧縮するシステムに関するものである。

このシステムは、メールデータに含まれる文字列と該文字列に対応する番号を記憶するセンター側辞書をセンターに備え、センター側辞書に登録された番号をアドレスとして対応する文字列を記憶する端末側辞書を端末側に備えている。

センターは、端末にメールデータを送信する際に、メールデータの原文に含まれる文字列であってセンター側辞書に登録された文字列を対応する登録番号に置き換えて端末に送信する。端末は、受信したメールデータに含まれる登録番号をアドレスとして、端末側辞書から文字列を抽出してメールデータの原文を復元する。センターから端末に送信されるメールデータの圧縮は、個々のメールデータに対して行われる。

このように、これまでのファイル変換技術では、複数のファイルのデータを変換する場合には、ファイル毎にデータの変換が行われる。

この場合、各ファイルに共通するデータが含まれていたとしても、各データの変換処理はファイル毎に重複して行われるため、複数のファイルのデータを変換する場合には、対象となるファイルが多いほど変換に時間を要することになる。

本発明は上記課題を鑑みてなされたものであり、複数のファイルのデータ変換を効率よく実行することが可能なファイル変換装置、ファイル変換方法及びプログラムを提供することを目的の一つとする。

課題を解決するための一手段は、一つ以上の見出し情報と、各見出し情報にそれぞれ対応するデータと、が記述された複数のファイルを、各ファイルの特定情報とそれぞれ対応づけて記憶するファイル記憶部と、複数のファイルの特定情報を含むファイル変換リクエストの入力を受けるファイル変換リクエスト受付部と、前記ファイル変換リクエストに含まれる各特定情報により特定される各ファイルに記述されている見出し情報及びデータの組み合わせ毎に、見出し情報と、前記見出し情報に対応するデータと、前記見出し情報及びデータを記述する各ファイルの特定情報と、を対応付けた中間ファイルを生成する中間ファイル生成部と、前記各中間ファイルに含まれる各データを、データ毎に一対一に対応する他のデータに変換するデータ変換部と、前記ファイル変換リクエストに含まれる特定情報毎に、前記各中間ファイルにおいて前記特定情報と対応づけられている各見出し情報と、前記各見出し情報にそれぞれ対応する前記変換後のデータと、を記述した変換ファイルを生成する変換ファイル生成部と、を備えることを特徴とするファイル変換装置に関する。

その他、本願が開示する課題及びその解決方法は、発明を実施するための最良の形態の欄、及び図面により明らかにされる。

複数のファイルのデータ変換を効率よく実行することができる。

＝＝第１の実施形態＝＝
本発明の実施形態に係るファイル変換装置を、図１を参照しながら説明する。

図１に示すように本実施形態に係るファイル変換装置１００は、ファイル記憶部１１０と、ファイル変換リクエスト受付部１２０と、中間ファイル生成部１３０と、データ変換部１４０と、変換ファイル生成部１５０と、を備えて構成される。

ファイル変換装置１００は、例えば、図示しないＣＰＵ（Central Processing Unit）やメモリ、ハードディスク、通信装置を備え、キーボードやマウス等の入力装置やディスプレイやプリンタ等の出力装置と接続されるコンピュータにより実現することができる。そして、ＣＰＵが、ハードディスクに記憶されるプログラムをメモリに読み出して実行することにより、上記ファイル記憶部１１０や、ファイル変換リクエスト受付部１２０、中間ファイル生成部１３０、データ変換部１４０、変換ファイル生成部１５０、の各機能を実現することができる。

ファイル記憶部１１０には、一つ以上の見出し情報と、各見出し情報にそれぞれ対応するデータと、を含む複数のファイルが、各ファイルの特定情報とそれぞれ対応づけて記憶される。ファイル記憶部１１０は、例えば上述したコンピュータのハードディスクにより実現することができる。

ここで、ＸＭＬ（Extensible Markup Language）形式で記載されたファイルの場合には、タグ名が見出し情報に相当し、タグに囲まれた内容がデータに相当する。また、プロパティファイルの場合は、プロパティ名が見出し情報に相当し、プロパティ値がデータに相当する。またファイルの特定情報は、たとえばファイル名やファイルが記憶されているアドレスとすることができる。ファイル名やアドレスは、ファイル変換装置１００が実行するオペレーティングシステムによってファイルと対応づけて管理することができる。

なおファイル変換装置１１０に記憶されるファイルは、テキストファイルでもよいし、画像ファイルや音声ファイル、映像ファイルでもよい。

ファイル変換リクエスト受付部１２０は、複数のファイルの特定情報を含むファイル変換リクエストの入力を受ける。ファイル変換リクエスト受付部１２０は、たとえば上述したコンピュータの入力装置や通信装置により実現することができる。通信装置により実現される場合には、ファイル変換リクエストは、通信可能に接続される他のコンピュータから送信される。

ファイル変換リクエストには、変換対象の複数のファイルが含まれていてもよい。またファイル変換リクエストには、変換対象の複数のファイルと、各ファイルの送信先を示す情報と、が含まれていてもよい。これらのファイルは、ファイルの特定情報と対応づけてファイル記憶部１１０に記憶されてもよいし、ファイル記憶部１１０に記憶されずに、中間ファイル生成部１３０に渡されるようにしてもよい。

中間ファイル生成部１３０は、ファイル変換リクエストに含まれる各特定情報により特定される各ファイルに含まれる見出し情報及びデータ毎に、見出し情報と、その見出し情報に対応するデータと、その見出し情報及びデータを含む各ファイルの特定情報と、を含んで構成される中間ファイルを生成する。詳しくは後述する。

データ変換部１４０は、各中間ファイルに含まれる各データを、データ毎に一対一に対応する他のデータに変換する。他のデータのデータサイズが、元のデータのデータサイズよりも小さくなるようにすれば、ファイルを圧縮することができる。また他のデータから元のデータを復元することが困難なようにすれば、ファイルを暗号化することができる。

なお、データ変換部１４０は、各中間ファイルに含まれるファイルの特定情報の数が多い中間ファイルから順に、各中間ファイルを構成するデータを、データ毎に一対一に対応する他のデータに変換するようにしてもよい。これにより、より多くのファイルに登場するデータである程、より早いタイミングで他のデータの割り当てを受けることができる。たとえば、優先順位の高いデータを、よりデータサイズの小さい他のデータに変換するようにすることにより、複数のファイルの全体のデータサイズをより小さくすることができる。

変換ファイル生成部１５０は、各中間ファイルを参照して、ファイル変換リクエストに含まれる特定情報毎に、各特定情報を含む各中間ファイルにそれぞれ含まれる各見出し情報と、各見出し情報にそれぞれ対応する変換後のデータと、を含む変換ファイルを生成する。詳しくは後述する。

またファイル変換装置１００は、変換辞書生成部１６０やファイル送信部１７０を備えてもよい。

変換辞書生成部１６０は、データ変換部１４０が各中間ファイルに含まれる各データを他のデータに変換する際に、変換後の各データと、変換前の各データと、をそれぞれ対応付けた変換辞書を生成する。これにより、変換後のデータを元のデータに復元することが可能となる。

また、データ変換部１４０が、中間ファイル毎に順次、各中間ファイルに含まれる各データを、データ毎に一対一に対応する他のデータに変換する場合には、変換辞書生成部１６０は、データ変換部１４０が新たな中間ファイルに含まれるデータを他のデータに変換する毎に、変換後のデータと、変換前のデータと、を対応付けて変換辞書に追加するようにしてもよい。これにより、異なる見出し情報に同じデータが対応している場合には、そのデータを２度目以降に変換する際に、１度目の変換結果を利用できるため、効率よくデータの変換を行うことが可能となる。

ファイル送信部１７０は、ファイル変換リクエストに、複数のファイルの特定情報と、各特定情報により特定される各ファイルの送信先を示す情報と、が含まれる場合に、変換ファイル生成部１５０により生成された各変換ファイルを、ファイル変換リクエストに含まれる各送信先にそれぞれ送信する。これにより、送信先が異なる複数のファイル間で共通のデータを含む場合には、共通のデータを重複して変換しなくて済むため、送信先が異なる複数のファイルの変換を効率よく行うことが可能となる。

また、ファイル変換装置１００が変換辞書生成部１６０を備える場合には、ファイル送信部１７０は、変換ファイル生成部１５０により生成された各変換ファイルと、変換辞書生成部１６０により生成された変換辞書とを、各送信先にそれぞれ送信するようにすることもできる。これにより、ファイルの各送信先で元のデータを復元できるようになる。
＝＝第２の実施形態＝＝
次に、ファイル内のデータを圧縮する場合を例に、第２の実施の形態について図面を参照して詳細に説明する。なお、以下に述べる実施の形態は、ファイル内のデータを暗号化する場合も同様に適用することができる。

第２の実施の形態に係る情報処理システム１０００を図２に示す。

情報処理システム１０００は、マネージャ装置２００とエージェント装置３００とがネットワーク４００を介して通信可能に接続されて構成される。なお、マネージャ装置２００は第１の実施形態に記載のファイル変換装置１００に相当する。
＜マネージャ装置＞
マネージャ装置２００は、複数のファイル内のデータを圧縮して、各エージェント装置３００に送信する装置である。マネージャ装置２００は、例えばＣＰＵやメモリ、ハードディスク装置等を備えたコンピュータにより構成することができる。

マネージャ装置２００は、文書記憶部２１０、入力装置２２０、分類手段２３０、第１の圧縮手段２４０、結合手段２５０、送信手段２７０を備えて構成される。

文書記憶部２１０は、第１の実施形態に記載のファイル記憶部１１０に相当する。入力装置２２０は、第１の実施形態に記載のファイル変換リクエスト受付部１２０に相当する。分類手段２３０は、第１の実施形態に記載の中間ファイル生成部１３０に相当する。第１の圧縮手段２４０は、第１の実施形態に記載のデータ変換部１４０及び変換辞書生成部１６０に相当する。結合手段２５０は、第１の実施形態に記載の変換ファイル生成部１５０に相当する。送信手段２７０は、第１の実施形態に記載のファイル送信部１７０に相当する。

文書記憶部２１０は、ファイルを記憶する装置である。たとえば、ハードディスク装置により構成される。

入力装置２２０は、ファイル圧縮リクエスト（特許請求の範囲に記載のファイル変換リクエストに相当する）の入力を受け付ける。ファイル圧縮リクエストには、圧縮対象の複数のファイルのファイル名が記述されている。

なお、ファイル圧縮リクエストに圧縮対象の複数のファイルが含まれていてもよい。その場合には入力装置２２０は、これらのファイルをファイル名と対応づけて文書記憶部２１０に記憶する。なお入力装置２２０は、これらのファイルを文書記憶部２１０に記憶せずに、分類手段２３０に渡すようにしてもよい。

またファイル圧縮リクエストに圧縮対象の複数のファイルのファイル名と、各ファイルの送信先を示す情報と、が含まれてもよい。また圧縮対象の複数のファイルと、各ファイルの送信先を示す情報とがふくまれていてもよい。

分類手段２３０は、圧縮対象のファイルを取得し中間ファイルを生成する。ファイルはデータに対して項目名（見出し情報）が付与されている。たとえば、ＸＭＬの場合、タグ名が項目名、タグに囲まれた内容がデータに相当し、プロパティファイルの場合、プロパティ名が項目名、プロパティ値がデータに相当する。

分類手段２３０は、ファイルを項目及びデータの組み合わせ毎に分割し、項目名と、項目名に対応するデータと、その項目名およびデータを含むファイルの名称と、を対応付けた中間ファイルを生成する。

そして分類手段２３０は、中間ファイルをノードとする木構造を形成する。そして分類手段２３０は、木構造と、送信先毎に必要なデータの項目名リスト（送信先リスト）を第１の圧縮手段２４０に渡す。詳細は後述する。

第１の圧縮手段２４０は、木構造の最上位ノードから順に中間ファイルを取り出し、対象ノードの上位ノードから取り出した文書辞書（特許請求の範囲に記載の変換辞書に相当する）を利用して、なんらかの圧縮アルゴリズムを利用してデータを圧縮する。その結果として圧縮されたデータと、更新された文書辞書を対象ノードに記録する。全てのノードについて同様の処理を行った後に、木構造と送信先毎に必要なデータ項目名のリストを結合手段２５０に渡す。

結合手段２５０は、送信先毎に圧縮データを集約した圧縮ファイル（特許請求の範囲に記載の変換ファイルに相当する）を生成し、送信先が付与された圧縮ファイルと文書辞書の組のリストを送信手段２７０に渡す。

送信手段２７０は、送信先毎に圧縮ファイルと文書辞書の組を送信する。
＜エージェント装置＞
エージェント装置３００は、マネージャ装置２００から送信された圧縮ファイルを受信して元のファイルを復元する装置である。エージェント装置３００は、例えばＣＰＵやメモリ、ハードディスク装置等を備えたコンピュータにより構成することができる。

エージェント装置３００は、受信手段３１０と第１の復元手段３４０を含んで構成される。

受信手段３１０は、マネージャ装置２００から圧縮ファイルと文書辞書を受け取り、第１の復元手段３４０に渡す。

第１の復元手段３４０は、文書辞書を利用して圧縮ファイルを元のファイルに復元する。
＜処理の流れ＞
次に、図３および図４のフローチャートを参照して本実施の形態の全体の動作の一例について詳しく説明する。

まず、入力装置２２０は、複数のファイルと各ファイルの送信先を示す情報を読み込む（図３のステップＡ１）。

分類手段２３０は、入力装置２２０から、送信先が付与された一つ以上のファイルを受け取り、各ファイルを項目及びデータの組み合わせ毎に分割し、中間ファイルを生成する。そして分類手段２３０は、中間ファイルをノードとする木構造を形成する（図３のステップＡ２）。このとき、下位ノードのデータを必要とする送信先の集合は、その上位ノードのデータを必要とする送信先の集合のサブセットになるようにする。これにより、上位ノードのデータは共有度が高く、下位ノードになるに従って共有度が低くなる。

また分類手段２３０は、各送信先に送信されるファイルに含まれる項目名を、送信先毎にまとめた送信先リストを生成する。

第１の圧縮手段２４０は、分類手段２３０から木構造と送信先リストを受け取り、木構造の最上位ノードから順に、各ノードを対象ノードとし、対象ノードに対応するデータを取り出し、さらに、対象ノードの上位ノードの文書辞書を取り出す（図３のステップＡ３）。

次に、第１の圧縮手段２４０は、取り出したデータを文書辞書を利用して圧縮し（図３のステップＡ４）、圧縮されたデータと更新された辞書を対象ノードに記録する（図３のステップＡ５）。

第１の圧縮手段２４０は、木構造の全てのノードに対してステップＡ３〜ステップＡ５の処理を行ったかどうかを調べる（図３のステップＡ６）。

図３のステップＡ６がＮＯの場合、第１の圧縮手段２４０は、未処理ノードに対してステップＡ３〜Ａ５の処理を行う。一方、図３のステップＡ６がＹＥＳの場合、第１の圧縮手段２４０は、結合手段２５０に木構造と送信先リストを渡す。

結合手段２５０は、木構造のノードから圧縮データを取り出し、送信先毎に圧縮ファイルとしてまとめる。そして、結合手段２５０は、送付先毎に、圧縮ファイルとその圧縮ファイルを復元するための文書辞書に送付先を付与して、送信手段２７０に渡す（図３のステップＡ７）。

送信手段２７０は、結合手段２５０から受け取った圧縮ファイルと文書辞書を各送信先に送信する（図３のステップＡ８）。

一方、エージェント装置３００の受信手段３１０は、送信手段２７０が送信した圧縮ファイルを受信し（図４のステップＢ１）、圧縮ファイルを第１の復元手段３４０に渡す。

第１の復元手段３４０は、文書辞書を圧縮ファイルから取り出し（図４のステップＢ２）、圧縮ファイルを復元する（図４のステップＢ３）。

図４のステップＢ２で得られる文書辞書は、圧縮ファイルに含まれている必要はなく、送信手段２７０等から圧縮ファイルとは別に送信されたものでも良い。

このように、第２の実施形態に係る情報処理システム１０００は、複数の送信先クライアント（エージェント装置３００）に送信する文書（ファイル）において、共通するデータを圧縮した後に、送信先クライアント毎に個別のデータを圧縮する。より具体的には、複数の送信先クライアントに共通するデータと共通しないデータを分類する分類手段２３０と、共通に使う送信先クライアントが多いデータから順に圧縮を行う第１の圧縮手段２４０と、圧縮されたデータを送信先クライアント毎にマージする結合手段２５０とを有する。このような構成を採用し、同じデータを重複して圧縮することを回避することにより、複数のファイルのデータ変換を効率よく実行することができる。
＝＝第２の実施形態の実施例＝＝
次に、第２の実施形態の実施例について図面を参照して説明する。

本実施例においては、中央演算装置（ＣＰＵ）を有するパーソナルコンピュータがマネージャ装置２００として機能し、分類手段２３０、第１の圧縮手段２４０、結合手段２５０、送信手段２７０を実現する。また、中央演算装置を有するパーソナルコンピュータがエージェント装置３００として機能し、受信手段３１０と第１の復元手段３４０とを実現する。

図５に示すように、文書（ファイル）と送信先の４つの組がマネージャ装置２００のキーボードから入力されたとする。図５の文書において、Ｘ＝ｘｘｘは項目名Ｘのデータｘｘｘが「文書」に含まれることを表している。また、文書の上部に付与された文字Ａｇｔ１〜Ａｇｔ４が送信先を表わす。

図６の「送信先リスト」において、Ａｇｔ＝｛Ｘ１，Ｘ２，．．．｝は、Ａｇｔに項目名Ｘ１，Ｘ２，．．．のデータを送信することを表す。

マネージャ装置２００は、送信先が付与された一つ以上の「文書」から項目名およびデータの組み合わせごとに中間ファイルを生成し、各中間ファイルをノードとする木構造を生成する。

まず、マネージャ装置２００は、各文書の項目名とデータの組み合わせ毎に、送信先集合を特定する。たとえば、図５に示す各文書に含まれる項目名とデータの組み合わせは、「項目Ａ＆データａａａ」、「項目Ｂ＆データｂｂｂ」、「項目Ｃ＆データｃｃｃ」、「項目Ｄ＆データａａａ」、「項目Ｅ＆データｃｃｃ」であり、それらの組み合わせごとに、送信先を以下のようにまとめる。
A(aaa)={agt1,agt2,agt3,agt4}
B(bbb)={agt1,agt3}
C(ccc)={agt2,agt4}
D(aaa)={agt1}
E(ccc)={agt4}
次に、マネージャ装置２００は、項目名とデータの全ての組み合わせについて、その送信先集合をスーパーセットにするような送信先集合を持つ全ての組み合わせを下位ノードに配置するようにして、木構造を生成する。

図５の各文書に対して得られた木構造を図７に示す。

図７において、「Ｘ：ｘｘｘ」は項目名Ｘのデータがｘｘｘであり、ノードに付与されたリストは、そのノードのデータを送信する送信先を表す。図７において破線で囲んだ一つ一つが中間ファイルに相当する。

次に、マネージャ装置２００は、図８のように上位ノードから順に圧縮処理を行う。

まず、マネージャ装置２００は、最上位ノードである「Ａ：ａａａ」を対象ノードとして、対象ノードの上位ノードの文書辞書を参照する。ただし、最上位ノードには上位ノードが存在しないため、文書辞書は空である。圧縮対象データである「ａａａ」は初出であることから、マネージャ装置２００は、「ａａａ」に対してこれまで使われていない数字００（２ビットの２進数データ）を割り当てる。そしてマネージャ装置２００は、「ａａａ」に対して数字００を割り当てたことを「文書辞書Ａ」に登録する。図８に示すように、「文書辞書Ａ」には、元のデータと圧縮後のデータとが対応づけて記憶されている。またマネージャ装置２００は、ノード「Ａ：ａａａ」の「ａａａ」を数字００に置き換えてノードを「Ａ：００」に更新する。この圧縮方法は一例であり、他の辞書を利用する圧縮アルゴリズムを適用しても良い。

次に、マネージャ装置２００は、「ＡＡＡ：００」の下位ノードである「Ｂ：ｂｂｂ」を対象ノードとして、対象ノードの上位ノードの「文書辞書Ａ」を参照する。「ｂｂｂ」は初出であるため、（これまで使われていない）数字１０を割り当てることを「文書辞書Ａ」に追記して「文書辞書Ｂ」を作成する。そしてマネージャ装置２００は、ノード「Ｂ：ｂｂｂ」を「Ｂ：１０」に置き換える。そしてマネージャ装置２００は、文書辞書Ｂをノード「Ｂ：１０」に設定する。

同様にしてマネージャ装置２００は、図８のステップＡ５（３）〜ステップＡ５（５）を実行する。

なお本実施例では、木構造の各ノードを深さ優先で圧縮を行っているが、幅優先で圧縮を行っても良い。

これらの処理によって、８［ｂｉｔ］×３［文字］で表される文字を２［ｂｉｔ］で表される数字に変換するため、データ長を縮小できる。

次に、マネージャ装置２００は、図９のように送信先毎に、圧縮文書をまとめ、送信するデータのうち、図７の木構造において最も下位のノードに設定されている辞書と組にする。

次に、マネージャ装置２００は、送信先毎に図９に表した文書と辞書の組を送信する。

エージェント装置３００の第１の復元手段３４０は、マネージャ装置２００から図９に示した文書と文書辞書の組を受信し、文書に埋め込まれた圧縮記号を辞書に従って元のデータに置き換える。

以上により、複数の送信先に共通するデータを特定することでその圧縮結果を複数の圧縮文書で共有することができる。そのため、送信先毎に文書を圧縮する場合と比較して、圧縮時間を短縮することができる。
＝＝第３の実施形態＝＝
次に、第３の実施形態について図面を参照して詳細に説明する。

第３の実施形態に係る情報処理システム１００１を図１０に示す。情報処理システム１００１は、マネージャ装置２０１と、エージェント装置３０１と、がネットワーク４００を介して通信可能に接続されて構成される。
＜マネージャ装置＞
マネージャ装置２０１は、マネージャ装置２００に対して、共通辞書２８０及び第２の圧縮手段２４１をさらに備える。

共通辞書２８０は、圧縮対象の複数のファイルに共通する単語に対応する圧縮記号のリストを記憶する。

第２の圧縮手段２４１は、分類手段２３０から、各ノードに送信先集合が付与された木構造を受け取り、各ノードのデータに対して、共通辞書２８０に登録された単語と合致する文字列を検索し、その文字列をその単語に対応する圧縮記号に置き換える。
＜エージェント装置＞
またエージェント装置３０１は、エージェント装置３００に対して、第２の復元手段３４１及び共通辞書３８０をさらに備える。

共通辞書３８０の内容は、共通辞書２８０の内容と同期されている。同期の方法は既知の方法で行うことができる。

第２の復元手段３４１は、第１の復元手段３４０が文書辞書によって途中まで復元した文書を第１の復元手段３４０から受け取り、共通辞書３８０によって文書を完全に復元する。
＜処理の流れ＞
情報処理システム１００１の動作の一例を図面を参照して詳細に説明する。なお、図１１のステップＡ１〜Ａ８で示される各処理は、第２の実施形態の各処理と同一のため、説明を省略する。

情報処理システム１００１は、入力装置２２０から異なるタイミングで入力される一つ以上の文書の集合間で共通する単語があった場合には、ステップＡ２において共有データの木構造を生成した後に、入力装置２２０から入力される文書間で共有される共通辞書２８０を読み込み（ステップＣ１）、その共通辞書２８０を使って文書を圧縮する（ステップＣ２）。

また、圧縮時に圧縮辞書を最適化したり、圧縮辞書に新たな単語を登録したりするなどして圧縮辞書を更新した場合には、新たな圧縮辞書を共通辞書２８０に登録する（ステップＣ３）。

以上により、入力装置２２０から入力されるいくつかの文書に共通の単語が存在する場合、より効果的に文書を圧縮することができる。特に、共通する単語が長いほど、圧縮率を向上させることができる。文書と、辞書に登録された単語との照合処理には比較的長い実行時間を要するため、文書を送信先毎に分割してから圧縮処理を行うよりも、共通する単語をまとめて圧縮した方が、短い実行時間で文書を圧縮することができる。

情報処理システム１００１は、異なるタイミングで入力される文書間に共通するデータが存在する場合、先ずは共通するデータを圧縮した後に、第２の実施形態で説明した手順でさらに圧縮する。より具体的には、情報処理システム１０００の構成に加えて、共通する単語とそれに対応する圧縮記号を登録する共通辞書２８０と、共通辞書２８０を使って文書に含まれる単語を圧縮記号に変換する第２の圧縮手段２４１とを有する。このような構成を採用し、同じタイミングで入力される複数文書に共通するデータがなくても、異なるタイミングで入力される複数文書に共通データがあった場合に、そのデータを圧縮記号に置き換えることにより、文書を効果的に圧縮することができる。
＝＝第３の実施形態の実施例＝＝
次に第３の実施形態の実施例を、図面を参照して説明する。

共通辞書２８０には、図１２に示すように３文字のデータ「ｂｂｂ」が３ビットの数字「０００」に対応付けられており、３文字のデータ「ｃｃｃ」が３ビットの数字「１００」に対応付けられている。共通辞書３８０は、共通辞書２８０と同期されているため、共通辞書３８０にも同様の内容が記録されている。

今、図１３に示すような送信先が付与された「文書」がマネージャ装置２０１のキーボードから入力されたとする。「文書」は圧縮および送信の対象となるものであり、データに対して項目名が付与されていることを前提とする。

次に、マネージャ装置２０１は、第２の実施形態と同様に、図１４に示す木構造を生成する。

次に、マネージャ装置２０１は、木構造に含まれる「ｂｂｂ」および「ｃｃｃ」が共通辞書２８０に登録されているため、図１４のように対応する文字「０００」と「１００」にそれぞれ置換する。

次に、マネージャ装置２０１は、図１５のように上位ノードから順に圧縮処理を行う。まず、最上位ノードである「Ａ：ａａａ」を対象ノードとして、対象ノードの上位ノードの辞書を参照する。ただし、最上位ノードには上位ノードが存在しないため、辞書は空である。圧縮対象である「ａａａ」は初出であることから「ａａａ」に対して辞書に登録されていない数字「１１１」を割り当てることを「辞書Ａ」に登録して、ノード「Ａ：ａａａ」の「ａａａ」を数字１１１に置き換えてノードを「Ａ：１１１」に更新する。この圧縮方法は一例であり、他の辞書を利用する圧縮アルゴリズムを適用しても良い。

次に、「ＡＡＡ：１１１」の下位ノードである「Ｂ：０００」を対象ノードとして、対象ノードの上位ノードの「辞書Ａ」を参照する。「０００」は初出であるため、数字００１を割り当てることを「辞書Ａ」に追記して「辞書Ｂ」を作成し、ノード「Ｂ：０００」を「Ｂ：００１」に置き換える。そして、辞書Ｂをノード「Ｂ：００１」に設定する。同様にして、図１５のステップＡ５（３）〜ステップＡ５（５）を実行する。図１５では、木構造の深さ優先で圧縮を行っているが、幅優先で圧縮を行っても良い。

次に、マネージャ装置２０１は、第２の実施形態と同様に送信先毎に圧縮文書をまとめ、送信するデータの中で図１４の木構造において最も下位のノードに設定されている辞書と圧縮文書を組みにして、エージェント装置３０１に送信する。

エージェント装置３０１の第１の復元手段３４０は、マネージャ装置２０１から図１６に示した文書と辞書の組を受信し、文書に埋め込まれた圧縮記号を辞書に従って元のデータに置き換える。

さらに、エージェント装置３０１の第２の復元手段３４１は、第１の復元手段３４０が復元した圧縮文書を第１の復元手段３４０から受け取り、共通辞書３８０によって文書を完全に復元する。

第２の実施形態では、圧縮文書と組になる辞書には「ｂｂｂ」や「ｃｃｃ」といった８［ｂｉｔ］×３[文字]のデータが含まれるのに対して、本実施の形態では、辞書には「ｂｂｂ」の代わりに「０００」、「ｃｃｃ」の代わりに「１００」という３［ｂｉｔ］のデータが含まれる。そのため、送信するデータに付与される辞書の容量も縮小できる。

以上により、入力装置２２０に異なるタイミングで渡される複数の文書集合に共通するデータを共通辞書２８０に登録することによって、送信先毎に文書を圧縮する前に、共通するデータを圧縮することができる。文字列の照合は時間のかかる処理であるため、送信先毎に同様の処理を行う場合と比較して、圧縮時間を短縮することができる。

また共通辞書２８０によって１度圧縮した文書を、送信先毎に圧縮することで、さらに圧縮率を向上させるようにすることもできる。
＝＝第４の実施形態＝＝
次に、第４の実施形態について図面を参照して詳細に説明する。

第４の実施形態に係る情報処理システム１００２を図１７に示す。情報処理システム１００２は、マネージャ装置２０２と、エージェント装置３０１と、がネットワーク４００を介して通信可能に接続されて構成される。
＜マネージャ装置＞
マネージャ装置２０２は、マネージャ装置２０１に対して、辞書フィードバック手段２９０をさらに備える。

辞書フィードバック手段２９０は、第１の圧縮手段２４０による圧縮後の圧縮文字を共通辞書２８０に登録する。
＜エージェント装置＞
エージェント装置３０１は、第３の実施形態と同じである。
＜処理の流れ＞
情報処理システム１００２の動作の一例を図面を参照して詳細に説明する。

図１８に示すフローチャートのうち、ステップＡ１〜Ａ８およびステップＣ１〜Ｃ３は、第３の実施形態の各ステップと同一のため、説明を省略する。

第４の実施形態では、入力装置２２０から入力された文書を、送信先毎に分割・圧縮・送信した後に（ステップＡ１〜Ａ８）、辞書フィードバック手段２９０は、第２の圧縮手段２４１によって変換されたデータのうち、第１の圧縮手段２４０によって圧縮の対象となったデータを判別する（ステップＤ１）。

そして、辞書フィードバック手段２９０は、第２の圧縮手段２４１および第１の圧縮手段２４０によって２度の圧縮が行われている単語について、第１の圧縮手段２４０による処理を省略することを共通辞書２８０に登録する（ステップＤ２）。

以上により、各文書で共通する単語に対する圧縮処理の回数を削減することができる。このことから、圧縮に要する時間を削減することができる。

情報処理システム１００２は、第１の圧縮手段２４０と第２の圧縮手段２４１による圧縮処理の重複を避けるため、圧縮処理が重複するデータについては、第１の圧縮手段２４０による圧縮の対象から除外する。より具体的には、データの圧縮が重複して行われているデータについては第１のデータ圧縮手段２４０による圧縮の対象外であることを共通辞書２８０に記憶する辞書フィードバック手段２９０を有する。このような構成を採用し、第１のデータ圧縮手段２４０による圧縮を省略することにより、より効果的にデータの圧縮処理を行うことが可能となる。
＝＝第４の実施形態の実施例＝＝
次に、第４の実施形態の実施例を、図面を参照して説明する。

マネージャ装置２０２は、第２の圧縮手段２４１と第１の圧縮手段２４０とを用いた圧縮処理を実施することによって、データ「ｂｂｂ」と「ｃｃｃ」の圧縮処理が、第２の圧縮手段２４１と第１の圧縮手段２４０の両方で行われていることを検知し、「ｂｂｂ」に３ビットのデータ「０００」、「ｃｃｃ」に３ビットのデータ「１００」を対応付けることを共通辞書２８０に登録する。

なお、共通辞書２８０に登録された「０００」および「１００」は、第１の圧縮手段２４０による圧縮の対象外のデータであるという前提を置く。

今、第３の実施形態と同様に、図１３に示すような送信先が付与された一つ以上の「文書」がマネージャ装置２０２のキーボードから入力されたとする。

マネージャ装置２０２は、第３の実施形態と同様に図１４の木構造を生成する。

次に、マネージャ装置２０２は、「文書」に含まれる「ｂｂｂ」および「ｃｃｃ」が共通辞書２８０に登録されているため、図１４のように対応する文字「０００」と「１００」にそれぞれ置換する。

次に、マネージャ装置２０２は、図１９のように上位ノードから順に圧縮処理を行う。まず、最上位ノードである「Ａ：ａａａ」を対象ノードとして、対象ノードの上位ノードの辞書を参照する。ただし、最上位ノードには上位ノードが存在しないため、辞書は空である。圧縮対象である「ａａａ」は初出であることから「ａａａ」に対してこれまで共通辞書２８０にも使われていない３ビットの数字１１１を割り当てることを「辞書Ａ」に登録して、ノード「Ａ：ａａａ」の「ａａａ」を数字１１１に置き換えてノードを「Ａ：１１１」に更新する。この圧縮方法は一例であり、他の辞書を利用する圧縮アルゴリズムを適用しても良い。

次に、マネージャ装置２０２は、「Ａ：１１１」の下位ノードである「Ｂ：０００」を対象ノードとして、対象ノードの上位ノードの「辞書Ａ」を参照する。マネージャ装置２０２は、０００が共通辞書２８０に登録されており、圧縮の対象外であると判断し、圧縮処理をスキップする。

同様にして、マネージャ装置２０２は、図１９のステップＡ５（３）〜ステップＡ５（５）を実行する。図１９では、木構造の深さ優先で圧縮を行っているが、幅優先で圧縮を行っても良い。

次に、マネージャ装置２０２は、第２の実施形態と同様に送信先毎に圧縮文書をまとめ、送信するデータの中で図１９の木構造において最も下位のノードに設定されている辞書と圧縮文書を組みにして、エージェント装置３０１に送信する。

エージェント装置３０１の第１の復元手段３４０は、マネージャ装置２０２から図２０に示した文書と辞書の組を受信し、文書に埋め込まれた圧縮記号を辞書に従って元のデータに置き換える。

さらに、エージェント装置３０１の第２の復元手段３４１は、第１の復元手段３４０が途中まで復元した圧縮文書を第１の復元手段３４０から受け取り、共通辞書３８０によって文書を完全に復元する。

以上により、共通辞書２８０によって圧縮したデータを第１の圧縮手段２４０によって重複して圧縮する処理を省略することができる。そのため、２度の圧縮処理を１度の圧縮処理に減らすことができるので、圧縮時間を短縮することができる。
＝＝その他の実施形態＝＝
一つ以上の入力文書が共有するデータを見つけ出して共有データ導出する分類手段と、前記共有データを圧縮した後、前記入力文書の固有データを圧縮する第１の圧縮手段と、圧縮された前記共有データと前記固有データを結合して前記文書に対応する圧縮文書を生成する結合手段と、を備えることを特徴とするデータ圧縮システムとすることもできる。

ここで、前記分類手段が、前記入力文書内のデータをノードとする木構造を生成するにあたって、他入力文書との共有の度合いが高いデータをルートに近づけて配置し、前記他入力文書に関しても同様に前記ノードを共有するように木構造を生成することを特徴とすることもできる。

また、前記第１の圧縮手段が、前記木構造のルートに配置されたデータから順に圧縮処理を行うこともできる。

一つ以上の文書が共有するデータを見つけ出して共有データ導出する分類手段と、前記共有データを圧縮した後、前記文書の固有データを圧縮する第１の圧縮手段と、圧縮された前記共有データと前記固有データを結合して文書毎に対応する圧縮文書を生成する結合手段と、前記圧縮文書を一つ以上のクライアントに送信する送信手段と、を備えることを特徴とするサーバとすることもできる。

ここで、前記サーバから送信された前記圧縮文書を受信する受信手段と、前記圧縮文書を復元する第１の復元手段と、を備えることを特徴とするクライアントとすることもできる。

また、一つ以上の前記入力文書に頻出するデータと圧縮文字との対応関係を記録する共通辞書記憶手段と、前記第１の圧縮手段によって圧縮処理が行われる前に、一つ以上の前記入力文書において前記共通辞書記憶手段に登録されているデータを圧縮記号に変換する第２の圧縮手段と、を備えることもできる。

ここで、前記第１の圧縮手段と前記第２の圧縮手段の両方において頻繁に圧縮の対象となるデータに対して、前記第１の圧縮手段の結果得られる圧縮記号をあらかじめ前記共通辞書記憶手段に登録する辞書フィードバック手段と、を備えることもできる。

また、前記入力文書に含まれるデータをノードとする木構造を生成するにあたって、他の前記入力文書に含まれるデータとの共有の度合いが高いほど木構造のルートに近いノードに配置し、前記木構造のルートから順にデータを圧縮し、圧縮された前記データを選択および結合して前記入力文書に対応する圧縮文書を生成することを特徴とするデータ圧縮方法とすることもできる。

ここで、一つ以上の前記入力文書に頻出するデータと圧縮文字との関連を記録し、前記木構造のルートから順にデータを圧縮する前に、一つ以上の前記入力文書において前記関連におけるデータを圧縮記号に変換するようにすることもできる。

また、前記変換および前記圧縮の両方において頻繁に対象となるデータについて、前記変換の結果が前記圧縮の結果となるように前記データと圧縮文字との関連を記録するようにすることもできる。

また、一つ以上の入力文書が共有するデータを見つけ出して共有データ導出する分類処理と、前記共有データを圧縮した後、前記入力文書の固有データを圧縮する第１の圧縮処理と、圧縮された前記共有データと前記固有データを結合して前記文書に対応する圧縮文書を生成する結合処理と、をコンピュータに実行させることを特徴としたデータ圧縮用プログラムとすることもできる。

ここで、前記分類処理が、前記入力文書内のデータをノードとする木構造を生成するにあたって、他入力文書との共有の度合いが高いデータをルートに近づけて配置し、前記他入力文書に関しても同様に前記ノードを共有するように木構造を生成するようにすることもできる。

また、前記第１の圧縮処理が、前記木構造のルートに配置されたデータから順に圧縮処理を行うようにすることもできる。

また、一つ以上の前記入力文書に頻出するデータと圧縮文字との対応関係を記録する共通辞書記憶手段と、前記第１の圧縮手段によって圧縮処理が行われる前に、一つ以上の前記入力文書において前記共通辞書記憶処理に登録されているデータを圧縮記号に変換する第２の圧縮処理と、をコンピュータに実行させるようにすることもできる。

また、前記第１の圧縮処理と前記第２の圧縮処理の両方において頻繁に圧縮の対象となるデータに対して、前記第１の圧縮処理の結果得られる圧縮記号をあらかじめ前記共通辞書記憶手段に登録する辞書フィードバック処理と、をコンピュータに実行させるようにすることもできる。

複数の送信先サーバに送信する文書において、共通するデータを前もって圧縮した後に、送信先サーバ毎に他のデータを圧縮する。より具体的には、複数の送信先サーバに共通するデータと共通しないデータを分類する分類手段２１と、共通に使う送信先サーバが多いデータから順に圧縮を行う第１の圧縮手段２２と、圧縮されたデータを送信先サーバ毎にマージする結合手段２３とを有するようにすることもできる。

以上の各実施形態によれば、複数のファイルのデータ変換を効率よく実行することができる。

例えば、複数文書を圧縮するにあたって、それらの文書間で共通するデータが含まれている場合、圧縮時間を短縮しながらも、それぞれの圧縮文書の容量増加を抑制することができる。その理由は、複数文書の共通部分を前もって圧縮した後に、個別部分を圧縮するためである。

また、複数文書を圧縮するにあたって、それらの文書がこれまでに圧縮した文書と共通するデータを含む場合、圧縮文書の容量をさらに削減することもできる。その理由は、これまでに圧縮した文書に共通する単語から作成した共通辞書を利用して１回目の圧縮を行い、文書毎に２回目の圧縮を行うためである。

また、複数文書を圧縮するにあたって、それらの文書がこれまでに圧縮した文書と共通するデータを含む場合、圧縮時間を削減することもできる。その理由は、２回の圧縮を行う場合、２回目の圧縮対象から１回目の圧縮対象を除外するためである。

複数文書をデータ圧縮するにあたって、圧縮時間を増加させることなく、また、圧縮文書の容量を増大させることなくデータ圧縮することが可能になる。

複数クライアントにネットワークを介して部分的に共通するデータを含む文書を送信する際に、文書の圧縮時間を短縮できるデータ圧縮システムを提供することができる。

送信先クライアントに対して容量の小さい圧縮文書を生成できるデータ圧縮システムを提供することができる。

本発明によれば、個人に適した内容のメール等の電子データを配付する配信装置や、配信装置をコンピュータに実現するためのプログラムといった用途に適用できる。また、ファイル等の電子データのバージョン管理装置およびそのクライアント装置や、バージョン管理装置およびそのクライアント装置をコンピュータに実現するためのプログラムといった用途にも適用できる。

以上本発明を実施するための最良の形態について説明したが、上記実施の形態は本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明はその趣旨を逸脱することなく変更、改良され得ると共に、本発明にはその等価物も含まれる。

本実施形態にかかるファイル変換装置の一例を示すブロック図である。本実施形態にかかる情報処理システムの一例を示す図である。本実施形態における情報処理システムの処理の流れの一例を示す図である。本実施形態における情報処理システムの処理の流れの一例を示す図である。本実施形態にかかるファイルの一例を示すブロック図である。本実施形態にかかる送信先リストの一例を示す図である。本実施形態に係る木構造の一例を示す図である。本実施形態におけるデータ変換例を示す図である。本実施形態におけるデータ復元例を示す図である。本実施形態にかかる情報処理システムの一例を示す図である。本実施形態における情報処理システムの処理の流れの一例を示す図である。本実施形態にかかる共通辞書の一例を示すブロック図である。本実施形態にかかるファイルの一例を示すブロック図である。本実施形態に係る木構造の一例を示す図である。本実施形態におけるデータ変換例を示す図である。本実施形態におけるデータ復元例を示す図である。本実施形態にかかる情報処理システムの一例を示す図である。本実施形態における情報処理システムの処理の流れの一例を示す図である。本実施形態におけるデータ変換例を示す図である。本実施形態におけるデータ復元例を示す図である。

符号の説明

１００ファイル変換装置
１１０ファイル記憶部
１２０ファイル変換リクエスト受付部
１３０中間ファイル生成部
１４０データ変換部
１５０変換ファイル生成部
１６０変換辞書生成部
１７０ファイル送信部
２００、２０１、２０２マネージャ装置
３００、３０１エージェント装置
４００ネットワーク
１０００情報処理システム

Claims

一つ以上の見出し情報と、各見出し情報にそれぞれ対応するデータと、が記述された複数のファイルを、各ファイルの特定情報とそれぞれ対応づけて記憶するファイル記憶部と、
複数のファイルの特定情報を含むファイル変換リクエストの入力を受けるファイル変換リクエスト受付部と、
前記ファイル変換リクエストに含まれる各特定情報により特定される各ファイルに記述されている見出し情報及びデータの組み合わせ毎に、見出し情報と、前記見出し情報に対応するデータと、前記見出し情報及びデータを記述する各ファイルの特定情報と、を対応付けた中間ファイルを生成する中間ファイル生成部と、
前記各中間ファイルに含まれる各データを、データ毎に一対一に対応する他のデータに変換するデータ変換部と、
前記ファイル変換リクエストに含まれる特定情報毎に、前記各中間ファイルにおいて前記特定情報と対応づけられている各見出し情報と、前記各見出し情報にそれぞれ対応する前記変換後のデータと、を記述した変換ファイルを生成する変換ファイル生成部と、
を備えることを特徴とするファイル変換装置。
請求項１に記載のファイル変換装置であって、
前記各他のデータのデータサイズは、前記各他のデータに一対一に対応する元のデータのデータサイズよりもそれぞれ小さいことを特徴とするファイル変換装置。
請求項１に記載のファイル変換装置であって、
前記データ変換部が前記各中間ファイルに含まれる各データを他のデータに変換する際に、変換後の各データと、変換前の各データと、をそれぞれ対応付けた変換辞書を生成する変換辞書生成部と、
を備えることを特徴とするファイル変換装置。
請求項３に記載のファイル変換装置であって、
前記データ変換部は、前記中間ファイル毎に順次、各中間ファイルに含まれる各データを、データ毎に一対一に対応する他のデータに変換し、
前記変換辞書生成部は、前記データ変換部が新たな中間ファイルに含まれるデータを他のデータに変換する毎に、変換後のデータと、変換前のデータと、を対応付けて前記変換辞書に追加する
ことを特徴とするファイル変換装置。
請求項１〜４のいずれか１項に記載のファイル変換装置であって、
前記データ変換部は、より多くのファイルの特定情報が対応づけられている中間ファイルから順に、各中間ファイルを構成するデータを、データ毎に一対一に対応する他のデータに変換する
ことを特徴とするファイル変換装置。
請求項１に記載のファイル変換装置であって、
前記ファイル変換リクエストは、複数のファイルの特定情報と、前記各特定情報により特定される各ファイルの送信先を示す情報と、を含み、
前記変換ファイル生成部により生成された各変換ファイルを、前記ファイル変換リクエストに含まれる各送信先にそれぞれ送信するファイル送信部と、
を備えることを特徴とするファイル変換装置。
請求項６に記載のファイル変換装置であって、
前記データ変換部が前記各中間ファイルに含まれる各データを他のデータに変換する際に、変換後の各データと、変換前の各データと、をそれぞれ対応付けた変換辞書を生成する変換辞書生成部と、
を備え、
前記ファイル送信部は、前記変換ファイル生成部により生成された各変換ファイルと、前記変換辞書とを前記ファイル変換リクエストに含まれる各送信先にそれぞれ送信する
ことを特徴とするファイル変換装置。
一つ以上の見出し情報と、各見出し情報にそれぞれ対応するデータと、が記述された複数のファイルを、各ファイルの特定情報とそれぞれ対応づけて記憶するファイル変換装置の制御方法であって、
前記ファイル変換装置が、複数のファイルの特定情報を含むファイル変換リクエストの入力を受け、
前記ファイル変換装置が、前記ファイル変換リクエストに含まれる各特定情報により特定される各ファイルに記述されている見出し情報及びデータの組み合わせ毎に、見出し情報と、前記見出し情報に対応するデータと、前記見出し情報及びデータを記述する各ファイルの特定情報と、を対応付けた中間ファイルを生成し、
前記ファイル変換装置が、前記各中間ファイルに含まれる各データを、データ毎に一対一に対応する他のデータに変換し、
前記ファイル変換装置が、前記ファイル変換リクエストに含まれる特定情報毎に、前記各中間ファイルにおいて前記特定情報と対応づけられている各見出し情報と、前記各見出し情報にそれぞれ対応する前記変換後のデータと、を記述した変換ファイルを生成する
ことを特徴とするファイル変換装置の制御方法。
一つ以上の見出し情報と、各見出し情報にそれぞれ対応するデータと、が記述された複数のファイルを、各ファイルの特定情報とそれぞれ対応づけて記憶するファイル変換装置に、
複数のファイルの特定情報を含むファイル変換リクエストの入力を受ける手順と、
前記ファイル変換リクエストに含まれる各特定情報により特定される各ファイルに記述されている見出し情報及びデータの組み合わせ毎に、見出し情報と、前記見出し情報に対応するデータと、前記見出し情報及びデータを記述する各ファイルの特定情報と、を対応付けた中間ファイルを生成する手順と、
前記各中間ファイルに含まれる各データを、データ毎に一対一に対応する他のデータに変換する手順と、
前記ファイル変換リクエストに含まれる特定情報毎に、前記各中間ファイルにおいて前記特定情報と対応づけられている各見出し情報と、前記各見出し情報にそれぞれ対応する前記変換後のデータと、を記述した変換ファイルを生成する手順と、
を実行させるためのプログラム。