JP2009519535A

JP2009519535A - データファイルを操作する方法及び装置

Info

Publication number: JP2009519535A
Application number: JP2008545207A
Authority: JP
Inventors: ユイ，ドォンハイ; ユアヌ，ハイルゥォン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-12-14
Filing date: 2006-12-11
Publication date: 2009-05-14
Also published as: US20080319982A1; WO2007069175A2; KR20080082985A; WO2007069175A3; CN101331483A; EP1964001A2

Abstract

記憶装置において格納されるデータファイルをエンコードする方法に係る。当該方法は、データファイルからファイルに関連付けられる非英字データを抽出する段階（１００）；データを第１の記号の組から取られた記号を使用してワードへと変換する段階（１０１）；及び、インデックスデータ（３２０）を生成するようルックアップテーブルを有してワードをエンコードする段階（１０２）を有する。該ルックアップテーブルは、記号を第２の記号の組と関連付け、該第２の記号の組の各記号は、第１の記号の組のサブセットと関連付けられる。

Description

本発明は、データファイル操作方法及び装置に係り、より特には、メディアファイル操作方法及び装置に係る。

家庭用電子機器における格納に対する低下するコスト及び高められた性能を使って、消費者は、記憶装置に格納された多量のファイルを扱う。例えば、デジタルエンターテイメントの分野において、消費者は、多くのメディアファイルをＭｅｄｉａＣｅｎｔｅｒｓ、ｊｕｋｅｂｏｘ、又はＭＰ３プレイヤ上に格納し得る。４０−１００ＧＢの記憶容量は、現在のＭＰ３プレイヤ市場では珍しくはなく、ユーザは、１つのプレイヤに１０，０００曲を超えるＭＰ３楽曲を格納し得る。

ローカル記憶装置に加えて、接続性の発展により、消費者は、膨大なネットワーク／リモート記憶装置にアクセスし得る。

同時に、メディアの集合体には、中国語の楽曲、英語の楽曲、フランス語の楽曲、日本語の楽曲等である多言語のコンテンツが有される。検索又はソートの既知の方法は、異なる言語を別個に扱う。つまりユーザは、所定のメディアファイルを検索するクエリを入力する前に、言語入力モードを選択しなければならない。

他方では、ＣＥ装置は典型的には、リモートコントロール又は他の限られた制御キーによって制御される。かかる装置はしばしば、関連付けられる言語に対するアルファベットにおけるモジュールよりも少ないキーを有するキーボードを有する。例えば、減少されたキーボードを使用する装置の多くは、プッシュホン電話において使用されるような３×４列のキーを使用する。

大型メディアデータベース及び限られた制御／ディスプレイ性能は、メディア集合体をブラウズする際、あるいは長いリストから特定の媒体を見つける際、多くの問題を引き起こす。これは典型的には、多くのキーを押すことを必要とし、ユーザは、自分が探しているメディアの名前を確実に知っている必要があり、検索が困難となる。

限られたキーボードを使用して所望されるテキストを入力及びディスプレイするよう、多種の手法が開発されている。例えば、特許出願ＵＳ２００２０１２６０９７（特許文献１）は、コンテキスト関連辞書を使用して限られたキーボードを介して英数字データを電子装置へと入力する方法及び装置を開示する。特許出願ＵＳ６３０７５４８Ｂ１（特許文献２）は、限られたキーボードの明確なシステムを（ｒｅｄｕｃｅｄｋｅｙｂｏａｒｄｄｉｓａｍｂｉｇｕａｔｉｎｇｓｙｓｔｅｍ）を与える。

しかしながら、上述された先行技術は、目標のファイルを検索するよう言語モードの違いに関わらず統一された入力方法の使用に対する解決法を与えてはいない。
ＵＳ２００２０１２６０９７ＵＳ６３０７５４８Ｂ１

本発明は、記憶装置における検索を容易にするようデータファイルをエンコーディングする改善された方法を提案する、ことを目的とする。

この目的は、記憶装置において格納されるデータファイルをエンコードする方法において達成される。当該方法は、該データファイルからそれに関連付けられる非英字データを抽出する段階；該データを第１の記号の組から取られた記号を使用してワードへと変換する段階；及び、インデックスデータを生成するようルックアップテーブルを有してワードをエンコードする段階、を有する。該ルックアップテーブルは、前出の記号を第２の記号の組と関連付け、第２の記号の組の各記号は、第１の記号の組のサブセットと関連付けられる。

この目的はまた、記憶装置において格納されるデータファイルをエンコードする装置において達成される。当該装置は、該データファイルからそれに関連付けられる非英字データを抽出する抽出手段；該データを第１の記号の組から取られた記号を使用してワードへと変換する変換手段；及び、インデックスデータを生成するようルックアップテーブルを有して前出のワードをエンコードするエンコード手段、を有する。ルックアップテーブルは、前出の記号を第２の記号の組と関連付け、第２の記号の組の各記号は、第１の記号の組のサブセットと関連付けられる。

本発明の他の目的は、記憶装置において格納されるデータファイルを取り出す改善された方法を提案する、ことである。

該目的は、記憶装置において格納されるデータファイルを取り出す方法において達成される。該データファイルの各々は、インデックスデータと関連付けられる。当該方法は、第１の記号の組から取られた記号を使用してワードを生成する段階；エンコードされたデータを生成するようルックアップテーブルを有して該ワードをエンコードする段階；及び、エンコードされたデータを照合するインデックスデータを有する全てのデータファイルを検索する段階、を有する。ルックアップテーブルは、前出の記号を第２の記号の組と関連付け、第２の記号の組の各記号は、第１の記号の組のサブセットと関連付けられる、
この目的はまた、記憶装置において格納されるデータファイルを取り出す装置において達成される。該データファイルの各々は、インデックスデータと関連付けられる。当該装置は、１組の記号から取られた記号を使用してワードを生成する生成手段；エンコードされたデータを生成するようルックアップテーブルを有して前出のワードをエンコードするエンコード手段；及び、エンコードされたデータを照合するインデックスデータを有する全てのデータファイルを検索する検索手段、を有する。ルックアップテーブルは、前出の記号を第２の記号の組と関連付け、第２の記号の組の各記号は、第１の記号の組のサブセットと関連付けられる。

したがって、本発明は、データファイルを操作するよう言語に依存せず異なる言語を取り扱うための解決策を与える一方、クエリのコンテンツを正確に知ることなくデータファイルを検索することに対する解決策を与える。

本発明の更なる理解と共に他の目的及び到達は、添付の図面と併せて以下の説明及び請求項を参照して明らかに説明される。

本発明は添付の図面を参照して説明される。

図中、同様の部分は、同一の参照符号によって示される。

図１は、本発明に従った非英字データファイルをエンコードする方法のフローチャートを示す。本発明は、記憶装置において格納されるデータファイルをエンコードする方法を与え、当該方法は、該ファイルに関連付けられる非英字データを抽出する段階１００を有する。新しいデータファイルがデータファイル記憶装置において格納される際、ファイルに関連するデータは、段階１００において抽出される。データは、ＭＰ３ファイルのＩＤ３タグ、又は画像のＥｘｉｆデータ等であるファイルのメタデータ又はファイルのキーワードを有し得る。例えば、
（外１）

というタイトルでＭＰ３プレイヤに格納された中国語の楽曲に対応するデータファイルに関して、テキストワードである、
（外２）

は、段階１００によって抽出される。

当該方法はまた、第１の記号の組から取られた記号を使用して該非英字データをワードへと変換する段階１０１を有する。抽出されたデータが英字又は非英字（中国語、韓国語、及び日本語等）であり得るため、非英字データは、段階１０１において、第１の記号の組から取られた記号を使用してワードへと変換される。該第１の記号の組は、Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆ．．．Ｚである２６個の英字であり得る。簡体字中国語文字又は繁体中国語文字は、「ピンイン」記号へと変換され得、韓国語文字は、「ジャモ（Ｊａｍｏｓ）」記号へと変換され得る。そのため、段階１０１において、非英字文字である、
（外３）

は、その「ピンイン」形式である「ｚｈｉｆｅｉｊｉ」へと変換される。

当該方法はまた、インデックスデータ３２０を生成するようルックアップテーブルを有して前出のワードをエンコードする段階１０２を有する。該ルックアップテーブルは、前出の記号を第２の記号の組と関連付け、第２の記号の組の各記号は、前記第１の記号の組のサブセットと関連付けられる。

段階１０１のあと、非英字データは、ワードへと変換される。段階１０２において、ワードは、インデックスデータ３２０を生成するようルックアップテーブルを使用してエンコードされる。ルックアップテーブルは、図４中に示される。上述された例によれば、段階１０２において、「ｚｈｉｆｅｉｊｉ」というワードは、図４中に示される通りルックアップテーブルにしたがってエンコードされる。このテーブルを使用する場合、インデックスと称されるエンコードされたデータは、「７２３２２３３３」である。

図４は、本発明に従った方法において使用されるルックアップテーブルを示す。このテーブルにおいて、左側のコラムは、第１の記号の組：Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆ．．．Ｚを示し、右側のコラムは、第２の記号の組、１，２，３，４，５，６，７を示す。明らかに、かかる記号は、他の記号であり得る。第２の記号の組の各記号は、例えば第１の記号の組のサブセットに関連付けられる。記号「１」は、Ａ，Ｂ，Ｃ，Ｄに関連付けられ、記号「２」は、Ｅ，Ｆ，Ｇ，Ｈを示す。明らかに、第１の記号の組の対応するサブセットは、変わり得る。

更には、本発明は、データレコードを生成する段階（図示せず）、及び該データレコードをデータベースに格納する段階を有する方法を与える。該データレコードは、インデックスデータ３２０及びファイルポインタを有し、該ファイルポインタは、データレコードを前出のファイルとリンクさせる。

図３は、本発明に従ったデータレコードフォーマットの構造を図示する。該データレコードは、インデックスデータ３２０及びファイルポインタ３３０を有する。ファイルポインタ３３０は、データレコードをファイルにリンクさせ、続いてデータレコードは、データベースに格納される。ポインタ３３０は、ファイルの記憶場所（即ちアドレス）、又はプラットフォームの参照であり得、それを介してアプリケーションは、このデータレコードが示すファイルを見つけ得る。追加タグ３４０は、言語、カテゴリ、個人的なお気に入りマーク等であるファイルコンテンツを細かく分類する他のタグである。いくつのタグを使用するか、並びにタグの種類は、任意でありアプリケーションに依存する。本発明はまた、例えば「ａｌｂｕｍ＿ｎａｍｅ（アルバム＿名前）」、「ａｒｔｉｓｔ＿ｎａｍｅ（アーティスト＿名前）」である異なるカテゴリを有するファイルを見つけることができる。各カテゴリに対して、データレコードが作られ、データベースに追加される。異なる検索カテゴリを識別するよう、カテゴリ情報は、データレコード「追加タグ」３４０に対して追加され得る。ヘッダー３１０は、新しいレコードの開始をマークするための定義済みラベルである。

更には、本発明は、複数のデータレコードを生成する段階（図示せず）を有する方法を与える。該データレコードの各々は、インデックスデータ３２０の１つのサブストリングを有する。対応するインデックスデータ３２０が「１１１１２２２２３」であるタイトル「ＡＢＣＤＥＦＧＨＩ」を有するファイルを前提とする。次にあげるインデックスデータ３２０の３つのサブストリング、
１１１１２２２２３
１２２２２３
２２３
が作られる。したがって、３つのデータレコードが生成される。それらの各々は、インデックスデータ３２０の１つのサブストリングを有する。全ての３つのデータレコードは、夫々ポインタ３３０を使用することによって「ＡＢＣＤＥＦＧＨＩ」というタイトルを付けられたファイルに関連される。したがって、この方法はまた、サブストリングエンコード方法を与える。

他方、インデックスデータ３２０が複数の記号の組を有する際、本発明は、各記号の組の各第１の記号を連結することによって導出インデックスデータを生成する段階を有する。上述された例では、導出インデックスデータ１１２は、各記号の組１１１１２２２２３の各第１の記号を連結することによって生成される。

図２は、本発明に従った記憶装置におけるデータファイルを取り出す段階のフローチャートを示す。

本発明は、記憶装置において格納されるデータファイルを取り出す方法を与える。該データファイルの各々は、インデックスデータ３２０と関連付けられる。当該方法は、第１の記号の組から取られた記号を使用してワードを生成する段階２００を有する。段階２００において、クエリは、記憶装置において格納される特定のデータファイルを検索するよう生成され、該ファイルの各々は、インデックスデータ３２０と関連付けられる。クエリが英字ではない場合、第１の記号の組から取られた記号を使用してワードに事前に変換されるべきである。該第１の記号の組は、２６個の英字Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆ．．．Ｚであり得る。一例として、ユーザが、
（外４）

というタイトルの中国語の歌を見つけることを望む場合、ユーザは、「ピンイン」形式の「ｚｈｉｆｅｉｊｉ」を使用し得る。大半の場合、ユーザは、完全なストリングを入力する必要はなく、所望のデータファイルが取り出されるまで２−５個のキーを押す必要があるのみである。

この方法はまた、エンコードされたデータを生成するようルックアップテーブルを使用して前出のワードをエンコードする段階２０１を有する。ルックアップテーブルは、前出の記号を第２の記号の組と関連付け、第２の記号の組の各記号は、第１の記号の組のサブセットと関連付けられる。ユーザがワードを入力する際、該ワードは、エンコードされるデータを生成するようルックアップテーブルを有して段階２０１によってエンコードされる。ルックアップテーブルの一例は、図４中に示される。低減されたキーボードは、ルックアップテーブルを取り入れ得、キーボードの各キーは、モジュールのサブセットに関連付けられる。

この方法はまた、エンコードされたデータを照合するインデックスデータ３２０を有する全てのデータファイルを検索する段階２０２を有する。

インデックスデータ３２０が該エンコードされたデータを照合する状況は、２通りある。一方の状況において、検索段階２０２は、エンコードされたデータを有するインデックスデータ３２０と関連付けられるデータファイルを識別する段階を有する段階（図示せず）を有する。例えば、対応するインデックスデータ３２０が「１１１１２２２２３」であるファイル「ＡＢＣＤＥＦＧＨＩ」を検索することをユーザが望む場合、ユーザは、ＡＢＣ又はＤＥＦ又はＧＨＩのいずれかを知っていればよく、続いてＡＢＣ又はＤＥＦ又はＧＨＩを入力し得る。これら各々に対応するエンコードされたデータは、夫々１１１又は１２２又は２２３である。検索アルゴリズムは、完全なインデックスデータ「１１１１２２２２３」を検索する。該アルゴリズムは、エンコードデータ「１１１」又は「１２２」又は「２２３」を有するインデックスデータ「１１１１２２２２３」を見つけるため、エンコードデータを有するインデックスデータ３２０と関連付けられる全てのデータファイルを識別する。

他方の状況においては、検索段階２０２は、複数の記号の組を有するインデックスデータ３２０と関連付けられるデータファイルを識別する段階（図示せず）を有する。検索段階２０２は更に、連結ワードを生成するよう該記号の組の全ての第１の記号を連結する段階（図示せず）；及び、連結ワードをエンコードされたデータと比較する段階、を有する。上述された例をとると、ユーザは、ファイルを見つけるようタイトルの全ての最初の文字「ＡＤＧ」（対応するエンコードされるデータは、「１１２」である）を入力し、検索アルゴリズムは、連結ワード「１１２」を生成するよう、また連結ワード「１１２」をエンコードされるデータ「１１２」と比較するよう、該記号の組（「１１１１２２２３３」）の全ての第１の記号を連結する。

更には、本発明は、前出のワードが生成段階によって修正され次第、エンコード段階２０１及び検索段階２０２をトリガする段階（図示せず）を有する方法を与える。これは、本発明の他の態様であり、ユーザが１つ押すと（ｐｒｏｄｕｃｅｓａｓｉｎｇｌｅｐｒｅｓｓ）、生成段階によってワードが修正され次第エンコード段階２０１及び検索段階２０２がトリガされる。

図１及び図２において示される方法は、記憶装置において格納されるデータファイルを操作する方法を形成するよう有利に組み合わされ得る。該方法は、データファイルからファイルに関連付けられる非英字データを抽出する段階１００；データを第１の記号の組から取られた記号を使用してワードへと変換する段階１０１；インデックスデータ３２０を生成するようルックアップテーブルを有してワードをエンコードする段階１０２；前記第１の記号の組から取られた記号を使用してワードを生成する段階２００；エンコードされたデータを生成するようルックアップテーブルを有してワードをエンコードする段階２０１；及び、エンコードされたデータを照合するインデックスデータ３２０を有する全てのデータファイルを検索する段階２０２、を有する。前出のルックアップテーブルは、前出の記号を第２の記号の組と関連付け、第２の記号の組の各記号は、第１の記号の組のサブセットと関連付けられ、前出の全てのデータファイルの各々は、インデックスデータ３２０と関連付けられる。

図５は、本発明に従った記憶装置において格納されるデータファイルをエンコードする装置を示す。

ＭＰ３ファイル等であるメディアファイルであり得る記憶装置において格納されるファイル５１１をエンコードする装置５２０は、ファイルから非英字データを抽出する抽出手段５２１；第１の記号の組から取られた記号を使用してデータをワードへと変換する変換手段５２２；及び、インデックスデータ３２０を生成するようルックアップテーブルを使用してワードをエンコードするエンコード手段５２３、を有する。該ルックアップテーブルは、前出の記号を第２の記号の組と関連付け、第２の記号の組の各記号は、第１の記号の組のサブセットと関連付けられる。

図６は、本発明に従った記憶装置において格納されるデータファイルを取り出す装置を示す。

装置６１０は、記憶装置において格納されたデータファイルを取り出す。該ファイルの各々は、インデックスデータ３２０に関連付けられる。当該装置は、第１の記号の組から取られた記号を使用してワードを生成する生成手段６１１；エンコードされたデータを生成するようルックアップテーブルを使用して前出のワードをエンコードするエンコード手段６１２；及び、エンコードされたデータを照合するインデックスデータを有する全てのデータファイルを検索する検索手段６３０、を有する。ルックアップテーブルは、前出の記号を第２の記号の組と関連付け、第２の記号の組の各記号は、第１の記号の組のサブセットと関連付けられる。

図５及び図６において示される装置は、記憶装置において格納されるデータファイルを操作するシステムを形成するよう有利に組み合わされ得る。当該装置は、ファイルから非英字データを抽出する抽出手段５２１；非英字データを第１の記号の組から取られた記号を使用してワードへと変換する変換手段５２２；インデックスデータ３２０を生成するようルックアップテーブルを有して前出のワードをエンコードするエンコード手段５２３；第１の記号の組から取られた記号を使用してワードを生成する生成手段６１１；エンコードされたデータを生成するようルックアップテーブルを有してワードをエンコードするエンコード手段６１２；及び、エンコードされたデータを照合するインデックスデータ３２０を有する全てのデータファイルを検索する検索手段６１３、を有する。ルックアップテーブルは、前出の記号を第２の記号の組と関連付け、第２の記号の組の各記号は、第１の記号の組のサブセットと関連付けられる。

上述された本発明の実施例が例証であり且つ非制限的な意味に取られるよう意図される、ことは留意される。これらの実施例に対する多種の修正は、本発明の範囲から逸脱することなく当業者によってなされ得る。

本発明に従った非英字データファイルをエンコードする方法のフローチャートを図示する。本発明に従った記憶装置におけるデータファイルを取り出す段階のフローチャートを図示する。本発明に従ったデータ記録フォーマットの構造を図示する。本発明に従った方法において使用されるルックアップテーブルを図示する。本発明に従った記憶装置において格納されるデータファイルをエンコードする装置を図示する。本発明に従った記憶装置において格納されるデータファイルを取り出す装置を図示する。

Claims

記憶装置において格納されるデータファイルをエンコードする方法であって：
・前記データファイルから前記ファイルに関連付けられる非英字データを抽出する段階；
・前記データを第１の記号の組から取られた記号を使用してワードへと変換する段階；及び、
・インデックスデータを生成するようルックアップテーブルを有して前記ワードをエンコードする段階；
を有し、
前記ルックアップテーブルは、前記記号を第２の記号の組と関連付け、該第２の記号の組の各記号は、前記第１の記号の組のサブセットと関連付けられる、
方法。
前記非英字データは、メタデータである、
請求項１記載の方法。
・データレコードを生成する段階；及び、
・該データレコードをデータベースに格納する段階、
を更に有し、
前記データレコードは、前記インデックスデータと、前記データレコードを前記ファイルにリンクさせるファイルポインタとを有する、
請求項１又は２記載の方法。
・前記ファイルのコンテンツを分類するタグを前記データレコードに対して追加する段階、
を更に有する請求項３記載の方法。
・各々が前記インデックスデータのサブストリングを有する複数のデータレコードを生成する段階、
を更に有する請求項３記載の方法。
前記インデックスデータは、複数の記号の組を有し、
当該方法は：
・記号の各組の各第１の記号を連結させることによって、導出インデックスデータを生成する段階、
を更に有する請求項１記載の方法。
記憶装置において格納されるデータファイルを取り出す方法であって：
該データファイルの各々は、インデックスデータと関連付けられ、
当該方法は、
・第１の記号の組から取られた記号を使用してワードを生成する段階；
・エンコードされたデータを生成するようルックアップテーブルを有して前記ワードをエンコードする段階；及び、
・前記エンコードされたデータを照合するインデックスデータを有する全てのデータファイルを検索する段階；
を有し、
前記ルックアップテーブルは、前記記号を第２の記号の組と関連付け、該第２の記号の組の各記号は、前記第１の記号の組のサブセットと関連付けられる、
方法。
前記検索段階は、インデックスデータと関連付けられるデータファイルを識別する段階を有し、該インデックスデータは、前記エンコードされたデータを有する、
請求項７記載の方法。
前記検索段階は、インデックスデータと関連付けられるデータファイルを識別する段階を有し、該インデックスデータは、複数の記号の組を有し、
当該方法は：
・連結ワードを生成するよう前記記号の組の全ての第１の記号を連結する段階；及び、
・前記連結ワードを前記エンコードされたデータと比較する段階、
を更に有する請求項７記載の方法。
・前記ワードが前記生成段階によって修正され次第、前記エンコード段階と前記検索段階とをトリガする段階、
を更に有する請求項７記載の方法。
記憶装置に格納されるデータファイルを操作する方法であって：
・前記データファイルから前記ファイルに関連付けられる非英字データを抽出する段階；
・前記データを第１の記号の組から取られた記号を使用してワードへと変換する段階；
・インデックスデータを生成するようルックアップテーブルを有して前記ワードをエンコードする段階；
・前記第１の記号の組から取られた記号を使用してワードを生成する段階；
・エンコードされたデータを生成するよう前記ルックアップテーブルを有して前記ワードをエンコードする段階；及び、
・前記エンコードされたデータを照合するインデックスデータを有する全てのデータファイルを検索する段階；
を有し、
前記ルックアップテーブルは、前記記号を第２の記号の組と関連付け、該第２の記号の組の各記号は、前記第１の記号の組のサブセットと関連付けられ、
前記データファイルの各々は、前記インデックスデータと関連付けられる、
方法。
記憶装置において格納されるデータファイルをエンコードする装置であって：
・前記データファイルから前記ファイルに関連付けられる非英字データを抽出する抽出手段；
・前記データを第１の記号の組から取られた記号を使用してワードへと変換する変換手段；及び、
・インデックスデータを生成するようルックアップテーブルを有して前記ワードをエンコードするエンコード手段；
を有し、
前記ルックアップテーブルは、前記記号を第２の記号の組と関連付け、該第２の記号の組の各記号は、前記第１の記号の組のサブセットと関連付けられる、
装置。
記憶装置において格納されるデータファイルを取り出す装置であって：
該データファイルの各々は、インデックスデータと関連付けられ、
当該装置は、
・第１の記号の組から取られた記号を使用してワードを生成する生成手段；
・エンコードされたデータを生成するようルックアップテーブルを有して前記ワードをエンコードするエンコード手段；及び、
・前記エンコードされたデータを照合するインデックスデータを有する全てのデータファイルを検索する検索手段；
を有し、
前記ルックアップテーブルは、前記記号を第２の記号の組と関連付け、該第２の記号の組の各記号は、前記第１の記号の組のサブセットと関連付けられる、
装置。
記憶装置において格納されるデータファイルを操作するシステムであって：
・前記ファイルから前記ファイルに関連付けられる非英字データを抽出する抽出手段；
・前記データを第１の記号の組から取られた記号を使用してワードへと変換する変換手段；
・インデックスデータを生成するようルックアップテーブルを有して前記ワードをエンコードするエンコード手段；
・前記第１の記号の組から取られた記号を使用してワードを生成する生成手段；
・エンコードされたデータを生成するよう前記ルックアップテーブルを有して前記ワードをエンコードするエンコード手段；及び、
・前記エンコードされたデータを照合するインデックスデータを有する全てのデータファイルを検索する検索手段；
を有し、
前記ルックアップテーブルは、前記記号を第２の記号の組と関連付け、該第２の記号の組の各記号は、前記第１の記号の組のサブセットと関連付けられる、
システム。