JP2009519535A - データファイルを操作する方法及び装置 - Google Patents

データファイルを操作する方法及び装置 Download PDF

Info

Publication number
JP2009519535A
JP2009519535A JP2008545207A JP2008545207A JP2009519535A JP 2009519535 A JP2009519535 A JP 2009519535A JP 2008545207 A JP2008545207 A JP 2008545207A JP 2008545207 A JP2008545207 A JP 2008545207A JP 2009519535 A JP2009519535 A JP 2009519535A
Authority
JP
Japan
Prior art keywords
data
symbols
file
symbol
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008545207A
Other languages
English (en)
Inventor
ユイ,ドォンハイ
ユアヌ,ハイルゥォン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2009519535A publication Critical patent/JP2009519535A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

記憶装置において格納されるデータファイルをエンコードする方法に係る。当該方法は、データファイルからファイルに関連付けられる非英字データを抽出する段階(100);データを第1の記号の組から取られた記号を使用してワードへと変換する段階(101);及び、インデックスデータ(320)を生成するようルックアップテーブルを有してワードをエンコードする段階(102)を有する。該ルックアップテーブルは、記号を第2の記号の組と関連付け、該第2の記号の組の各記号は、第1の記号の組のサブセットと関連付けられる。

Description

本発明は、データファイル操作方法及び装置に係り、より特には、メディアファイル操作方法及び装置に係る。
家庭用電子機器における格納に対する低下するコスト及び高められた性能を使って、消費者は、記憶装置に格納された多量のファイルを扱う。例えば、デジタルエンターテイメントの分野において、消費者は、多くのメディアファイルをMedia Centers、jukebox、又はMP3プレイヤ上に格納し得る。40−100GBの記憶容量は、現在のMP3プレイヤ市場では珍しくはなく、ユーザは、1つのプレイヤに10,000曲を超えるMP3楽曲を格納し得る。
ローカル記憶装置に加えて、接続性の発展により、消費者は、膨大なネットワーク/リモート記憶装置にアクセスし得る。
同時に、メディアの集合体には、中国語の楽曲、英語の楽曲、フランス語の楽曲、日本語の楽曲等である多言語のコンテンツが有される。検索又はソートの既知の方法は、異なる言語を別個に扱う。つまりユーザは、所定のメディアファイルを検索するクエリを入力する前に、言語入力モードを選択しなければならない。
他方では、CE装置は典型的には、リモートコントロール又は他の限られた制御キーによって制御される。かかる装置はしばしば、関連付けられる言語に対するアルファベットにおけるモジュールよりも少ないキーを有するキーボードを有する。例えば、減少されたキーボードを使用する装置の多くは、プッシュホン電話において使用されるような3×4列のキーを使用する。
大型メディアデータベース及び限られた制御/ディスプレイ性能は、メディア集合体をブラウズする際、あるいは長いリストから特定の媒体を見つける際、多くの問題を引き起こす。これは典型的には、多くのキーを押すことを必要とし、ユーザは、自分が探しているメディアの名前を確実に知っている必要があり、検索が困難となる。
限られたキーボードを使用して所望されるテキストを入力及びディスプレイするよう、多種の手法が開発されている。例えば、特許出願US20020126097(特許文献1)は、コンテキスト関連辞書を使用して限られたキーボードを介して英数字データを電子装置へと入力する方法及び装置を開示する。特許出願US 6307548B1(特許文献2)は、限られたキーボードの明確なシステムを(reduced keyboard disambiguating system)を与える。
しかしながら、上述された先行技術は、目標のファイルを検索するよう言語モードの違いに関わらず統一された入力方法の使用に対する解決法を与えてはいない。
US20020126097 US 6307548B1
本発明は、記憶装置における検索を容易にするようデータファイルをエンコーディングする改善された方法を提案する、ことを目的とする。
この目的は、記憶装置において格納されるデータファイルをエンコードする方法において達成される。当該方法は、該データファイルからそれに関連付けられる非英字データを抽出する段階;該データを第1の記号の組から取られた記号を使用してワードへと変換する段階;及び、インデックスデータを生成するようルックアップテーブルを有してワードをエンコードする段階、を有する。該ルックアップテーブルは、前出の記号を第2の記号の組と関連付け、第2の記号の組の各記号は、第1の記号の組のサブセットと関連付けられる。
この目的はまた、記憶装置において格納されるデータファイルをエンコードする装置において達成される。当該装置は、該データファイルからそれに関連付けられる非英字データを抽出する抽出手段;該データを第1の記号の組から取られた記号を使用してワードへと変換する変換手段;及び、インデックスデータを生成するようルックアップテーブルを有して前出のワードをエンコードするエンコード手段、を有する。ルックアップテーブルは、前出の記号を第2の記号の組と関連付け、第2の記号の組の各記号は、第1の記号の組のサブセットと関連付けられる。
本発明の他の目的は、記憶装置において格納されるデータファイルを取り出す改善された方法を提案する、ことである。
該目的は、記憶装置において格納されるデータファイルを取り出す方法において達成される。該データファイルの各々は、インデックスデータと関連付けられる。当該方法は、第1の記号の組から取られた記号を使用してワードを生成する段階;エンコードされたデータを生成するようルックアップテーブルを有して該ワードをエンコードする段階;及び、エンコードされたデータを照合するインデックスデータを有する全てのデータファイルを検索する段階、を有する。ルックアップテーブルは、前出の記号を第2の記号の組と関連付け、第2の記号の組の各記号は、第1の記号の組のサブセットと関連付けられる、
この目的はまた、記憶装置において格納されるデータファイルを取り出す装置において達成される。該データファイルの各々は、インデックスデータと関連付けられる。当該装置は、1組の記号から取られた記号を使用してワードを生成する生成手段;エンコードされたデータを生成するようルックアップテーブルを有して前出のワードをエンコードするエンコード手段;及び、エンコードされたデータを照合するインデックスデータを有する全てのデータファイルを検索する検索手段、を有する。ルックアップテーブルは、前出の記号を第2の記号の組と関連付け、第2の記号の組の各記号は、第1の記号の組のサブセットと関連付けられる。
したがって、本発明は、データファイルを操作するよう言語に依存せず異なる言語を取り扱うための解決策を与える一方、クエリのコンテンツを正確に知ることなくデータファイルを検索することに対する解決策を与える。
本発明の更なる理解と共に他の目的及び到達は、添付の図面と併せて以下の説明及び請求項を参照して明らかに説明される。
本発明は添付の図面を参照して説明される。
図中、同様の部分は、同一の参照符号によって示される。
図1は、本発明に従った非英字データファイルをエンコードする方法のフローチャートを示す。本発明は、記憶装置において格納されるデータファイルをエンコードする方法を与え、当該方法は、該ファイルに関連付けられる非英字データを抽出する段階100を有する。新しいデータファイルがデータファイル記憶装置において格納される際、ファイルに関連するデータは、段階100において抽出される。データは、MP3ファイルのID3タグ、又は画像のExifデータ等であるファイルのメタデータ又はファイルのキーワードを有し得る。例えば、
(外1)
Figure 2009519535
というタイトルでMP3プレイヤに格納された中国語の楽曲に対応するデータファイルに関して、テキストワードである、
(外2)
Figure 2009519535
は、段階100によって抽出される。
当該方法はまた、第1の記号の組から取られた記号を使用して該非英字データをワードへと変換する段階101を有する。抽出されたデータが英字又は非英字(中国語、韓国語、及び日本語等)であり得るため、非英字データは、段階101において、第1の記号の組から取られた記号を使用してワードへと変換される。該第1の記号の組は、A,B,C,D,E,F...Zである26個の英字であり得る。簡体字中国語文字又は繁体中国語文字は、「ピンイン」記号へと変換され得、韓国語文字は、「ジャモ(Jamos)」記号へと変換され得る。そのため、段階101において、非英字文字である、
(外3)
Figure 2009519535
は、その「ピンイン」形式である「zhifeiji」へと変換される。
当該方法はまた、インデックスデータ320を生成するようルックアップテーブルを有して前出のワードをエンコードする段階102を有する。該ルックアップテーブルは、前出の記号を第2の記号の組と関連付け、第2の記号の組の各記号は、前記第1の記号の組のサブセットと関連付けられる。
段階101のあと、非英字データは、ワードへと変換される。段階102において、ワードは、インデックスデータ320を生成するようルックアップテーブルを使用してエンコードされる。ルックアップテーブルは、図4中に示される。上述された例によれば、段階102において、「zhifeiji」というワードは、図4中に示される通りルックアップテーブルにしたがってエンコードされる。このテーブルを使用する場合、インデックスと称されるエンコードされたデータは、「72322333」である。
図4は、本発明に従った方法において使用されるルックアップテーブルを示す。このテーブルにおいて、左側のコラムは、第1の記号の組:A,B,C,D,E,F...Zを示し、右側のコラムは、第2の記号の組、1,2,3,4,5,6,7を示す。明らかに、かかる記号は、他の記号であり得る。第2の記号の組の各記号は、例えば第1の記号の組のサブセットに関連付けられる。記号「1」は、A,B,C,Dに関連付けられ、記号「2」は、E,F,G,Hを示す。明らかに、第1の記号の組の対応するサブセットは、変わり得る。
更には、本発明は、データレコードを生成する段階(図示せず)、及び該データレコードをデータベースに格納する段階を有する方法を与える。該データレコードは、インデックスデータ320及びファイルポインタを有し、該ファイルポインタは、データレコードを前出のファイルとリンクさせる。
図3は、本発明に従ったデータレコードフォーマットの構造を図示する。該データレコードは、インデックスデータ320及びファイルポインタ330を有する。ファイルポインタ330は、データレコードをファイルにリンクさせ、続いてデータレコードは、データベースに格納される。ポインタ330は、ファイルの記憶場所(即ちアドレス)、又はプラットフォームの参照であり得、それを介してアプリケーションは、このデータレコードが示すファイルを見つけ得る。追加タグ340は、言語、カテゴリ、個人的なお気に入りマーク等であるファイルコンテンツを細かく分類する他のタグである。いくつのタグを使用するか、並びにタグの種類は、任意でありアプリケーションに依存する。本発明はまた、例えば「album_name(アルバム_名前)」、「artist_name(アーティスト_名前)」である異なるカテゴリを有するファイルを見つけることができる。各カテゴリに対して、データレコードが作られ、データベースに追加される。異なる検索カテゴリを識別するよう、カテゴリ情報は、データレコード「追加タグ」340に対して追加され得る。ヘッダー310は、新しいレコードの開始をマークするための定義済みラベルである。
更には、本発明は、複数のデータレコードを生成する段階(図示せず)を有する方法を与える。該データレコードの各々は、インデックスデータ320の1つのサブストリングを有する。対応するインデックスデータ320が「111 122 223」であるタイトル「ABC DEF GHI」を有するファイルを前提とする。次にあげるインデックスデータ320の3つのサブストリング、
111 122 223
122 223
223
が作られる。したがって、3つのデータレコードが生成される。それらの各々は、インデックスデータ320の1つのサブストリングを有する。全ての3つのデータレコードは、夫々ポインタ330を使用することによって「ABC DEF GHI」というタイトルを付けられたファイルに関連される。したがって、この方法はまた、サブストリングエンコード方法を与える。
他方、インデックスデータ320が複数の記号の組を有する際、本発明は、各記号の組の各第1の記号を連結することによって導出インデックスデータを生成する段階を有する。上述された例では、導出インデックスデータ112は、各記号の組111 122 223の各第1の記号を連結することによって生成される。
図2は、本発明に従った記憶装置におけるデータファイルを取り出す段階のフローチャートを示す。
本発明は、記憶装置において格納されるデータファイルを取り出す方法を与える。該データファイルの各々は、インデックスデータ320と関連付けられる。当該方法は、第1の記号の組から取られた記号を使用してワードを生成する段階200を有する。段階200において、クエリは、記憶装置において格納される特定のデータファイルを検索するよう生成され、該ファイルの各々は、インデックスデータ320と関連付けられる。クエリが英字ではない場合、第1の記号の組から取られた記号を使用してワードに事前に変換されるべきである。該第1の記号の組は、26個の英字A,B,C,D,E,F...Zであり得る。一例として、ユーザが、
(外4)
Figure 2009519535
というタイトルの中国語の歌を見つけることを望む場合、ユーザは、「ピンイン」形式の「zhifeiji」を使用し得る。大半の場合、ユーザは、完全なストリングを入力する必要はなく、所望のデータファイルが取り出されるまで2−5個のキーを押す必要があるのみである。
この方法はまた、エンコードされたデータを生成するようルックアップテーブルを使用して前出のワードをエンコードする段階201を有する。ルックアップテーブルは、前出の記号を第2の記号の組と関連付け、第2の記号の組の各記号は、第1の記号の組のサブセットと関連付けられる。ユーザがワードを入力する際、該ワードは、エンコードされるデータを生成するようルックアップテーブルを有して段階201によってエンコードされる。ルックアップテーブルの一例は、図4中に示される。低減されたキーボードは、ルックアップテーブルを取り入れ得、キーボードの各キーは、モジュールのサブセットに関連付けられる。
この方法はまた、エンコードされたデータを照合するインデックスデータ320を有する全てのデータファイルを検索する段階202を有する。
インデックスデータ320が該エンコードされたデータを照合する状況は、2通りある。一方の状況において、検索段階202は、エンコードされたデータを有するインデックスデータ320と関連付けられるデータファイルを識別する段階を有する段階(図示せず)を有する。例えば、対応するインデックスデータ320が「111 122 223」であるファイル「ABC DEF GHI」を検索することをユーザが望む場合、ユーザは、ABC又はDEF又はGHIのいずれかを知っていればよく、続いてABC又はDEF又はGHIを入力し得る。これら各々に対応するエンコードされたデータは、夫々111又は122又は223である。検索アルゴリズムは、完全なインデックスデータ「111 122 223」を検索する。該アルゴリズムは、エンコードデータ「111」又は「122」又は「223」を有するインデックスデータ「111 122 223」を見つけるため、エンコードデータを有するインデックスデータ320と関連付けられる全てのデータファイルを識別する。
他方の状況においては、検索段階202は、複数の記号の組を有するインデックスデータ320と関連付けられるデータファイルを識別する段階(図示せず)を有する。検索段階202は更に、連結ワードを生成するよう該記号の組の全ての第1の記号を連結する段階(図示せず);及び、連結ワードをエンコードされたデータと比較する段階、を有する。上述された例をとると、ユーザは、ファイルを見つけるようタイトルの全ての最初の文字「ADG」(対応するエンコードされるデータは、「112」である)を入力し、検索アルゴリズムは、連結ワード「112」を生成するよう、また連結ワード「112」をエンコードされるデータ「112」と比較するよう、該記号の組(「111 122 233」)の全ての第1の記号を連結する。
更には、本発明は、前出のワードが生成段階によって修正され次第、エンコード段階201及び検索段階202をトリガする段階(図示せず)を有する方法を与える。これは、本発明の他の態様であり、ユーザが1つ押すと(produces a single press)、生成段階によってワードが修正され次第エンコード段階201及び検索段階202がトリガされる。
図1及び図2において示される方法は、記憶装置において格納されるデータファイルを操作する方法を形成するよう有利に組み合わされ得る。該方法は、データファイルからファイルに関連付けられる非英字データを抽出する段階100;データを第1の記号の組から取られた記号を使用してワードへと変換する段階101;インデックスデータ320を生成するようルックアップテーブルを有してワードをエンコードする段階102;前記第1の記号の組から取られた記号を使用してワードを生成する段階200;エンコードされたデータを生成するようルックアップテーブルを有してワードをエンコードする段階201;及び、エンコードされたデータを照合するインデックスデータ320を有する全てのデータファイルを検索する段階202、を有する。前出のルックアップテーブルは、前出の記号を第2の記号の組と関連付け、第2の記号の組の各記号は、第1の記号の組のサブセットと関連付けられ、前出の全てのデータファイルの各々は、インデックスデータ320と関連付けられる。
図5は、本発明に従った記憶装置において格納されるデータファイルをエンコードする装置を示す。
MP3ファイル等であるメディアファイルであり得る記憶装置において格納されるファイル511をエンコードする装置520は、ファイルから非英字データを抽出する抽出手段521;第1の記号の組から取られた記号を使用してデータをワードへと変換する変換手段522;及び、インデックスデータ320を生成するようルックアップテーブルを使用してワードをエンコードするエンコード手段523、を有する。該ルックアップテーブルは、前出の記号を第2の記号の組と関連付け、第2の記号の組の各記号は、第1の記号の組のサブセットと関連付けられる。
図6は、本発明に従った記憶装置において格納されるデータファイルを取り出す装置を示す。
装置610は、記憶装置において格納されたデータファイルを取り出す。該ファイルの各々は、インデックスデータ320に関連付けられる。当該装置は、第1の記号の組から取られた記号を使用してワードを生成する生成手段611;エンコードされたデータを生成するようルックアップテーブルを使用して前出のワードをエンコードするエンコード手段612;及び、エンコードされたデータを照合するインデックスデータを有する全てのデータファイルを検索する検索手段630、を有する。ルックアップテーブルは、前出の記号を第2の記号の組と関連付け、第2の記号の組の各記号は、第1の記号の組のサブセットと関連付けられる。
図5及び図6において示される装置は、記憶装置において格納されるデータファイルを操作するシステムを形成するよう有利に組み合わされ得る。当該装置は、ファイルから非英字データを抽出する抽出手段521;非英字データを第1の記号の組から取られた記号を使用してワードへと変換する変換手段522;インデックスデータ320を生成するようルックアップテーブルを有して前出のワードをエンコードするエンコード手段523;第1の記号の組から取られた記号を使用してワードを生成する生成手段611;エンコードされたデータを生成するようルックアップテーブルを有してワードをエンコードするエンコード手段612;及び、エンコードされたデータを照合するインデックスデータ320を有する全てのデータファイルを検索する検索手段613、を有する。ルックアップテーブルは、前出の記号を第2の記号の組と関連付け、第2の記号の組の各記号は、第1の記号の組のサブセットと関連付けられる。
上述された本発明の実施例が例証であり且つ非制限的な意味に取られるよう意図される、ことは留意される。これらの実施例に対する多種の修正は、本発明の範囲から逸脱することなく当業者によってなされ得る。
本発明に従った非英字データファイルをエンコードする方法のフローチャートを図示する。 本発明に従った記憶装置におけるデータファイルを取り出す段階のフローチャートを図示する。 本発明に従ったデータ記録フォーマットの構造を図示する。 本発明に従った方法において使用されるルックアップテーブルを図示する。 本発明に従った記憶装置において格納されるデータファイルをエンコードする装置を図示する。 本発明に従った記憶装置において格納されるデータファイルを取り出す装置を図示する。

Claims (14)

  1. 記憶装置において格納されるデータファイルをエンコードする方法であって:
    ・ 前記データファイルから前記ファイルに関連付けられる非英字データを抽出する段階;
    ・ 前記データを第1の記号の組から取られた記号を使用してワードへと変換する段階;及び、
    ・ インデックスデータを生成するようルックアップテーブルを有して前記ワードをエンコードする段階;
    を有し、
    前記ルックアップテーブルは、前記記号を第2の記号の組と関連付け、該第2の記号の組の各記号は、前記第1の記号の組のサブセットと関連付けられる、
    方法。
  2. 前記非英字データは、メタデータである、
    請求項1記載の方法。
  3. ・ データレコードを生成する段階;及び、
    ・ 該データレコードをデータベースに格納する段階、
    を更に有し、
    前記データレコードは、前記インデックスデータと、前記データレコードを前記ファイルにリンクさせるファイルポインタとを有する、
    請求項1又は2記載の方法。
  4. ・ 前記ファイルのコンテンツを分類するタグを前記データレコードに対して追加する段階、
    を更に有する請求項3記載の方法。
  5. ・ 各々が前記インデックスデータのサブストリングを有する複数のデータレコードを生成する段階、
    を更に有する請求項3記載の方法。
  6. 前記インデックスデータは、複数の記号の組を有し、
    当該方法は:
    ・ 記号の各組の各第1の記号を連結させることによって、導出インデックスデータを生成する段階、
    を更に有する請求項1記載の方法。
  7. 記憶装置において格納されるデータファイルを取り出す方法であって:
    該データファイルの各々は、インデックスデータと関連付けられ、
    当該方法は、
    ・ 第1の記号の組から取られた記号を使用してワードを生成する段階;
    ・ エンコードされたデータを生成するようルックアップテーブルを有して前記ワードをエンコードする段階;及び、
    ・ 前記エンコードされたデータを照合するインデックスデータを有する全てのデータファイルを検索する段階;
    を有し、
    前記ルックアップテーブルは、前記記号を第2の記号の組と関連付け、該第2の記号の組の各記号は、前記第1の記号の組のサブセットと関連付けられる、
    方法。
  8. 前記検索段階は、インデックスデータと関連付けられるデータファイルを識別する段階を有し、該インデックスデータは、前記エンコードされたデータを有する、
    請求項7記載の方法。
  9. 前記検索段階は、インデックスデータと関連付けられるデータファイルを識別する段階を有し、該インデックスデータは、複数の記号の組を有し、
    当該方法は:
    ・ 連結ワードを生成するよう前記記号の組の全ての第1の記号を連結する段階;及び、
    ・ 前記連結ワードを前記エンコードされたデータと比較する段階、
    を更に有する請求項7記載の方法。
  10. ・ 前記ワードが前記生成段階によって修正され次第、前記エンコード段階と前記検索段階とをトリガする段階、
    を更に有する請求項7記載の方法。
  11. 記憶装置に格納されるデータファイルを操作する方法であって:
    ・ 前記データファイルから前記ファイルに関連付けられる非英字データを抽出する段階;
    ・ 前記データを第1の記号の組から取られた記号を使用してワードへと変換する段階;
    ・ インデックスデータを生成するようルックアップテーブルを有して前記ワードをエンコードする段階;
    ・ 前記第1の記号の組から取られた記号を使用してワードを生成する段階;
    ・ エンコードされたデータを生成するよう前記ルックアップテーブルを有して前記ワードをエンコードする段階;及び、
    ・ 前記エンコードされたデータを照合するインデックスデータを有する全てのデータファイルを検索する段階;
    を有し、
    前記ルックアップテーブルは、前記記号を第2の記号の組と関連付け、該第2の記号の組の各記号は、前記第1の記号の組のサブセットと関連付けられ、
    前記データファイルの各々は、前記インデックスデータと関連付けられる、
    方法。
  12. 記憶装置において格納されるデータファイルをエンコードする装置であって:
    ・ 前記データファイルから前記ファイルに関連付けられる非英字データを抽出する抽出手段;
    ・ 前記データを第1の記号の組から取られた記号を使用してワードへと変換する変換手段;及び、
    ・ インデックスデータを生成するようルックアップテーブルを有して前記ワードをエンコードするエンコード手段;
    を有し、
    前記ルックアップテーブルは、前記記号を第2の記号の組と関連付け、該第2の記号の組の各記号は、前記第1の記号の組のサブセットと関連付けられる、
    装置。
  13. 記憶装置において格納されるデータファイルを取り出す装置であって:
    該データファイルの各々は、インデックスデータと関連付けられ、
    当該装置は、
    ・ 第1の記号の組から取られた記号を使用してワードを生成する生成手段;
    ・ エンコードされたデータを生成するようルックアップテーブルを有して前記ワードをエンコードするエンコード手段;及び、
    ・ 前記エンコードされたデータを照合するインデックスデータを有する全てのデータファイルを検索する検索手段;
    を有し、
    前記ルックアップテーブルは、前記記号を第2の記号の組と関連付け、該第2の記号の組の各記号は、前記第1の記号の組のサブセットと関連付けられる、
    装置。
  14. 記憶装置において格納されるデータファイルを操作するシステムであって:
    ・ 前記ファイルから前記ファイルに関連付けられる非英字データを抽出する抽出手段;
    ・ 前記データを第1の記号の組から取られた記号を使用してワードへと変換する変換手段;
    ・ インデックスデータを生成するようルックアップテーブルを有して前記ワードをエンコードするエンコード手段;
    ・ 前記第1の記号の組から取られた記号を使用してワードを生成する生成手段;
    ・ エンコードされたデータを生成するよう前記ルックアップテーブルを有して前記ワードをエンコードするエンコード手段;及び、
    ・ 前記エンコードされたデータを照合するインデックスデータを有する全てのデータファイルを検索する検索手段;
    を有し、
    前記ルックアップテーブルは、前記記号を第2の記号の組と関連付け、該第2の記号の組の各記号は、前記第1の記号の組のサブセットと関連付けられる、
    システム。
JP2008545207A 2005-12-14 2006-12-11 データファイルを操作する方法及び装置 Withdrawn JP2009519535A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200510131476 2005-12-14
PCT/IB2006/054725 WO2007069175A2 (en) 2005-12-14 2006-12-11 Method and apparatus for manipulating data files

Publications (1)

Publication Number Publication Date
JP2009519535A true JP2009519535A (ja) 2009-05-14

Family

ID=38055655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008545207A Withdrawn JP2009519535A (ja) 2005-12-14 2006-12-11 データファイルを操作する方法及び装置

Country Status (6)

Country Link
US (1) US20080319982A1 (ja)
EP (1) EP1964001A2 (ja)
JP (1) JP2009519535A (ja)
KR (1) KR20080082985A (ja)
CN (1) CN101331483A (ja)
WO (1) WO2007069175A2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9454653B1 (en) * 2014-05-14 2016-09-27 Brian Penny Technologies for enhancing computer security
US10594687B2 (en) 2013-05-14 2020-03-17 Kara Partners Llc Technologies for enhancing computer security
US10057250B2 (en) 2013-05-14 2018-08-21 Kara Partners Llc Technologies for enhancing computer security

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5786776A (en) * 1995-03-13 1998-07-28 Kabushiki Kaisha Toshiba Character input terminal device and recording apparatus
US5953541A (en) * 1997-01-24 1999-09-14 Tegic Communications, Inc. Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use
US6307548B1 (en) * 1997-09-25 2001-10-23 Tegic Communications, Inc. Reduced keyboard disambiguating system
US20020126097A1 (en) * 2001-03-07 2002-09-12 Savolainen Sampo Jussi Pellervo Alphanumeric data entry method and apparatus using reduced keyboard and context related dictionaries
US7478081B2 (en) * 2004-11-05 2009-01-13 International Business Machines Corporation Selection of a set of optimal n-grams for indexing string data in a DBMS system under space constraints introduced by the system

Also Published As

Publication number Publication date
US20080319982A1 (en) 2008-12-25
WO2007069175A2 (en) 2007-06-21
KR20080082985A (ko) 2008-09-12
WO2007069175A3 (en) 2007-10-11
CN101331483A (zh) 2008-12-24
EP1964001A2 (en) 2008-09-03

Similar Documents

Publication Publication Date Title
US7277029B2 (en) Using language models to expand wildcards
US8117026B2 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
US6877003B2 (en) Efficient collation element structure for handling large numbers of characters
JP4977589B2 (ja) 固有表現抽出装置、固有表現抽出方法、及びプログラム
US8099416B2 (en) Generalized language independent index storage system and searching method
US6330567B1 (en) Searching system for searching files stored in a hard disk of a personal computer
WO2007004408A1 (ja) 情報処理装置,情報処理方法および情報処理プログラム
CN101770291B (zh) 输入系统语意分析数据散列存储和分析方法
KR101234795B1 (ko) 컨텐츠 브라우징 장치 및 방법
JP2000200287A (ja) 文書検索装置
JP2009519535A (ja) データファイルを操作する方法及び装置
CN111931026A (zh) 一种基于词性扩展的搜索优化方法及系统
JP2519129B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JP2000194713A (ja) 文字列検索方法及び装置及び文字列検索プログラムを格納した記憶媒体
TW482962B (en) Method of automatic extracting for key features in digital document
JP5988614B2 (ja) 文字入力装置、文字入力方法及び文字入力プログラム
JP2006126883A (ja) 情報検索装置及び情報検索方法
CN104516941A (zh) 相关文档检索装置、方法及程序
JP2008176349A (ja) 見出し検索方法、見出し表示装置、見出し検索装置及びミュージックプレイヤー装置
JPH06215038A (ja) データベース検索装置
JP2001312517A (ja) インデクス生成装置及び文書検索装置
JP5370079B2 (ja) 文字列検索装置、プログラム、及び文字列検索方法
TWI230341B (en) Kanji searching method using codes
JPH11306198A (ja) 検索データベース構築方法及び検索データ構築システム並びに記録媒体
Liu et al. A Bottom-up Approach of Web Data Extraction based on Entity Recognition and Integration

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091208

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100727