JP2004110834A - 情報記憶検索システム及び方法 - Google Patents

情報記憶検索システム及び方法 Download PDF

Info

Publication number
JP2004110834A
JP2004110834A JP2003328497A JP2003328497A JP2004110834A JP 2004110834 A JP2004110834 A JP 2004110834A JP 2003328497 A JP2003328497 A JP 2003328497A JP 2003328497 A JP2003328497 A JP 2003328497A JP 2004110834 A JP2004110834 A JP 2004110834A
Authority
JP
Japan
Prior art keywords
information
node
data
client system
information item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003328497A
Other languages
English (en)
Inventor
David William Trepess
トレペス、デヴィッド ウィリアム
Jonathan Richard Thorpe
ソープ、ジョナサン リチャード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Europe BV United Kingdom Branch
Original Assignee
Sony United Kingdom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB0221774A external-priority patent/GB2393271A/en
Application filed by Sony United Kingdom Ltd filed Critical Sony United Kingdom Ltd
Publication of JP2004110834A publication Critical patent/JP2004110834A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • G06F16/3328Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages using graphical result space presentation or visualisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】本発明は、インターネット等のネットワーク上で情報検索システムを動作させる、効率的かつ簡易な方法を提供する。
【解決手段】異なる情報項目群が、前記情報項目の相互類似性によりノード配列中のそれぞれのノードにマッピングされるよう処理することにより、類似の情報項目が前記ノード配列の類似する位置のノードにマッピングされる情報検索システムは、データネットワークと、前記データネットワークに接続された情報検索クライアントシステムと、前記データネットワークに接続された1つ以上の情報項目記憶ノードとを具備し、情報項目記憶ノードは、複数の情報項目を記憶するための記憶手段と、その情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介してクライアントシステムに送信するためのインデックス化手段とを具備し、前記クライアントシステムは、記憶ノードの前記インデックス化手段から受信したデータに応答して、前記受信データにより表現される各情報項目に対して、ノード位置を生成するための手段を備えている。
【選択図】 図12


Description

 本発明は、情報の記憶及び検索システム及び方法に関する。
 キーワードをもとに検索を行い、情報(例えば文書、画像、電子メール、特許、インターネットコンテンツ又は音声/映像コンテンツ等のメディアコンテンツ)を探し出すためのシステムが多数確立されている。例として、「GoogleTM(商標)」又は「YahooTM(商標)」が提供するインターネット上の検索「エンジン」等が挙げられる。検索エンジンでは、キーワードを手掛かりに検索が行われ、認識された関連性の順に、検索エンジンがランク付けした結果のリスト(一覧)が提示される。
大量文書コレクションの自己組織化(Self Organization of a Massive Document Collection)、 Kohonen et al,IEEE Transactions on Neural Networks, Vol. 11, No. 3, May 2000, pages 574-585 ランダムマッピングによる次元圧縮(Dimensionality Reduction by Random Mapping): Fast Similarity Computation for Clustering", Kaski, Proc IJCNN, pages 413-418, 1998
 しかしながら、しばしば大規模コンテンツコレクションといわれる大量のコンテンツを含むシステムにおいては、比較的短い検索「ヒット」一覧を得るための効果的な検索質問を工夫することは難しい。例えば、本明細書作成時に、キーワード「大規模文書コレクション」を入力してGoogleで検索したところ、ヒット数は、243000件であった。インターネットに記憶されるコンテンツ量が時間とともに増えることを考えると、その後再検索したとすれば、ヒット数は更に増加したである。このようなヒット件数の一覧をチェックするには、膨大な時間を要する。
 一般に、大規模コンテンツコレクションがさほど利用されない理由として以下の点が挙げられる。
・ユーザは、関連コンテンツがあることを知らない。
・ユーザは、関連コンテンツがあることは知っているが、どこにあるかを知らない。
・ユーザは、コンテンツがあることは知っているが、それが関連するものであることを知らない。
・ユーザは、関連コンテンツがあること、そしてそれを探す方法は知っているが、そのコンテンツを探すのに時間がかかる。
 従来は、所謂自己構成マップ(Self-Organization Maps:以下、SOMともいう。)を用いる手法が開示されている(例えば、非特許文献1参照)。これらのSOMは、所謂教師なき自己学習ニューラルアルゴリズムを利用するものであり、これらのアルゴリズムにおいては、各文書の特性を表現する「特徴ベクトル(Feature Vector:以下、FVと略する場合もある)」が、SOMのノードにマッピングされている。
 非特許文献1では、第1のステップとして、文書テキストを前処理し、次いで、同前処理後の各文書から特徴ベクトルが導かれる。1つの形態として、大きな単語辞書中の各単語の出現頻度を示すヒストグラムが考えられる。そのヒストグラムにおける各データ値(すなわち、辞書中のそれぞれの単語の各出現頻度)は、n値ベクトル中の1つの値となる。ここで、nは、辞書中の候補単語総数(この論文で説明されている例では、43222語)である。nベクトル値に重みをつけて、一定の単語について、その関連性又は特異性を強調したりすることができる。
 次いで、n値ベクトルは、より小さい次元のベクトル(すなわちnと比べてかなり小さい値の数m(文中の例では、500))を有するベクトルにマッピングされる。このマッピングは、上述のベクトルに、乱数配列により構成される(n×m)の「プロジェクション行列」を乗算することにより実現される。この手法によれば、次元圧縮されたどの2つのベクトルをとっても、それぞれ対応する2つの入力ベクトルと略同一のベクトルの内積(dot product)を有する、より小さい次元のベクトルが生成される。このベクトルマッピング処理は、例えば、非特許文献2で説明されている。
 次元圧縮されたベクトルは、次いで、各ベクトルを1つの「モデル(他のベクトル)」と乗算する処理により、SOM上のノード(ニューロンともいう)にマッピングされる。これらモデルは、学習プロセスにより生成される。この学習プロセスは、他のベクトルを、相互類似性によりSOM上に自動的に配列するものであり、その配列は、一般に、2次元ノード格子として表現される。これは、非自明プロセスであり、コホネン(Kohonen)等は、7000000弱の文書数を有する文書データベースを処理するのに、6個のプロセッサからなる800MBのメモリを有するコンピュータ上で、6週間を費やした。最後に、SOMを構成するノード格子が表示され、ユーザは、マップ中のあちこちの領域を拡大して1つのノードを選択することができ、ユーザがノードを選択すると、ユーザインタフェースにより、そのノードにリンクされた文書を含むインターネットのページへのリンクが提供される。
 本発明は、インターネット等のネットワーク上で情報検索システムを動作させる、効率的かつ簡易な方法を提供する。
 本発明に係る情報検索システムは、異なる情報項目群が、情報項目の相互類似性により、ノード配列中の各ノードにマッピングされることにより、類似の情報項目がノード配列中の類似する位置のノードにマッピングされる情報検索システムにおいて、データネットワークと、データネットワークに接続された情報検索クライアントシステムと、データネットワークに接続された1つ以上の(好ましくは、2つ以上の)情報項目記憶ノードとを具備する。その情報項目記憶ノードは、複数の情報項目を記憶するための手段と、その情報項目記憶ノードに記憶された情報項目から導かれるデータを、データネットワークを介して、情報検索クライアントシステムに送信するためのインデックス化手段とを具備する。情報検索クライアントシステムは、その情報項目記憶ノードのインデックス化手段から受信したデータに応答して、受信データにより表現される各情報項目に対して、ノード位置を生成するための手段を具備する。
 本発明に係る情報検索システムは、異なる情報項目群が、情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされることにより、類似する情報項目はノード配列の類似した位置のノードにマッピングされる情報検索システムにおいて、ノードの少なくとも一部をユーザ表示装置の表示領域内に表示点の2次元配列として表現して表示するグラフィックユーザインタフェースと、表示領域に2次元領域を指定する制御手段と、表示領域の2次元領域に含まれる表示点を検出する検出手段とを備える。グラフィックユーザインタフェースは、表示領域の2次元領域内に表示される表示点に対応するノードにマッピングされる情報項目を表現するデータ一覧を表示することを特徴とする。
 好ましくは、情報項目は各情報項目から引き出される特徴ベクトルに基づいて配列のノードにマッピングされる。
 また、本発明に係る情報検索システムは情報項目の特徴ベクトルは、情報項目内での情報特徴の各グループの発生頻度群を表現する。
 更に、情報項目はテキスト情報を含み、情報項目の特徴ベクトルは、情報項目内でのワード群のそれぞれの発生頻度群を表現する。
 好ましくは、本発明に係る情報検索システムは、情報項目はテキスト情報を含み、ノードはテキスト情報の少なくとも一部の相互類似性によってマッピングされることを特徴とする。
 また、情報項目は、情報項目群から所定の閾値を超える頻度で発生するワードを除外することによってマッピングのための前処理を受ける。
 更に、情報項目は、情報項目群から所定の閾値を下回る頻度で発生するワードを除外することによってマッピングのための前処理を受ける。
 本発明に係る情報検索システムは、更に、情報項目のワードに関連した検索を実行する検査手段を更に備え、検索手段及びグラフィックユーザインタフェースは、検索によって選択された情報項目に対応する表示点のみを表示するために協力するように配列される。
 また、好ましくは、情報項目と配列のノードとの間のマッピングはジッター成分を含めることで略同一の情報項目は、配列内の隣接しながら異なるノードにマッピングされる傾向をもたせる。
 更に、本発明に係る情報検索システムは、データ一覧から1つ以上の情報項目を選択する制御手段を更に備え、グラフィックユーザインタフェースは制御手段によって選択された情報項目に対応する表示点の表示領域内の表示方法を変更するように操作可能であることを特徴とする。
 また、本発明に係る情報検索システムは、好ましくは、グラフィックユーザインタフェースは、一覧内で選ばれた情報項目に対応する表示点を、異なった色及び/又は強度で、表示するよう動作できることを特徴とする。
 本発明に係る情報記憶システムは、異なる情報項目群が、情報項目の相互類似性によりノード配列中のそれぞれのノードにマッピングされることにより、類似の情報項目がノード配列の類似する位置のノードにマッピングされる情報記憶システムにおいて、各情報項目から導かれる特徴ベクトルを生成するための手段と、ノード配列中のノードに各特徴ベクトルをマップするための手段とを具備する情報記憶システムであって、特徴ベクトルは、情報特徴群の各情報特徴の、その情報項目内における、出現頻度の集合を表現し、情報項目と配列中のノードとの間のマッピングは、略同一の情報項目が配列中の近接してはいるが異なるノードにマッピングされるようジッター成分を含むことを特徴とする。
 また、本発明に係る情報記憶システムは、新規受信情報項目をノード配列中のノードにマップするための手段と、新規受信情報項目がそのようにマップされたときに、マッピング誤差を検出するための手段と、マッピング誤差が閾値誤差量を超えたことを検出したことに応答して、情報項目群と新規受信情報項目のリマッピングを開始するための手段とを具備する。
 本発明に係る情報記憶法方は、異なる情報項目群が、情報項目の相互類似性によりノード配列中のそれぞれのノードにマッピングされるよう処理することにより、類似の情報項目がノード配列の類似する位置のノードにマッピングされる情報記憶方法において、各情報項目から導き出された特徴ベクトルを生成するためのステップと、ノード配列中のノードに各特徴ベクトルをマップするためのステップとを含む情報記憶方法あって、特徴ベクトルは、情報特徴群の各情報特徴の、その情報項目内における、出現頻度の集合を表現し、情報項目と配列中のノードとの間のマッピングは、略同一の情報項目が配列中の近接してはいるが、異なるノードにマッピングされるようジッター成分を含むことを特徴とする情報記憶方法。
 また、本発明に係る情報検索法方は、異なる情報項目群が、情報項目の相互類似性によりノード配列中のそれぞれのノードにマッピングされるよう処理することにより、類似の情報項目がノード配列の類似する位置のノードにマッピングされる情報検索方法において、ユーザディスプレイ上の表示領域内の表示点の2次元表示配列として、少なくとも幾つかのノードの表現を表示し、ユーザコントロールにより表示領域の2次元領域を画定し、表示領域の2次元領域内にある表示点を検出し、表示領域の2次元領域内に表示される表示点に対応するノードにマッピングされる情報項目である、情報項目を表現するデータの一覧を表示することを特徴とする。
 本発明によれば、効率的かつ簡易な方法で、インターネット等のネットワーク上で情報検索システムを動作させることができる。
 なお、当業者であれば、本明細書において、「リスト」という単語が通常使用される範囲内において、「情報を表現するデータ」は、それがフル表示に適したサイズや性質を有しているのであれば、項目そのもの、又は項目を示すデータであり得ることは理解される。
 図1は、汎用コンピュータ10に基づく情報記憶及び検索システムの構成を示す概略図である。汎用コンピュータ10は、プログラムやデータ用のディスク記憶装置30とイーサネット(登録商標)ワークやインターネット等のネットワーク50に接続されたネットワークインタフェース40とを含むプロセッサユニット20と、ディスプレイ装置60等の表示装置と、キーボード70と、マウス80等のユーザ入力装置とを有する。この汎用コンピュータ(以下、情報記憶及び検索システムともいう。)10は、ディスク記憶装置30に記憶されて、例えば、ネットワーク50、図示しない着脱可能なディスク、又はディスク記憶装置30に予め記憶された形態で供給されるプログラムの制御によって動作する。
 情報記憶及び検索システム10は、2つの一般モードで動作する。第1のモードでは、情報項目(例えば、テキスト情報)の集合(情報項目群)が、ディスク記憶装置30、又はネットワーク50を介して接続されたネットワークディスク駆動装置上に蓄積されて、検索用にソート、インデックス化される。第2のモードは、このインデックス化され、ソートされたデータに対して実際の検索を行う動作である。
 本発明の実施の形態は、各種情報項目に対して適用可能である。適切な適用対象となる情報項目を一部列挙すると、特許、映像素材、電子メール、プレゼンテーション資料、インターネットコンテンツ、放送コンテンツ、ビジネスレポート、音声素材、グラフィックやクリップアート、写真等、又はこれらいずれかの組み合わせ、若しくは混合が含まれる。本明細書では、テキスト情報項目、又は少なくともテキストコンテンツ若しくはそれに類するものを含む情報項目について述べることとする。したがって、例えば、音声及び/又は映像素材等の1つの放送コンテンツは、その素材をテキストとして定義するための、関連する「メタデータ」を有しているものとする。
 情報項目は、従来の方法によりディスク記憶装置30に格納される。好ましくは、これらの情報項目は、個々の項目をより簡易に検索し、インデックス化することを可能とするデータベース構造の一部として記憶されるが、必ずしもこのように構成しなければならないということではない。一旦情報や項目がこのように記憶されると、検索用にそれらを編集する処理が行われるが、その処理を、図2に概略的に示す。
 なお、インデックス化された情報データは、必ずしもローカルなディスク記憶装置30に記憶される必要はない。情報データは、ネットワーク50を介して汎用コンピュータ10に接続された遠隔のディスク駆動装置に記憶することもできる。他の方法として、情報は、例えば、インターネット上の各種サイトに分散して記憶してもよい。インターネット又はネットワークの異なったサイトで情報が記憶される場合は、第2のレベルの情報記憶及び検索システムを用いて、その遠隔情報に対する「リンク(例えば、URL)」をローカルに記憶し、関連サマリー、要約、又はそのリンクと関連したメタデータ等とともに記憶することができる。したがって、遠隔に保持された情報は、ユーザが(例えば、後述する結果一覧領域260から)関連リンクを選択しない限りアクセスされない。但し、以下の技術的説明においては、遠隔に保持された情報、又は要約/サマリー/メタデータ、若しくはリンク/URLは「情報項目」として考慮され得る。
 換言すれば、「情報項目」とは、正式に定義すると、特徴ベクトルが導かれるもととなる項目であって、自己構成マップ(Self-Organization Maps:以下、SOMという。)に対し、以下に下記説明するマッピングを行うための処理の対象となる項目である。以下に説明する結果一覧領域260に示されるデータは、(ローカルに保持され、表示に便利な程度の長さであれば)情報項目そのもの、又はメタデータ、URL、要約、キーワード群、代表的なキースタンプ画像等の1つ以上の、情報項目を表現し及び/又は指示する、データである。これは、常にではないが、しばしば、項目群を「表現するデータ」を一覧化する「リスト」動作に特有のものである。
 本発明の形態による他の実施例においては、情報項目は、研究チームや法律事務所等の、ネットワーク化されたワークグループ上に記憶することができる。複合型の方法では、ローカルに記憶した情報項目、及び/又はローカルエリアネットワーク上に記憶した情報項目、及び/又はワイドエリアネットワーク上に記憶した情報項目を扱うことになる。この場合、本情報記憶及び検索システムは、他者による類似の著作物を探すのに適している。例えば、大規模な多国籍研究開発機関においては、類似の研究が、以下に説明するSOM中の類似の出力ノードにマッピングされることになる。又は、新規テレビ番組が企画されている場合においては、本情報記憶及び検索システムは、内容が類似する過去の番組を検出して、その独自性をチェックするために使用することができる。
 なお、図1の汎用コンピュータ、すなわち情報記憶及び検索システム10は、インデックス化された情報項目を使用し得るシステムの一例にすぎない。最初の処理段階(インデックス化)は、適切な処理能力を有する非携帯型コンピュータで実行されることが想定されているが、後の段階である情報アクセス処理は、パーソナルデジタルアシスタント(PDA)等の携帯型機器、ノートパソコン等の携帯型コンピュータ、又は携帯電話機、ビデオ編集装置、ビデオカメラ等の装置上でも実行可能である。一般には、表示部を有するものであれば、実際は如何なる装置を情報アクセス段階の処理に用いることができる。
 これらの処理は、情報項目数に限定されるものではない。
 ここで、情報項目の自己構成マップ(SOM)表現の生成処理について、図2乃至6を参照して説明する。図2は、SOMマッピング処理に先行する、所謂「特徴抽出」処理を説明する概略フローチャートである。
 特徴抽出とは、元のデータを抽象的表現に変容させる処理である。これらの抽象的表現は、次いで、パターン分類、クラスタリングや認識等の処理に用いられる。これらの処理では、所謂「特徴ベクトル(Feature Vector)」が生成される。特徴ベクトルとは、ある文書内で用いられる用語の頻度の抽象的表現をいう。
 特徴ベクトルを作成して情報を可視化する処理は、以下のステップを含む。
・用語の「文書データベース辞書」を作成する。
・その「文書データベース辞書」に基づき各個別文書の「用語頻度ヒストグラム」を作成する。
・ランダムマッピングを用いて「用語頻度ヒストグラム」の次元圧縮を行う。
・情報空間の2次元可視化表示を作成する。
 これらのステップをより詳細に説明すると、各文書(情報項目)100を、順に開く。ステップ110で、全ての「ストップワード」を文書から除去する。ストップワードとは、予め作成された一覧に列挙された極めて一般的な単語であって、例えば「a」、「the」、「however」、「about」、「and」、「the」等の冠詞、前置詞、代名詞、接続詞等である。これらの単語は極めて一般的であるので、ある程度の長さの文書では、平均して、同程度の頻度で出現する可能性がある。その結果、特定の文書の内容を特徴付けようとする場合に殆ど影響がなく、したがって、除去しても支障がない。
 ストップワードを除去した後、ステップ120で、残った単語について語幹検出が行われる。これは、1つの単語の異なる綴り字の単語の共通語幹を探す作業である。例えば、「thrower」、「throws」、「throwing」という単語には、「throw」という共通語幹がある。
 文中に存在する(「ストップ」ワードを除いた)共通語幹を有する単語の「辞書」を維持する。新たな単語が現れると、辞書に追加するとともに、全文書コレクション(情報項目群)中にその単語が現れた回数の累計カウントが記録される。
 その結果、上述の集合中の全文書中に用いられている用語の一覧が、その出現頻度とともに得られる。出現頻度が高すぎるか、又は低すぎる単語は無視され、例えば、辞書から除去され、後続する分析処理の対象から外される。出現頻度の低すぎる単語は、文書群により表現されるドメインを構成するか、又はそれとは関係のない誤記された単語等である。出現頻度が高すぎる単語は、集合内の文書を区別するためには余り適切ではない。例えば、用語「News」は、放送関係文書のテスト群中の全文書の約3分の1に使われているのに対して、単語「football」は、同テスト群中の文書の約2%にしか使われていない。したがって、「football」は、「News」に比べると、文書内容を特徴付けるのに、より適した用語と考えられる。逆に、「fottball(「football」の誤記)」は、全文書群中に一度しか出現せず、出現頻度が低すぎるということで廃棄される。そのような単語は、平均出現頻度に対して2標準偏差小さい値(平均出現頻度−2σ)よりも低いか、又は平均出現頻度に対して2標準偏差大きい値(平均出現頻度+2σ)よりも高いものである。
 次いで、ステップ130で、特徴ベクトルが生成される。
 これを行うために、上述の集合中の文書毎に、用語頻度ヒストグラムが生成される。用語頻度ヒストグラムは、(その文書群に属する)辞書中に存在する単語が1つの個別の文書中で出現する回数をカウントして作成される。辞書中の大部分の用語が1つの文書中に存在することはないので、これらの用語の頻度は、ゼロである。2つの異なった文書について、用語頻度ヒストグラムの具体例を図3(a)、3(b)に示す。
 これらの具体例から、ヒストグラムがどのようにして文書内容を特徴付けているかが分かる。これらの具体例を分析すると、文書1では、文書2より、用語「MPEG」と「映像」がより頻繁に現れ、文書2では「メタデータ」がより頻繁に現れる。ヒストグラムの項目(エントリー)の多くは、文中に対応する単語が存在しないためにゼロとなっている。
 現実の例では、実際の用語頻度ヒストグラムは、これらの具体例に比べて、より多くの用語を含んでいる。通常、ヒストグラムは、50000を超える異なった用語の頻度を示し、そのヒストグラムの規模は50000を超えるものとなる。SOM情報空間を構築するために用いるとすれば、このヒストグラムの規模をかなり圧縮しなければならない。
 用語頻度ヒストグラムの各エントリーは、その文書を表現する1つの特徴ベクトルにおける対応する1つの値として用いられる。この処理の結果は、文書コレクション中の各文書用の辞書によって特定された全用語の頻度を含む(50000×1)ベクトルである。このベクトルは、殆どの値は通常ゼロであり、他の場合でも通常1というような非常に低い値であるので、スパース(疎)であるといえる。
 ステップ140で、特徴ベクトルのサイズ、すなわち用語頻度ヒストグラムの規模を圧縮する。ヒストグラムの規模を圧縮する処理として2つの方法が提案されている。
i)ランダムマッピング(Random Mapping)
 これは、ヒストグラムを乱数の行列により乗算する手法である。この手法は、演算処理的に安価である。
ii)Latent Semantic Indexing
 これは、ヒストグラムの規模を、文中で同時に現れる確率が高い用語群を探すことにより、圧縮する手法である。これらの単語群は、次いで、1つのパラメータに縮減される。この手法は、演算処理的に高価である。
 本発明の実施の形態では、用語頻度ヒストグラムの規模を圧縮する方法として、上述の参照非特許文献2で詳説される「ランダムマッピング」を選択した。ランダムマッピングは、ヒストグラムの規模に乱数行列を乗算することにより、ヒストグラムの規模圧縮に成功している。
 図4(a)に概略的に示される「元の」特徴ベクトルは、上述したように、通常、50000個程度のサイズを有する疎ベクトルである。このサイズを、約200(図4(b)を参照)に圧縮でき、かつ、その特徴ベクトルの相対的特徴を維持することができる。すなわち、同様に処理された他の特徴ベクトルに対する相対角度(ベクトルの内積(dot product))関係というような相対的特徴を維持できるということである。この相対的特徴が維持できていればよく、特定規模の直交ベクトルの数は限られているが、略直交するベクトルの数ははるか大きいからである。
 事実、ベクトルの規模が大きくなるにつれ、ランダムに生成されたベクトルの所与の群は、どれをとってみても、略互いに直交する。この性質は、乱数行列と乗算されたベクトルの相対的方向が維持されることになるということを意味する。このことは、ランダムマッピングの前と後のベクトルの類似性を、それらの内積に着目して示すことにより証明できる。
 50000の値から200の値に疎ベクトルを圧縮することにより、その相対的類似性が維持されることは、実験的に示すことができる。しかしながら、このランダムマッピングは、完全ではないが、簡便な方法で文書の内容を特徴付けるという目的のためには十分である。
 文書コレクション用の特徴ベクトルが生成され、コレクションの情報空間が画定されると、ステップ150で、1つの2次元SOMに射影され、セマンティックマップが作成される。以下、コホネン(Kohonen)の自己構成マップを用いて、これらの特徴ベクトルをクラスタリングすることにより、2次元的にマッピングする処理について、図5を参照しながら説明する。
 コホネンの自己構成マップは、文書のそれぞれについて生成された特徴ベクトルをクラスタ化し、構成するために用いられる。
 自己構成マップは、入力ノード170と、2次元平面185として描かれた、ノードの2次元配列又は格子中の出力ノード180とにより構成される。入力ノード170は、マップをトレーニングするために使用される特徴ベクトルの値と同じ数だけある。マップ上の各出力ノード180は、重み付き接続190(接続毎に1重み)によって入力ノード170に接続されている。
 先ず、これらの重みのそれぞれはランダムな値に設定され、次いで、対話処理を介して、これらの重みが「トレーニング」される。マップのトレーニングとは、各特徴ベクトルをマップの入力ノードに反映させることにより行われる。「最近接」出力ノードは、入力ベクトルと各出力ノードの重みとの間のユークリッド距離を演算することにより算出される。
 最近接ノードは、「勝利者」と称され、このノードの重みが、これら重みが入力ベクトルに「接近」するように、これら重みの値を僅かに変えて、トレーニングされる。勝利者ノードに加え、勝利者ノードの近隣ノードもトレーニングされ、前記入力ノードに僅かに接近させる。
 マップが、一旦トレーニングされると、ノードの2次元マップ中の入力空間の大方の位相を維持することができるようになるのは、単に1つのノードの重みだけではなく、マップ上の1つの領域にわたるノードの重みをトレーニングするこの処理を行うからである。
 一旦マップがトレーニングされると、文書のそれぞれがマップに提示され、どの出力ノードがその文書の入力特徴ベクトルに最も近いかを知ることができる。重みが特徴ベクトルと同じになるということは恐らくなく、ある特徴ベクトルとマップ上のその最近接ノードとの間のユークリッド距離は、その「量子化誤差」として知られている。
 文書毎に特徴ベクトルをその位置を知るためにマップに提示すると、文書毎にx,yマップ位置が生成される。これらのx,y位置は、文書IDとともにルックアップテーブルに置かれ、文書間の関係を視覚化するために使うことができる。
 最後に、ステップ160で、ジッター成分が付加される。これについては、以下、図6を参照ながら説明する。
 上述の処理で問題となりうるのは、2つの同一又は略同一の情報項目が、SOMのノード配列中の同一ノードにマップされてしまう場合がある点である。この問題は、データ処理を困難にするものではないが、後述する表示画面上でのデータの視覚化に資するものではない。特に、データが表示画面上に視覚化されたとき、ある特定ノードにおいて、非常に類似する複数の項目を1つの項目と区別できれば便利であることは知られている。したがって、「ジッター」成分が、各情報項目がマップされたノード位置に付加されるのである。ジッター成分は、ノード分離の±1/2のランダム加算である。したがって、図6を参照すると、実際は図6の破線により画される領域210内のあらゆるノード位置にマップされてもよいように、マッピング処理の結果出力ノード200が選択される情報項目にはジッター成分が付加される。
 したがって、情報項目は、SOM処理の「出力ノード」以外のノード位置であって、図6の平面上の位置にマッピングされるとすることができる。
 他の方法としては、上述したSOMマッピング処理における「出力ノード」を高密度化するものがある。この方法では、全く同一の情報項目同士を区別できるものではないが、完全とはいえない略同一の情報項目を、異なってはいるが、近接した出力ノードにマップすることができる。
 図7は、あるSOMにソートされたデータが、検索動作用にグラフィカルに示されたディスプレイ装置60の表示画面上の表示を概略説明するものである。この表示画面には、検索質問領域250、結果一覧領域260、SOMのノード表示領域270が表示されている。
 動作中は、ユーザが検索質問領域250にキーワード検索質問を入力する。次いで、ユーザは検索を開始する。例えばキーボード70上のエンタを押したり、マウス80を使って画面の「ボタン」を選択して、検索を開始する。次いで、検索質問領域(ボックス)250中のキーワードが、標準のキーワード検索手法を用いて、データベース中の情報項目と比較される。これにより、結果の一覧が生成され、各結果は、結果一覧領域260中のそれぞれのエントリー280として示される。また、各結果は、ノード表示領域270上に、対応する表示点として表示される。
 SOM表現を生成するために用いられるソート処理は、SOM中において相互に類似する情報項目同士をグループ化する傾向があるので、検索質問の結果は、クラスタ290等のクラスタの中に落ち着く傾向がある。なお、ここで、ノード表示領域270上の各点は、結果一覧領域260中の結果の1つと関連付けられたSOM中の各エントリーに対応している。そして、ノード表示領域270内の表示点の表示位置は、ノード配列内のノードの配列位置に対応している。
 図8は、ヒット数(結果一覧領域260中の結果)を減少させるための手法を概略説明するものである。ユーザはマウス80を使って、関心ノードに対応する表示点の集合を囲むボックス300を描く。結果一覧領域260においては、ボックス300内の点に対応する結果だけが表示される。これらの結果が関心のものでないときは、ユーザは、異なった表示点の群を囲む別のボックスを描けばよい。
 なお、結果一覧領域260には、ボックス300内に表示点が表示され、かつ検索質問領域250中の検索基準を満足した結果に対する一覧エントリーが表示される。ボックス300は、ノード配列中の密ノードに対応する他の表示位置を囲むものでもよいが、これらが検索基準を満足しなかった場合は、それらは表示されず、したがって、結果一覧領域(ボックス)260に示される結果の副群を構成しない。
 図9は、結果一覧領域260中のあるエントリーのノード位置を検出するための手法を説明するものである。グラフィックユーザインタフェースの分野における、特に所謂「Windows(登録商標)」オペレーティングシステム(OS)を用いたコンピュータにおける標準的な手法を用いて、ユーザは、結果一覧中の1つ以上のエントリーを「選択」することができる。図9に示す具体例においては、この選択は、関連結果に関連付けられた「チェックボックス」310をマウスでクリックして行う。しかし、クリックして結果全部をハイライト表示したり、又は関連結果をダブルクリックしたり等しても同様に行うことができる。ある結果が選択されると、ノード配列中の各ノードを表現する対応した表示点が、異なった方法で表示される。これについては、結果一覧領域260中の選択結果330に対応する2つの表示点320として、概略表示する。
 異なった表示としては、点をより大きくしたり、あるいは同一の表示色で強調表示したり、あるいは別の色にしたり、あるいはこれら種々の属性の組合せを用いてもよい。
 上述した処理(すなわち、ステップ110乃至140)を行い、次いで、その結果としての圧縮された特徴ベクトルを、「事前トレーニング」されたSOMモデルに、すなわちマップの自己構成の結果得られたSOMモデルの集合に適用することにより、いつでも、新しい情報項目をSOMに追加できる。したがって、新規追加情報項目については、一般に、マップは「リトレーニング」されない。代わりに、全ての未修正SOMモデルに対しステップ150及び160の処理が行われるのである。新たな情報項目が追加される度にSOMをリトレーニングすることは、演算処理コストが嵩むことのみならず、共通にアクセスされたマップ中の情報項目の相対的位置に慣れてくるユーザにとってもいささか不便である。
 しかしながら、リトレーニング処理が適当である場合もある。例えば、SOMが最初に生成されてから、新規用語(ニュースの新項目あるいは新技術分野等)が辞書に追加されても、既存の出力ノード集合に余りうまくマップされない場合がある。これは、新規受信情報項目が既存SOMにマッピングされるときに検出される所謂「量子化誤差」の増加として、検出される。本発明の実施の形態においては、量子化誤差は閾値誤差量と比較される。閾値誤差量より大きい場合は、(a)SOMを、その最初の全ての情報項目と生成以来追加された項目とを用いて、自動的にリトレーニングするか、又は(b)ユーザに、適時、リトレーニング処理を開始するように促す。リトレーニング処理は、全ての関連情報項目の特徴ベクトルを用いて、ステップ150及び160を完全実行するものである。
 図10は、映像取得及び/又は処理装置の例として小型ビデオカメラ500を概略説明するものである。小型ビデオカメラ500は、撮像装置510と、その付属レンズ520と、データ/信号処理装置530と、テープ記録装置540と、ディスク又は他のランダムアクセス記憶装置550と、ユーザ操作部560と、アイピース580付き表示装置570とを含んでいる。なお、従来の小型ビデオカメラのその他の特徴又はその他の手段(異なった記録媒体や異なった表示画面構成等)は、当業者には明らかである。使用について説明する。撮像された映像情報に関するメタデータがランダムアクセス記憶装置550に記憶され、ユーザ操作部560を使用して、上述したように、記憶データに関するSOMを表示装置570上で閲覧し、制御することができる。
 図11は、携帯データ処理装置の例として、パーソナルデジタルアシスタント(以下、PDAという。)600を概略説明するものである。PDA600は、表示領域620とユーザ操作部を提供するタッチセンシティブ領域630とを含む表示画面610を、図示しないデータ処理及び記憶装置とともに備えている。なお、PDAについては、これら以外に、その他の手段や構成が可能であることは言うまでもない。PDA600は、上述したように、図1の情報記憶及び検索システムについて説明したように使用してよい。
 図12は、ネットワーク化された情報記憶及び検索システムを概略説明するものである。この情報記憶及び検索システムは、前述した通り、ソフトウェア制御下で動作するものであってよい。
 図1の構成の機能とそれに続いて説明した内容は、ネットワーク化されたシステムの使用効率を高めるための特徴が付加された、ネットワーク化された情報記憶及び検索システムにおいて実現される。
 一般的には、動作は、クライアントシステム800と1つ以上の記憶ノード810との間で分けて行われる。クライアントシステム800と記憶ノード810は、インターネット接続820等のネットワーク化された接続により相互に接続されている。図12では、各記憶ノード810とクライアントシステム800間の接続を概略図示している。インターネットを含む多くのネットワーク構成では、観念的には、記憶ノード810同士を含む、そのネットワークに接続された全てのノード間を物理的に接続するが、図12の接続は、異なるノード間の論理データ路を表現しようとしたものである。
 例えばGoogleRTM(登録商標)等のインターネット検索プロバイダ又は検索エンジン830は、クライアントシステム800に論理的に接続されてもよい。
 クライアントシステム800は、表示/ユーザインタフェースロジック840と、コンテンツ構成サービスロジック850と、インデックスサービスロジック860とから構成される。各記憶ノード810は、情報記憶装置(例えば、ディスク記憶装置)870と、オプションとしてのメタデータ抽出ロジック880と、インデックスエージェントロジック890とから構成される。検索エンジン830が保持する情報を除けば、記憶ノード810の情報記憶装置870は、本発明の実施の形態における情報項目の主要な保管場所である。なお、この構成は、本発明の実施形態による例のためにこのような構成にしたのであって、情報項目を「ローカル」、すなわちクライアントシステム800側で記憶することにしてもよい。
 クライアントシステム800は、前述した以下の機能を提供する。
・オプションとして、図2の機能とそれに続いて説明した内容、すなわちSOMの生成(SOM表現は他の場所で生成されることができたであるが)。
・図7乃至9の機能、すなわちSOM表現の表示とSOM表現を処理するユーザとのやりとりの一部又は全部。
・オプションとして、リトレーニング処理を開始する機能を含む、新規受信情報項目を「既にトレーニング」されたSOM表現に追加する機能の少なくとも一部。なお、ステップ110及び120等の処理は、クライアントシステム800ではなく、記憶ノード810で行ってよい。
 基本的には、記憶ノード810のインデックスエージェントロジック890は、(例えばステップ110、120に対応するステップにより)データを、そのノードに記憶された情報項目に含まれるか、又は(例えば、少なくとも主に音声/映像素材から構成される情報項目に関して)メタデータ抽出ロジック880から導き出されたテキスト情報から得る。次いで、得られたデータは、クライアントシステム800のインデックスサービスロジック860に転送される。この転送は、幾つかの方法のうちの1つ以上の方法により行うことができる。
・インデックスエージェントロジック890は、情報項目が新たに記憶されたか、又は新たに変更されたことの検出があったとき、その情報項目から導き出されたデータを転送することができる。
・インデックスエージェントロジック890は、クライアントシステム800での検索質問(又は情報検索質問動作)に応答して、その記憶ノード810に保持された全ての情報項目から導き出されたデータを転送することができる。
・インデックスエージェントロジック890は、最後に転送したときから一定時間が経過したことに応答して、その記憶ノード810に保持された全ての情報項目から導き出されたデータを転送することができる。
・インデックスエージェントロジック890は、データがクライアントシステム800に既に転送されたか、転送されていない情報項目のレジスタを維持することができる。クライアントシステム800での検索質問(又は情報検索質問操作)に応答して、インデックスエージェントロジック890は、「未転送」データの一部又は全部を転送することができる。このように転送された情報項目は、その記憶ノード810のインデックスエージェントロジック890において「未転送」一覧から「転送済」一覧に移動される。
 クライアントシステム800に転送されるデータは、例えば、以下の1つ以上のものが可能である。
(a) 情報項目そのもの
(b) 情報項目から導き出されたメタデータ
(c) (a)又は(b)に対して行われたステップ110の処理結果
(d) (a)又は(b)に対して行われたステップ120の処理結果
(e) (a)又は(b)から導き出された特徴ベクトル
 クライアントシステム800では、(a)乃至(d)のいずれかがインデックスエージェントロジック890から受信されると、コンテンツ構成サービスロジック850が特徴ベクトルを生成し、それから、SOMマップ位置を生成して、生成されたSOMマップ位置は、情報項目の記憶場所を特定する情報項目の識別符号(URL又はURI(universal resource indicator))とともにクライアントシステム800に記憶される。(e)が受信された場合は、SOMマップ位置が生成され、URL/URIとともにクライアントシステム800に記憶される。
 ユーザが質問を生成するときは、ユーザ操作(表示/ユーザインタフェースロジック840への入力)により、インデックスサービスロジック860に送られ、次いで、ネットワークに接続された記憶ノード810に配信される。それらの記憶ノード810は、上述したようにデータで応答して、データをSOM表現へと変容させてユーザに表示する。
 上述したような記憶ノードの代わりに、インテックスサービスロジックが、GoogleRTM等のインターネット検索エンジンから同様のデータを受信してよい。このデータは、既に説明した方法と同じ方法で処理される。検索エンジンからインデックスサービスへのデータ送信は、上述した方法のいずれかの方法により開始してよい。
情報記憶及び検索システムを概略説明するための図である。 自己構成マップ(SOM)の生成を示す概略フローチャートである。 用語頻度ヒストグラムを概略説明する図である。 元の特徴ベクトルを概略説明する図であり、(a)は圧縮されていない例、(b)は圧縮された元の特徴ベクトルを概略説明する図である。 SOMを概略説明する図である。 ジッター処理を概略説明する図である。 SOMにより表現される情報にアクセスするために、ユーザインタフェースを提供する表示画面を概略説明する図である。 SOMにより表現される情報にアクセスするために、ユーザインタフェースを提供する表示画面を概略説明する図である。 SOMにより表現される情報にアクセスするために、ユーザインタフェースを提供する表示画面を概略説明する図である。 映像取得及び/又は処理装置の一例としての小型ビデオカメラを概略説明する図である。 携帯データ処理装置の一例としてのパーソナルデジタルアシスタントを概略説明する図である。 ネットワーク化された情報記憶及び検索システムを概略説明する図である。
符号の説明
 10 汎用コンピュータ、20 プロセッサユニット、30 ディスク記憶装置、40 ネットワークインタフェース、50 ネットワーク、60 ディスプレイ装置、70 キーボード、80 マウス

Claims (28)

  1.  異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされる情報検索システムにおいて、
     データネットワークと、
     前記データネットワークに接続された情報検索クライアントシステムと、
     前記データネットワークに接続された1つ以上の情報項目記憶ノードとを備え、
     前記情報項目記憶ノードは、複数の情報項目を記憶するための記憶手段と、前記情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介して前記情報検索クライアントシステムに送信するためのインデックス化手段とを含み、
     前記情報検索クライアントシステムは、前記インデックス化手段から受信したデータに応答して、前記受信データにより表現される各情報項目に対して、ノード位置を生成するための生成手段を含むことを特徴とする情報検索システム。
  2.  前記インデックス化手段は、前記情報検索クライアントシステムにデータをバッチとして送信するように動作可能であり、
     前記バッチは、少なくとも、前記情報検索クライアントシステムにデータが予め送信されなかった情報項目記憶ノードに記憶された情報項目の一部から導き出されたデータを含むことを特徴とする請求項1に記載の情報検索システム。
  3.  前記データのバッチは、前記情報検索クライアントシステムにデータが予め送信されなかった情報項目記憶ノードに記憶された情報項目から導き出されたデータを含むことを特徴とする請求項2に記載の情報検索システム。
  4.  前記インデックス化手段は、前記情報検索クライアントシステムでの情報検索動作に応答して、前記情報項目記憶ノードに記憶された情報項目から導き出されたデータのバッチを前記情報検索クライアントシステムに送信するように動作可能であることを特徴とする請求項1乃至3のいずれか1項に記載の情報検索システム。
  5.  前記インデックス化手段は、前記情報項目記憶ノードで変更又は新規に記憶された情報項目を検出し、前記検出に応答して、前記情報項目から導き出されたデータのバッチを前記情報検索クライアントシステムに送信するように動作可能であることを特徴とする請求項1乃至3のいずれか1項に記載の情報検索システム。
  6.  前記データネットワークは、インターネットによるネットワークであることを特徴とする請求項1乃至5のいずれか1項に記載の情報検索システム。
  7.  前記情報項目記憶ノードの1つ以上は、インターネット検索用サーバであることを特徴とする請求項6に記載の情報検索システム。
  8.  前記情報項目は、少なくとも一部においてテキストであり、
     記憶された情報項目から導き出されたデータは、前記情報項目のテキスト内容の全てを含むことを特徴とする請求項1乃至7のいずれか1項に記載の情報検索システム。
  9.  記憶された情報項目から導き出されたデータは、前記記憶された情報項目を示すテキストデータを含むことを特徴とする請求項1乃至7のいずれか1項に記載の情報検索システム。
  10.  前記情報検索クライアントシステムは、ユーザ表示部上の表示領域内にある表示点の2次元表示配列の少なくとも一部を表現して表示するグラフィックユーザインタフェースを備えることを特徴とする請求項1乃至9のいずれか1項に記載の情報検索システム。
  11.  前記情報検索クライアントシステムは、
     前記表示領域に2次元領域を指定する制御手段と、
     前記表示領域の前記2次元領域に含まれる前記表示点を検出する検出手段とを更に備えることを特徴とする請求項10に記載の情報検索システム。
  12.  前記グラフィックユーザインタフェースは、前記表示領域の前記2次元領域内に表示される前記表示点に対応するノードにマッピングされる情報項目を表現するデータ一覧を表示させるように動作可能であることを特徴とする請求項11に記載の情報検索システム。
  13.  前記情報検索クライアントシステムは、前記データ一覧から1つ以上の情報項目を選択する制御手段を更に備え、
     前記グラフィックユーザインタフェースは、前記制御手段によって選択された情報項目に対応する表示点の表示領域内の表示方法を変更するように動作可能であることを特徴とする請求項12に記載の情報検索システム。
  14.  情報項目から導き出されたデータは、前記情報項目の記憶箇所の識別手段を含むことを特徴とする請求項1乃至13のいずれか1項に記載の情報検索システム。
  15.  前記識別手段は、URL(Universal Resource Locator)を含むことを特徴とする請求項14に記載の情報検索システム。
  16.  異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は、前記ノード配列の類似した位置のノードにマッピングされる情報検索システムに使用され、情報項目記憶ノードから受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成するための生成手段を含む情報検索クライアントシステムにデータネットワークを介して接続される情報項目記憶ノードにおいて、
     複数の情報項目を記憶する記憶手段と、
     前記情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介して前記情報検索クライアントシステムに送信するインデックス化手段とを備える情報項目記憶ノード。
  17.  異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされ、データネットワークを介して、複数の情報項目を記憶するための記憶手段と、記憶された情報項目から導き出されたデータを前記データネットワークを介して情報検索クライアントシステムに送信するためのインデックス化手段とを含む1つ以上の情報項目記憶ノードに接続される情報検索クライアントシステムにおいて、
     前記インデックス化手段から受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成するための生成手段を備える情報検索クライアントシステム。
  18.  情報検索クライアントシステムを備えた携帯情報処理装置において、
     前記情報検索クライアントシステムは、異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされ、データネットワークを介して、複数の情報項目を記憶するための記憶手段と、記憶された情報項目から導き出されたデータを前記データネットワークを介して情報検索クライアントシステムに送信するためのインデックス化手段とを含む1つ以上の情報項目記憶ノードに接続される情報検索クライアントシステムであり、
     前記インデックス化手段から受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成するための生成手段を備える携帯情報処理装置。
  19.  情報検索クライアントシステムを備えた映像取得及び/又は処理装置において、
     前記情報検索クライアントシステムは、異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされ、データネットワークを介して、複数の情報項目を記憶するための記憶手段と、記憶された情報項目から導き出されたデータを前記データネットワークを介して情報検索クライアントシステムに送信するためのインデックス化手段とを含む1つ以上の情報項目記憶ノードに接続される情報検索クライアントシステムであり、
     前記インデックス化手段から受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成するための生成手段を備える映像取得及び/又は処理装置。
  20.  データネットワークと、前記データネットワークに接続された情報検索クライアントシステムと、前記データネットワークに接続された1つ以上の情報項目記憶ノードとを備えた情報検索システムにおいて、異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされる情報検索方法において、
     前記情報項目記憶ノードは、複数の情報項目を記憶し、前記データネットワークを介して、前記情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記情報検索クライアントシステムに送信し、
     前記情報検索クライアントシステムは、前記情報項目記憶ノードのインデックス化手段から受信したデータに応答して、前記受信されたデータにより表現される前記情報項目に対してノード位置を生成する情報検索方法。
  21.  異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は、前記ノード配列の類似した位置のノードにマッピングされる情報検索システムに使用され、情報項目記憶ノードから受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成するための生成手段を含む情報検索クライアントシステムにデータネットワークを介して接続される情報項目記憶ノードの操作方法において、
     複数の情報項目を記憶し、
     前記情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介して前記情報検索クライアントシステムに送信する情報項目記憶ノードの操作方法。
  22.  異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされ、データネットワークを介して、複数の情報項目を記憶するための記憶手段と、情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介して情報検索クライアントシステムに送信するためのインデックス化手段とを含む1つ以上の情報項目記憶ノードに接続される情報検索クライアントシステムの操作方法において、
     前記インデックス化手段から受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成する情報検索クライアントシステムの操作方法。
  23.  データネットワークと、前記データネットワークに接続された情報検索クライアントシステムと、前記データネットワークに接続された1つ以上の情報項目記憶ノードとを備えた情報検索システムにおいて、異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされる情報検索方法をコンピュータで実現するための情報処理プログラムにおいて、
     前記情報項目記憶ノードは、複数の情報項目を記憶し、前記データネットワークを介して前記情報項目記憶ノードに記憶された情報項目から導き出されたデータを情報検索クライアントシステムに送信し、
     前記情報検索クライアントシステムは、前記情報項目記憶ノードのインデックス化手段から受信したデータに応答して、前記受信されたデータにより表現される前記情報項目に対してノード位置を生成する情報処理プログラム。
  24.  異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は、前記ノード配列の類似した位置のノードにマッピングされる情報検索システムに使用され、情報項目記憶ノードから受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成するための生成手段を含む情報検索クライアントシステムにデータネットワークを介して接続される情報項目記憶ノードの操作方法をコンピュータで実現するための情報処理プログラムにおいて、
     複数の情報項目を記憶し、
     前記情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介して前記情報検索クライアントシステムに送信する情報処理プログラム。
  25.  異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされ、データネットワークを介して、複数の情報項目を記憶するための記憶手段と、情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介して情報検索クライアントシステムに送信するためのインデックス化手段とを含む1つ以上の情報項目記憶ノードに接続される情報検索クライアントシステムの操作方法をコンピュータで実現するための情報処理プログラムにおいて、
     前記インデックス化手段から受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成する情報処理プログラム。
  26.  情報処理プログラムを記憶したコンピュータが読みとり可能な記憶媒体において、
     前記情報処理プログラムは、データネットワークと、前記データネットワークに接続された情報検索クライアントシステムと、前記データネットワークに接続された1つ以上の情報項目記憶ノードとを備えた情報検索システムにおいて、異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされる情報検索方法をコンピュータで実現するための情報処理プログラムであり、
     前記情報項目記憶ノードは、複数の情報項目を記憶し、前記データネットワークを介して前記情報項目記憶ノードに記憶された情報項目から導き出されたデータを情報検索クライアントシステムに送信し、
     前記情報検索クライアントシステムは、前記インデックス化手段から受信したデータに応答して、前記受信されたデータにより表現される前記情報項目に対してノード位置を生成することを特徴とする記憶媒体。
  27.  情報処理プログラムを記憶したコンピュータが読みとり可能な記憶媒体において、
     前記情報処理プログラムは、異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は、前記ノード配列の類似した位置のノードにマッピングされる情報検索システムに使用され、情報項目記憶ノードから受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成するための生成手段を含む情報検索クライアントシステムにデータネットワークを介して接続される情報項目記憶ノードの操作方法をコンピュータで実現するための情報処理プログラムであり、
     前記情報処理プログラムは更に複数の情報項目を記憶し、
     前記情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介して前記情報検索クライアントシステムに送信することを特徴とする記憶媒体。
  28.  情報処理プログラムを記憶したコンピュータが読みとり可能な記憶媒体において、
     前記情報処理プログラムは、異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされ、データネットワークを介して、複数の情報項目を記憶するための記憶手段と、情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介して情報検索クライアントシステムに送信するためのインデックス化手段とを含む1つ以上の情報項目記憶ノードに接続される情報検索クライアントシステムの操作方法をコンピュータで実現するための情報処理プログラムであり、
     前記インデックス化手段から受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成することを特徴とする記憶媒体。
JP2003328497A 2002-09-19 2003-09-19 情報記憶検索システム及び方法 Pending JP2004110834A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0221774A GB2393271A (en) 2002-09-19 2002-09-19 Information storage and retrieval
GB0229072A GB2393275A (en) 2002-09-19 2002-12-12 Information storage and retrieval

Publications (1)

Publication Number Publication Date
JP2004110834A true JP2004110834A (ja) 2004-04-08

Family

ID=31948045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003328497A Pending JP2004110834A (ja) 2002-09-19 2003-09-19 情報記憶検索システム及び方法

Country Status (4)

Country Link
US (1) US20040130569A1 (ja)
EP (1) EP1400903A1 (ja)
JP (1) JP2004110834A (ja)
CN (1) CN100449534C (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015036979A (ja) * 2013-08-15 2015-02-23 ダッソー システムズ シムリア コーポレイション パターン認識型データ入力および検索

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2395806A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
GB2395804A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
US8181201B2 (en) 2005-08-30 2012-05-15 Nds Limited Enhanced electronic program guides
US8220023B2 (en) 2007-02-21 2012-07-10 Nds Limited Method for content presentation
GB2475473B (en) 2009-11-04 2015-10-21 Nds Ltd User request based content ranking
US8751632B2 (en) * 2010-04-29 2014-06-10 Yahoo! Inc. Methods for web site analysis
US20120166439A1 (en) * 2010-12-28 2012-06-28 Yahoo! Inc. Method and system for classifying web sites using query-based web site models
CN103678384A (zh) * 2012-09-18 2014-03-26 鸿富锦精密工业(深圳)有限公司 顺序索引生成系统及方法
TWI650656B (zh) 2017-05-26 2019-02-11 虹光精密工業股份有限公司 於電腦系統搜尋影像檔案之方法、影像檔案搜尋裝置以及電腦系統
CN110858367A (zh) * 2018-08-24 2020-03-03 北京京东尚科信息技术有限公司 销售信息存储方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5655080A (en) * 1995-08-14 1997-08-05 International Business Machines Corporation Distributed hash group-by cooperative processing
US6151643A (en) * 1996-06-07 2000-11-21 Networks Associates, Inc. Automatic updating of diverse software products on multiple client computer systems by downloading scanning application to client computer and generating software list on client computer
US6260036B1 (en) * 1998-05-07 2001-07-10 Ibm Scalable parallel algorithm for self-organizing maps with applications to sparse data mining problems
US6742023B1 (en) * 2000-04-28 2004-05-25 Roxio, Inc. Use-sensitive distribution of data files between users
CA2404319A1 (en) * 2000-03-31 2001-10-11 Andrei Mikheev Method and system for gathering, organizing, and displaying information from data searches
WO2002003256A1 (en) * 2000-07-05 2002-01-10 Camo, Inc. Method and system for the dynamic analysis of data
US6874019B2 (en) * 2001-03-08 2005-03-29 International Business Machines Corporation Predictive caching and highlighting of web pages
US6839769B2 (en) * 2001-05-31 2005-01-04 Intel Corporation Limiting request propagation in a distributed file system
US7440994B2 (en) * 2001-07-06 2008-10-21 Intel Corporation Method and apparatus for peer-to-peer services to shift network traffic to allow for an efficient transfer of information between devices via prioritized list
US7146359B2 (en) * 2002-05-03 2006-12-05 Hewlett-Packard Development Company, L.P. Method and system for filtering content in a discovered topic
US7017186B2 (en) * 2002-07-30 2006-03-21 Steelcloud, Inc. Intrusion detection system using self-organizing clusters
US7096464B1 (en) * 2002-12-02 2006-08-22 Sap Aktiengesellschaft Software update method and apparatus

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015036979A (ja) * 2013-08-15 2015-02-23 ダッソー システムズ シムリア コーポレイション パターン認識型データ入力および検索
US10229179B2 (en) 2013-08-15 2019-03-12 Dassault Systèmes Simulia Corp. Pattern-enabled data entry and search

Also Published As

Publication number Publication date
US20040130569A1 (en) 2004-07-08
CN100449534C (zh) 2009-01-07
EP1400903A1 (en) 2004-03-24
CN1495647A (zh) 2004-05-12

Similar Documents

Publication Publication Date Title
US7502780B2 (en) Information storage and retrieval
JP4776894B2 (ja) 情報検索方法
JP4711385B2 (ja) 情報処理
JP4569955B2 (ja) 情報格納及び検索方法
JP5309155B2 (ja) イメージ検索における対話型概念学習
EP1426882A2 (en) Information storage and retrieval
JP2008276768A (ja) 情報検索装置及び方法
US7627820B2 (en) Information storage and retrieval
JP2006127484A (ja) 情報処理方法
JP2004110834A (ja) 情報記憶検索システム及び方法
US20040107195A1 (en) Information storage and retrieval

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060822

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080415

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090526

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100104

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100107

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100129

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100205

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100309