JP2004110834A

JP2004110834A - 情報記憶検索システム及び方法

Info

Publication number: JP2004110834A
Application number: JP2003328497A
Authority: JP
Inventors: David William Trepess; トレペス、デヴィッド　ウィリアム; Jonathan Richard Thorpe; ソープ、ジョナサン　リチャード
Original assignee: Sony United Kingdom Ltd
Current assignee: Sony Europe BV United Kingdom Branch
Priority date: 2002-09-19
Filing date: 2003-09-19
Publication date: 2004-04-08
Also published as: US20040130569A1; CN100449534C; EP1400903A1; CN1495647A

Abstract

【課題】本発明は、インターネット等のネットワーク上で情報検索システムを動作させる、効率的かつ簡易な方法を提供する。
【解決手段】異なる情報項目群が、前記情報項目の相互類似性によりノード配列中のそれぞれのノードにマッピングされるよう処理することにより、類似の情報項目が前記ノード配列の類似する位置のノードにマッピングされる情報検索システムは、データネットワークと、前記データネットワークに接続された情報検索クライアントシステムと、前記データネットワークに接続された１つ以上の情報項目記憶ノードとを具備し、情報項目記憶ノードは、複数の情報項目を記憶するための記憶手段と、その情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介してクライアントシステムに送信するためのインデックス化手段とを具備し、前記クライアントシステムは、記憶ノードの前記インデックス化手段から受信したデータに応答して、前記受信データにより表現される各情報項目に対して、ノード位置を生成するための手段を備えている。
【選択図】　図１２

Description

　本発明は、情報の記憶及び検索システム及び方法に関する。

　キーワードをもとに検索を行い、情報（例えば文書、画像、電子メール、特許、インターネットコンテンツ又は音声／映像コンテンツ等のメディアコンテンツ）を探し出すためのシステムが多数確立されている。例として、「Google^ＴＭ（商標）」又は「Yahoo^ＴＭ（商標）」が提供するインターネット上の検索「エンジン」等が挙げられる。検索エンジンでは、キーワードを手掛かりに検索が行われ、認識された関連性の順に、検索エンジンがランク付けした結果のリスト（一覧）が提示される。

大量文書コレクションの自己組織化（Self Organization of a Massive Document Collection）、 Kohonen et al,IEEE Transactions on Neural Networks, Vol. 11, No. 3, May 2000, pages 574-585 ランダムマッピングによる次元圧縮（Dimensionality Reduction by Random Mapping）: Fast Similarity Computation for Clustering", Kaski, Proc IJCNN, pages 413-418, 1998

　しかしながら、しばしば大規模コンテンツコレクションといわれる大量のコンテンツを含むシステムにおいては、比較的短い検索「ヒット」一覧を得るための効果的な検索質問を工夫することは難しい。例えば、本明細書作成時に、キーワード「大規模文書コレクション」を入力してGoogleで検索したところ、ヒット数は、２４３０００件であった。インターネットに記憶されるコンテンツ量が時間とともに増えることを考えると、その後再検索したとすれば、ヒット数は更に増加したである。このようなヒット件数の一覧をチェックするには、膨大な時間を要する。

　一般に、大規模コンテンツコレクションがさほど利用されない理由として以下の点が挙げられる。
・ユーザは、関連コンテンツがあることを知らない。
・ユーザは、関連コンテンツがあることは知っているが、どこにあるかを知らない。
・ユーザは、コンテンツがあることは知っているが、それが関連するものであることを知らない。
・ユーザは、関連コンテンツがあること、そしてそれを探す方法は知っているが、そのコンテンツを探すのに時間がかかる。

　従来は、所謂自己構成マップ（Self-Organization Maps：以下、ＳＯＭともいう。）を用いる手法が開示されている（例えば、非特許文献１参照）。これらのＳＯＭは、所謂教師なき自己学習ニューラルアルゴリズムを利用するものであり、これらのアルゴリズムにおいては、各文書の特性を表現する「特徴ベクトル（Feature Vector：以下、ＦＶと略する場合もある）」が、ＳＯＭのノードにマッピングされている。

　非特許文献１では、第１のステップとして、文書テキストを前処理し、次いで、同前処理後の各文書から特徴ベクトルが導かれる。１つの形態として、大きな単語辞書中の各単語の出現頻度を示すヒストグラムが考えられる。そのヒストグラムにおける各データ値（すなわち、辞書中のそれぞれの単語の各出現頻度）は、ｎ値ベクトル中の１つの値となる。ここで、ｎは、辞書中の候補単語総数（この論文で説明されている例では、４３２２２語）である。ｎベクトル値に重みをつけて、一定の単語について、その関連性又は特異性を強調したりすることができる。

　次いで、ｎ値ベクトルは、より小さい次元のベクトル（すなわちｎと比べてかなり小さい値の数ｍ（文中の例では、５００））を有するベクトルにマッピングされる。このマッピングは、上述のベクトルに、乱数配列により構成される（ｎ×ｍ）の「プロジェクション行列」を乗算することにより実現される。この手法によれば、次元圧縮されたどの２つのベクトルをとっても、それぞれ対応する２つの入力ベクトルと略同一のベクトルの内積（dot product）を有する、より小さい次元のベクトルが生成される。このベクトルマッピング処理は、例えば、非特許文献２で説明されている。

　次元圧縮されたベクトルは、次いで、各ベクトルを１つの「モデル（他のベクトル）」と乗算する処理により、ＳＯＭ上のノード（ニューロンともいう）にマッピングされる。これらモデルは、学習プロセスにより生成される。この学習プロセスは、他のベクトルを、相互類似性によりＳＯＭ上に自動的に配列するものであり、その配列は、一般に、２次元ノード格子として表現される。これは、非自明プロセスであり、コホネン（Kohonen）等は、７００００００弱の文書数を有する文書データベースを処理するのに、６個のプロセッサからなる８００ＭＢのメモリを有するコンピュータ上で、６週間を費やした。最後に、ＳＯＭを構成するノード格子が表示され、ユーザは、マップ中のあちこちの領域を拡大して１つのノードを選択することができ、ユーザがノードを選択すると、ユーザインタフェースにより、そのノードにリンクされた文書を含むインターネットのページへのリンクが提供される。

　本発明は、インターネット等のネットワーク上で情報検索システムを動作させる、効率的かつ簡易な方法を提供する。

　本発明に係る情報検索システムは、異なる情報項目群が、情報項目の相互類似性により、ノード配列中の各ノードにマッピングされることにより、類似の情報項目がノード配列中の類似する位置のノードにマッピングされる情報検索システムにおいて、データネットワークと、データネットワークに接続された情報検索クライアントシステムと、データネットワークに接続された１つ以上の（好ましくは、２つ以上の）情報項目記憶ノードとを具備する。その情報項目記憶ノードは、複数の情報項目を記憶するための手段と、その情報項目記憶ノードに記憶された情報項目から導かれるデータを、データネットワークを介して、情報検索クライアントシステムに送信するためのインデックス化手段とを具備する。情報検索クライアントシステムは、その情報項目記憶ノードのインデックス化手段から受信したデータに応答して、受信データにより表現される各情報項目に対して、ノード位置を生成するための手段を具備する。

　本発明に係る情報検索システムは、異なる情報項目群が、情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされることにより、類似する情報項目はノード配列の類似した位置のノードにマッピングされる情報検索システムにおいて、ノードの少なくとも一部をユーザ表示装置の表示領域内に表示点の２次元配列として表現して表示するグラフィックユーザインタフェースと、表示領域に２次元領域を指定する制御手段と、表示領域の２次元領域に含まれる表示点を検出する検出手段とを備える。グラフィックユーザインタフェースは、表示領域の２次元領域内に表示される表示点に対応するノードにマッピングされる情報項目を表現するデータ一覧を表示することを特徴とする。

　好ましくは、情報項目は各情報項目から引き出される特徴ベクトルに基づいて配列のノードにマッピングされる。

　また、本発明に係る情報検索システムは情報項目の特徴ベクトルは、情報項目内での情報特徴の各グループの発生頻度群を表現する。

　更に、情報項目はテキスト情報を含み、情報項目の特徴ベクトルは、情報項目内でのワード群のそれぞれの発生頻度群を表現する。

　好ましくは、本発明に係る情報検索システムは、情報項目はテキスト情報を含み、ノードはテキスト情報の少なくとも一部の相互類似性によってマッピングされることを特徴とする。

　また、情報項目は、情報項目群から所定の閾値を超える頻度で発生するワードを除外することによってマッピングのための前処理を受ける。

　更に、情報項目は、情報項目群から所定の閾値を下回る頻度で発生するワードを除外することによってマッピングのための前処理を受ける。

　本発明に係る情報検索システムは、更に、情報項目のワードに関連した検索を実行する検査手段を更に備え、検索手段及びグラフィックユーザインタフェースは、検索によって選択された情報項目に対応する表示点のみを表示するために協力するように配列される。

　また、好ましくは、情報項目と配列のノードとの間のマッピングはジッター成分を含めることで略同一の情報項目は、配列内の隣接しながら異なるノードにマッピングされる傾向をもたせる。

　更に、本発明に係る情報検索システムは、データ一覧から１つ以上の情報項目を選択する制御手段を更に備え、グラフィックユーザインタフェースは制御手段によって選択された情報項目に対応する表示点の表示領域内の表示方法を変更するように操作可能であることを特徴とする。

　また、本発明に係る情報検索システムは、好ましくは、グラフィックユーザインタフェースは、一覧内で選ばれた情報項目に対応する表示点を、異なった色及び／又は強度で、表示するよう動作できることを特徴とする。

　本発明に係る情報記憶システムは、異なる情報項目群が、情報項目の相互類似性によりノード配列中のそれぞれのノードにマッピングされることにより、類似の情報項目がノード配列の類似する位置のノードにマッピングされる情報記憶システムにおいて、各情報項目から導かれる特徴ベクトルを生成するための手段と、ノード配列中のノードに各特徴ベクトルをマップするための手段とを具備する情報記憶システムであって、特徴ベクトルは、情報特徴群の各情報特徴の、その情報項目内における、出現頻度の集合を表現し、情報項目と配列中のノードとの間のマッピングは、略同一の情報項目が配列中の近接してはいるが異なるノードにマッピングされるようジッター成分を含むことを特徴とする。

　また、本発明に係る情報記憶システムは、新規受信情報項目をノード配列中のノードにマップするための手段と、新規受信情報項目がそのようにマップされたときに、マッピング誤差を検出するための手段と、マッピング誤差が閾値誤差量を超えたことを検出したことに応答して、情報項目群と新規受信情報項目のリマッピングを開始するための手段とを具備する。

　本発明に係る情報記憶法方は、異なる情報項目群が、情報項目の相互類似性によりノード配列中のそれぞれのノードにマッピングされるよう処理することにより、類似の情報項目がノード配列の類似する位置のノードにマッピングされる情報記憶方法において、各情報項目から導き出された特徴ベクトルを生成するためのステップと、ノード配列中のノードに各特徴ベクトルをマップするためのステップとを含む情報記憶方法あって、特徴ベクトルは、情報特徴群の各情報特徴の、その情報項目内における、出現頻度の集合を表現し、情報項目と配列中のノードとの間のマッピングは、略同一の情報項目が配列中の近接してはいるが、異なるノードにマッピングされるようジッター成分を含むことを特徴とする情報記憶方法。

　また、本発明に係る情報検索法方は、異なる情報項目群が、情報項目の相互類似性によりノード配列中のそれぞれのノードにマッピングされるよう処理することにより、類似の情報項目がノード配列の類似する位置のノードにマッピングされる情報検索方法において、ユーザディスプレイ上の表示領域内の表示点の２次元表示配列として、少なくとも幾つかのノードの表現を表示し、ユーザコントロールにより表示領域の２次元領域を画定し、表示領域の２次元領域内にある表示点を検出し、表示領域の２次元領域内に表示される表示点に対応するノードにマッピングされる情報項目である、情報項目を表現するデータの一覧を表示することを特徴とする。

　本発明によれば、効率的かつ簡易な方法で、インターネット等のネットワーク上で情報検索システムを動作させることができる。

　なお、当業者であれば、本明細書において、「リスト」という単語が通常使用される範囲内において、「情報を表現するデータ」は、それがフル表示に適したサイズや性質を有しているのであれば、項目そのもの、又は項目を示すデータであり得ることは理解される。

　図１は、汎用コンピュータ１０に基づく情報記憶及び検索システムの構成を示す概略図である。汎用コンピュータ１０は、プログラムやデータ用のディスク記憶装置３０とイーサネット（登録商標）ワークやインターネット等のネットワーク５０に接続されたネットワークインタフェース４０とを含むプロセッサユニット２０と、ディスプレイ装置６０等の表示装置と、キーボード７０と、マウス８０等のユーザ入力装置とを有する。この汎用コンピュータ（以下、情報記憶及び検索システムともいう。）１０は、ディスク記憶装置３０に記憶されて、例えば、ネットワーク５０、図示しない着脱可能なディスク、又はディスク記憶装置３０に予め記憶された形態で供給されるプログラムの制御によって動作する。

　情報記憶及び検索システム１０は、２つの一般モードで動作する。第１のモードでは、情報項目（例えば、テキスト情報）の集合（情報項目群）が、ディスク記憶装置３０、又はネットワーク５０を介して接続されたネットワークディスク駆動装置上に蓄積されて、検索用にソート、インデックス化される。第２のモードは、このインデックス化され、ソートされたデータに対して実際の検索を行う動作である。

　本発明の実施の形態は、各種情報項目に対して適用可能である。適切な適用対象となる情報項目を一部列挙すると、特許、映像素材、電子メール、プレゼンテーション資料、インターネットコンテンツ、放送コンテンツ、ビジネスレポート、音声素材、グラフィックやクリップアート、写真等、又はこれらいずれかの組み合わせ、若しくは混合が含まれる。本明細書では、テキスト情報項目、又は少なくともテキストコンテンツ若しくはそれに類するものを含む情報項目について述べることとする。したがって、例えば、音声及び／又は映像素材等の１つの放送コンテンツは、その素材をテキストとして定義するための、関連する「メタデータ」を有しているものとする。

　情報項目は、従来の方法によりディスク記憶装置３０に格納される。好ましくは、これらの情報項目は、個々の項目をより簡易に検索し、インデックス化することを可能とするデータベース構造の一部として記憶されるが、必ずしもこのように構成しなければならないということではない。一旦情報や項目がこのように記憶されると、検索用にそれらを編集する処理が行われるが、その処理を、図２に概略的に示す。

　なお、インデックス化された情報データは、必ずしもローカルなディスク記憶装置３０に記憶される必要はない。情報データは、ネットワーク５０を介して汎用コンピュータ１０に接続された遠隔のディスク駆動装置に記憶することもできる。他の方法として、情報は、例えば、インターネット上の各種サイトに分散して記憶してもよい。インターネット又はネットワークの異なったサイトで情報が記憶される場合は、第２のレベルの情報記憶及び検索システムを用いて、その遠隔情報に対する「リンク（例えば、ＵＲＬ）」をローカルに記憶し、関連サマリー、要約、又はそのリンクと関連したメタデータ等とともに記憶することができる。したがって、遠隔に保持された情報は、ユーザが（例えば、後述する結果一覧領域２６０から）関連リンクを選択しない限りアクセスされない。但し、以下の技術的説明においては、遠隔に保持された情報、又は要約／サマリー／メタデータ、若しくはリンク／ＵＲＬは「情報項目」として考慮され得る。

　換言すれば、「情報項目」とは、正式に定義すると、特徴ベクトルが導かれるもととなる項目であって、自己構成マップ（Self-Organization Maps：以下、ＳＯＭという。）に対し、以下に下記説明するマッピングを行うための処理の対象となる項目である。以下に説明する結果一覧領域２６０に示されるデータは、（ローカルに保持され、表示に便利な程度の長さであれば）情報項目そのもの、又はメタデータ、ＵＲＬ、要約、キーワード群、代表的なキースタンプ画像等の１つ以上の、情報項目を表現し及び／又は指示する、データである。これは、常にではないが、しばしば、項目群を「表現するデータ」を一覧化する「リスト」動作に特有のものである。

　本発明の形態による他の実施例においては、情報項目は、研究チームや法律事務所等の、ネットワーク化されたワークグループ上に記憶することができる。複合型の方法では、ローカルに記憶した情報項目、及び／又はローカルエリアネットワーク上に記憶した情報項目、及び／又はワイドエリアネットワーク上に記憶した情報項目を扱うことになる。この場合、本情報記憶及び検索システムは、他者による類似の著作物を探すのに適している。例えば、大規模な多国籍研究開発機関においては、類似の研究が、以下に説明するＳＯＭ中の類似の出力ノードにマッピングされることになる。又は、新規テレビ番組が企画されている場合においては、本情報記憶及び検索システムは、内容が類似する過去の番組を検出して、その独自性をチェックするために使用することができる。

　なお、図１の汎用コンピュータ、すなわち情報記憶及び検索システム１０は、インデックス化された情報項目を使用し得るシステムの一例にすぎない。最初の処理段階（インデックス化）は、適切な処理能力を有する非携帯型コンピュータで実行されることが想定されているが、後の段階である情報アクセス処理は、パーソナルデジタルアシスタント（ＰＤＡ）等の携帯型機器、ノートパソコン等の携帯型コンピュータ、又は携帯電話機、ビデオ編集装置、ビデオカメラ等の装置上でも実行可能である。一般には、表示部を有するものであれば、実際は如何なる装置を情報アクセス段階の処理に用いることができる。

　これらの処理は、情報項目数に限定されるものではない。

　ここで、情報項目の自己構成マップ（ＳＯＭ）表現の生成処理について、図２乃至６を参照して説明する。図２は、ＳＯＭマッピング処理に先行する、所謂「特徴抽出」処理を説明する概略フローチャートである。

　特徴抽出とは、元のデータを抽象的表現に変容させる処理である。これらの抽象的表現は、次いで、パターン分類、クラスタリングや認識等の処理に用いられる。これらの処理では、所謂「特徴ベクトル（Feature Vector）」が生成される。特徴ベクトルとは、ある文書内で用いられる用語の頻度の抽象的表現をいう。

　特徴ベクトルを作成して情報を可視化する処理は、以下のステップを含む。
・用語の「文書データベース辞書」を作成する。
・その「文書データベース辞書」に基づき各個別文書の「用語頻度ヒストグラム」を作成する。
・ランダムマッピングを用いて「用語頻度ヒストグラム」の次元圧縮を行う。
・情報空間の２次元可視化表示を作成する。

　これらのステップをより詳細に説明すると、各文書（情報項目）１００を、順に開く。ステップ１１０で、全ての「ストップワード」を文書から除去する。ストップワードとは、予め作成された一覧に列挙された極めて一般的な単語であって、例えば「ａ」、「the」、「however」、「about」、「and」、「the」等の冠詞、前置詞、代名詞、接続詞等である。これらの単語は極めて一般的であるので、ある程度の長さの文書では、平均して、同程度の頻度で出現する可能性がある。その結果、特定の文書の内容を特徴付けようとする場合に殆ど影響がなく、したがって、除去しても支障がない。

　ストップワードを除去した後、ステップ１２０で、残った単語について語幹検出が行われる。これは、１つの単語の異なる綴り字の単語の共通語幹を探す作業である。例えば、「thrower」、「throws」、「throwing」という単語には、「throw」という共通語幹がある。

　文中に存在する（「ストップ」ワードを除いた）共通語幹を有する単語の「辞書」を維持する。新たな単語が現れると、辞書に追加するとともに、全文書コレクション（情報項目群）中にその単語が現れた回数の累計カウントが記録される。

　その結果、上述の集合中の全文書中に用いられている用語の一覧が、その出現頻度とともに得られる。出現頻度が高すぎるか、又は低すぎる単語は無視され、例えば、辞書から除去され、後続する分析処理の対象から外される。出現頻度の低すぎる単語は、文書群により表現されるドメインを構成するか、又はそれとは関係のない誤記された単語等である。出現頻度が高すぎる単語は、集合内の文書を区別するためには余り適切ではない。例えば、用語「News」は、放送関係文書のテスト群中の全文書の約３分の１に使われているのに対して、単語「football」は、同テスト群中の文書の約２％にしか使われていない。したがって、「football」は、「News」に比べると、文書内容を特徴付けるのに、より適した用語と考えられる。逆に、「fottball（「football」の誤記）」は、全文書群中に一度しか出現せず、出現頻度が低すぎるということで廃棄される。そのような単語は、平均出現頻度に対して２標準偏差小さい値（平均出現頻度−２σ）よりも低いか、又は平均出現頻度に対して２標準偏差大きい値（平均出現頻度＋２σ）よりも高いものである。

　次いで、ステップ１３０で、特徴ベクトルが生成される。

　これを行うために、上述の集合中の文書毎に、用語頻度ヒストグラムが生成される。用語頻度ヒストグラムは、（その文書群に属する）辞書中に存在する単語が１つの個別の文書中で出現する回数をカウントして作成される。辞書中の大部分の用語が１つの文書中に存在することはないので、これらの用語の頻度は、ゼロである。２つの異なった文書について、用語頻度ヒストグラムの具体例を図３（ａ）、３（ｂ）に示す。

　これらの具体例から、ヒストグラムがどのようにして文書内容を特徴付けているかが分かる。これらの具体例を分析すると、文書１では、文書２より、用語「ＭＰＥＧ」と「映像」がより頻繁に現れ、文書２では「メタデータ」がより頻繁に現れる。ヒストグラムの項目（エントリー）の多くは、文中に対応する単語が存在しないためにゼロとなっている。

　現実の例では、実際の用語頻度ヒストグラムは、これらの具体例に比べて、より多くの用語を含んでいる。通常、ヒストグラムは、５００００を超える異なった用語の頻度を示し、そのヒストグラムの規模は５００００を超えるものとなる。ＳＯＭ情報空間を構築するために用いるとすれば、このヒストグラムの規模をかなり圧縮しなければならない。

　用語頻度ヒストグラムの各エントリーは、その文書を表現する１つの特徴ベクトルにおける対応する１つの値として用いられる。この処理の結果は、文書コレクション中の各文書用の辞書によって特定された全用語の頻度を含む（５００００×１）ベクトルである。このベクトルは、殆どの値は通常ゼロであり、他の場合でも通常１というような非常に低い値であるので、スパース（疎）であるといえる。

　ステップ１４０で、特徴ベクトルのサイズ、すなわち用語頻度ヒストグラムの規模を圧縮する。ヒストグラムの規模を圧縮する処理として２つの方法が提案されている。
ｉ）ランダムマッピング（Random Mapping）
　これは、ヒストグラムを乱数の行列により乗算する手法である。この手法は、演算処理的に安価である。
ｉｉ）Latent Semantic Indexing
　これは、ヒストグラムの規模を、文中で同時に現れる確率が高い用語群を探すことにより、圧縮する手法である。これらの単語群は、次いで、１つのパラメータに縮減される。この手法は、演算処理的に高価である。

　本発明の実施の形態では、用語頻度ヒストグラムの規模を圧縮する方法として、上述の参照非特許文献２で詳説される「ランダムマッピング」を選択した。ランダムマッピングは、ヒストグラムの規模に乱数行列を乗算することにより、ヒストグラムの規模圧縮に成功している。

　図４（ａ）に概略的に示される「元の」特徴ベクトルは、上述したように、通常、５００００個程度のサイズを有する疎ベクトルである。このサイズを、約２００（図４（ｂ）を参照）に圧縮でき、かつ、その特徴ベクトルの相対的特徴を維持することができる。すなわち、同様に処理された他の特徴ベクトルに対する相対角度（ベクトルの内積（dot product））関係というような相対的特徴を維持できるということである。この相対的特徴が維持できていればよく、特定規模の直交ベクトルの数は限られているが、略直交するベクトルの数ははるか大きいからである。

　事実、ベクトルの規模が大きくなるにつれ、ランダムに生成されたベクトルの所与の群は、どれをとってみても、略互いに直交する。この性質は、乱数行列と乗算されたベクトルの相対的方向が維持されることになるということを意味する。このことは、ランダムマッピングの前と後のベクトルの類似性を、それらの内積に着目して示すことにより証明できる。

　５００００の値から２００の値に疎ベクトルを圧縮することにより、その相対的類似性が維持されることは、実験的に示すことができる。しかしながら、このランダムマッピングは、完全ではないが、簡便な方法で文書の内容を特徴付けるという目的のためには十分である。

　文書コレクション用の特徴ベクトルが生成され、コレクションの情報空間が画定されると、ステップ１５０で、１つの２次元ＳＯＭに射影され、セマンティックマップが作成される。以下、コホネン（Kohonen）の自己構成マップを用いて、これらの特徴ベクトルをクラスタリングすることにより、２次元的にマッピングする処理について、図５を参照しながら説明する。

　コホネンの自己構成マップは、文書のそれぞれについて生成された特徴ベクトルをクラスタ化し、構成するために用いられる。

　自己構成マップは、入力ノード１７０と、２次元平面１８５として描かれた、ノードの２次元配列又は格子中の出力ノード１８０とにより構成される。入力ノード１７０は、マップをトレーニングするために使用される特徴ベクトルの値と同じ数だけある。マップ上の各出力ノード１８０は、重み付き接続１９０（接続毎に１重み）によって入力ノード１７０に接続されている。

　先ず、これらの重みのそれぞれはランダムな値に設定され、次いで、対話処理を介して、これらの重みが「トレーニング」される。マップのトレーニングとは、各特徴ベクトルをマップの入力ノードに反映させることにより行われる。「最近接」出力ノードは、入力ベクトルと各出力ノードの重みとの間のユークリッド距離を演算することにより算出される。

　最近接ノードは、「勝利者」と称され、このノードの重みが、これら重みが入力ベクトルに「接近」するように、これら重みの値を僅かに変えて、トレーニングされる。勝利者ノードに加え、勝利者ノードの近隣ノードもトレーニングされ、前記入力ノードに僅かに接近させる。

　マップが、一旦トレーニングされると、ノードの２次元マップ中の入力空間の大方の位相を維持することができるようになるのは、単に１つのノードの重みだけではなく、マップ上の１つの領域にわたるノードの重みをトレーニングするこの処理を行うからである。

　一旦マップがトレーニングされると、文書のそれぞれがマップに提示され、どの出力ノードがその文書の入力特徴ベクトルに最も近いかを知ることができる。重みが特徴ベクトルと同じになるということは恐らくなく、ある特徴ベクトルとマップ上のその最近接ノードとの間のユークリッド距離は、その「量子化誤差」として知られている。

　文書毎に特徴ベクトルをその位置を知るためにマップに提示すると、文書毎にｘ，ｙマップ位置が生成される。これらのｘ，ｙ位置は、文書ＩＤとともにルックアップテーブルに置かれ、文書間の関係を視覚化するために使うことができる。

　最後に、ステップ１６０で、ジッター成分が付加される。これについては、以下、図６を参照ながら説明する。

　上述の処理で問題となりうるのは、２つの同一又は略同一の情報項目が、ＳＯＭのノード配列中の同一ノードにマップされてしまう場合がある点である。この問題は、データ処理を困難にするものではないが、後述する表示画面上でのデータの視覚化に資するものではない。特に、データが表示画面上に視覚化されたとき、ある特定ノードにおいて、非常に類似する複数の項目を１つの項目と区別できれば便利であることは知られている。したがって、「ジッター」成分が、各情報項目がマップされたノード位置に付加されるのである。ジッター成分は、ノード分離の±１／２のランダム加算である。したがって、図６を参照すると、実際は図６の破線により画される領域２１０内のあらゆるノード位置にマップされてもよいように、マッピング処理の結果出力ノード２００が選択される情報項目にはジッター成分が付加される。

　したがって、情報項目は、ＳＯＭ処理の「出力ノード」以外のノード位置であって、図６の平面上の位置にマッピングされるとすることができる。

　他の方法としては、上述したＳＯＭマッピング処理における「出力ノード」を高密度化するものがある。この方法では、全く同一の情報項目同士を区別できるものではないが、完全とはいえない略同一の情報項目を、異なってはいるが、近接した出力ノードにマップすることができる。

　図７は、あるＳＯＭにソートされたデータが、検索動作用にグラフィカルに示されたディスプレイ装置６０の表示画面上の表示を概略説明するものである。この表示画面には、検索質問領域２５０、結果一覧領域２６０、ＳＯＭのノード表示領域２７０が表示されている。

　動作中は、ユーザが検索質問領域２５０にキーワード検索質問を入力する。次いで、ユーザは検索を開始する。例えばキーボード７０上のエンタを押したり、マウス８０を使って画面の「ボタン」を選択して、検索を開始する。次いで、検索質問領域（ボックス）２５０中のキーワードが、標準のキーワード検索手法を用いて、データベース中の情報項目と比較される。これにより、結果の一覧が生成され、各結果は、結果一覧領域２６０中のそれぞれのエントリー２８０として示される。また、各結果は、ノード表示領域２７０上に、対応する表示点として表示される。

　ＳＯＭ表現を生成するために用いられるソート処理は、ＳＯＭ中において相互に類似する情報項目同士をグループ化する傾向があるので、検索質問の結果は、クラスタ２９０等のクラスタの中に落ち着く傾向がある。なお、ここで、ノード表示領域２７０上の各点は、結果一覧領域２６０中の結果の１つと関連付けられたＳＯＭ中の各エントリーに対応している。そして、ノード表示領域２７０内の表示点の表示位置は、ノード配列内のノードの配列位置に対応している。

　図８は、ヒット数（結果一覧領域２６０中の結果）を減少させるための手法を概略説明するものである。ユーザはマウス８０を使って、関心ノードに対応する表示点の集合を囲むボックス３００を描く。結果一覧領域２６０においては、ボックス３００内の点に対応する結果だけが表示される。これらの結果が関心のものでないときは、ユーザは、異なった表示点の群を囲む別のボックスを描けばよい。

　なお、結果一覧領域２６０には、ボックス３００内に表示点が表示され、かつ検索質問領域２５０中の検索基準を満足した結果に対する一覧エントリーが表示される。ボックス３００は、ノード配列中の密ノードに対応する他の表示位置を囲むものでもよいが、これらが検索基準を満足しなかった場合は、それらは表示されず、したがって、結果一覧領域（ボックス）２６０に示される結果の副群を構成しない。

　図９は、結果一覧領域２６０中のあるエントリーのノード位置を検出するための手法を説明するものである。グラフィックユーザインタフェースの分野における、特に所謂「Windows（登録商標）」オペレーティングシステム（ＯＳ）を用いたコンピュータにおける標準的な手法を用いて、ユーザは、結果一覧中の１つ以上のエントリーを「選択」することができる。図９に示す具体例においては、この選択は、関連結果に関連付けられた「チェックボックス」３１０をマウスでクリックして行う。しかし、クリックして結果全部をハイライト表示したり、又は関連結果をダブルクリックしたり等しても同様に行うことができる。ある結果が選択されると、ノード配列中の各ノードを表現する対応した表示点が、異なった方法で表示される。これについては、結果一覧領域２６０中の選択結果３３０に対応する２つの表示点３２０として、概略表示する。

　異なった表示としては、点をより大きくしたり、あるいは同一の表示色で強調表示したり、あるいは別の色にしたり、あるいはこれら種々の属性の組合せを用いてもよい。

　上述した処理（すなわち、ステップ１１０乃至１４０）を行い、次いで、その結果としての圧縮された特徴ベクトルを、「事前トレーニング」されたＳＯＭモデルに、すなわちマップの自己構成の結果得られたＳＯＭモデルの集合に適用することにより、いつでも、新しい情報項目をＳＯＭに追加できる。したがって、新規追加情報項目については、一般に、マップは「リトレーニング」されない。代わりに、全ての未修正ＳＯＭモデルに対しステップ１５０及び１６０の処理が行われるのである。新たな情報項目が追加される度にＳＯＭをリトレーニングすることは、演算処理コストが嵩むことのみならず、共通にアクセスされたマップ中の情報項目の相対的位置に慣れてくるユーザにとってもいささか不便である。

　しかしながら、リトレーニング処理が適当である場合もある。例えば、ＳＯＭが最初に生成されてから、新規用語（ニュースの新項目あるいは新技術分野等）が辞書に追加されても、既存の出力ノード集合に余りうまくマップされない場合がある。これは、新規受信情報項目が既存ＳＯＭにマッピングされるときに検出される所謂「量子化誤差」の増加として、検出される。本発明の実施の形態においては、量子化誤差は閾値誤差量と比較される。閾値誤差量より大きい場合は、（ａ）ＳＯＭを、その最初の全ての情報項目と生成以来追加された項目とを用いて、自動的にリトレーニングするか、又は（ｂ）ユーザに、適時、リトレーニング処理を開始するように促す。リトレーニング処理は、全ての関連情報項目の特徴ベクトルを用いて、ステップ１５０及び１６０を完全実行するものである。

　図１０は、映像取得及び／又は処理装置の例として小型ビデオカメラ５００を概略説明するものである。小型ビデオカメラ５００は、撮像装置５１０と、その付属レンズ５２０と、データ／信号処理装置５３０と、テープ記録装置５４０と、ディスク又は他のランダムアクセス記憶装置５５０と、ユーザ操作部５６０と、アイピース５８０付き表示装置５７０とを含んでいる。なお、従来の小型ビデオカメラのその他の特徴又はその他の手段（異なった記録媒体や異なった表示画面構成等）は、当業者には明らかである。使用について説明する。撮像された映像情報に関するメタデータがランダムアクセス記憶装置５５０に記憶され、ユーザ操作部５６０を使用して、上述したように、記憶データに関するＳＯＭを表示装置５７０上で閲覧し、制御することができる。

　図１１は、携帯データ処理装置の例として、パーソナルデジタルアシスタント（以下、ＰＤＡという。）６００を概略説明するものである。ＰＤＡ６００は、表示領域６２０とユーザ操作部を提供するタッチセンシティブ領域６３０とを含む表示画面６１０を、図示しないデータ処理及び記憶装置とともに備えている。なお、ＰＤＡについては、これら以外に、その他の手段や構成が可能であることは言うまでもない。ＰＤＡ６００は、上述したように、図１の情報記憶及び検索システムについて説明したように使用してよい。

　図１２は、ネットワーク化された情報記憶及び検索システムを概略説明するものである。この情報記憶及び検索システムは、前述した通り、ソフトウェア制御下で動作するものであってよい。

　図１の構成の機能とそれに続いて説明した内容は、ネットワーク化されたシステムの使用効率を高めるための特徴が付加された、ネットワーク化された情報記憶及び検索システムにおいて実現される。

　一般的には、動作は、クライアントシステム８００と１つ以上の記憶ノード８１０との間で分けて行われる。クライアントシステム８００と記憶ノード８１０は、インターネット接続８２０等のネットワーク化された接続により相互に接続されている。図１２では、各記憶ノード８１０とクライアントシステム８００間の接続を概略図示している。インターネットを含む多くのネットワーク構成では、観念的には、記憶ノード８１０同士を含む、そのネットワークに接続された全てのノード間を物理的に接続するが、図１２の接続は、異なるノード間の論理データ路を表現しようとしたものである。

　例えばGoogle^ＲＴＭ（登録商標）等のインターネット検索プロバイダ又は検索エンジン８３０は、クライアントシステム８００に論理的に接続されてもよい。

　クライアントシステム８００は、表示／ユーザインタフェースロジック８４０と、コンテンツ構成サービスロジック８５０と、インデックスサービスロジック８６０とから構成される。各記憶ノード８１０は、情報記憶装置（例えば、ディスク記憶装置）８７０と、オプションとしてのメタデータ抽出ロジック８８０と、インデックスエージェントロジック８９０とから構成される。検索エンジン８３０が保持する情報を除けば、記憶ノード８１０の情報記憶装置８７０は、本発明の実施の形態における情報項目の主要な保管場所である。なお、この構成は、本発明の実施形態による例のためにこのような構成にしたのであって、情報項目を「ローカル」、すなわちクライアントシステム８００側で記憶することにしてもよい。

　クライアントシステム８００は、前述した以下の機能を提供する。
・オプションとして、図２の機能とそれに続いて説明した内容、すなわちＳＯＭの生成（ＳＯＭ表現は他の場所で生成されることができたであるが）。
・図７乃至９の機能、すなわちＳＯＭ表現の表示とＳＯＭ表現を処理するユーザとのやりとりの一部又は全部。
・オプションとして、リトレーニング処理を開始する機能を含む、新規受信情報項目を「既にトレーニング」されたＳＯＭ表現に追加する機能の少なくとも一部。なお、ステップ１１０及び１２０等の処理は、クライアントシステム８００ではなく、記憶ノード８１０で行ってよい。

　基本的には、記憶ノード８１０のインデックスエージェントロジック８９０は、（例えばステップ１１０、１２０に対応するステップにより）データを、そのノードに記憶された情報項目に含まれるか、又は（例えば、少なくとも主に音声／映像素材から構成される情報項目に関して）メタデータ抽出ロジック８８０から導き出されたテキスト情報から得る。次いで、得られたデータは、クライアントシステム８００のインデックスサービスロジック８６０に転送される。この転送は、幾つかの方法のうちの１つ以上の方法により行うことができる。
・インデックスエージェントロジック８９０は、情報項目が新たに記憶されたか、又は新たに変更されたことの検出があったとき、その情報項目から導き出されたデータを転送することができる。
・インデックスエージェントロジック８９０は、クライアントシステム８００での検索質問（又は情報検索質問動作）に応答して、その記憶ノード８１０に保持された全ての情報項目から導き出されたデータを転送することができる。
・インデックスエージェントロジック８９０は、最後に転送したときから一定時間が経過したことに応答して、その記憶ノード８１０に保持された全ての情報項目から導き出されたデータを転送することができる。
・インデックスエージェントロジック８９０は、データがクライアントシステム８００に既に転送されたか、転送されていない情報項目のレジスタを維持することができる。クライアントシステム８００での検索質問（又は情報検索質問操作）に応答して、インデックスエージェントロジック８９０は、「未転送」データの一部又は全部を転送することができる。このように転送された情報項目は、その記憶ノード８１０のインデックスエージェントロジック８９０において「未転送」一覧から「転送済」一覧に移動される。

　クライアントシステム８００に転送されるデータは、例えば、以下の１つ以上のものが可能である。
（ａ）　情報項目そのもの
（ｂ）　情報項目から導き出されたメタデータ
（ｃ）　（ａ）又は（ｂ）に対して行われたステップ１１０の処理結果
（ｄ）　（ａ）又は（ｂ）に対して行われたステップ１２０の処理結果
（ｅ）　（ａ）又は（ｂ）から導き出された特徴ベクトル
　クライアントシステム８００では、（ａ）乃至（ｄ）のいずれかがインデックスエージェントロジック８９０から受信されると、コンテンツ構成サービスロジック８５０が特徴ベクトルを生成し、それから、ＳＯＭマップ位置を生成して、生成されたＳＯＭマップ位置は、情報項目の記憶場所を特定する情報項目の識別符号（ＵＲＬ又はＵＲI（universal resource indicator））とともにクライアントシステム８００に記憶される。（ｅ）が受信された場合は、ＳＯＭマップ位置が生成され、ＵＲＬ／ＵＲＩとともにクライアントシステム８００に記憶される。

　ユーザが質問を生成するときは、ユーザ操作（表示／ユーザインタフェースロジック８４０への入力）により、インデックスサービスロジック８６０に送られ、次いで、ネットワークに接続された記憶ノード８１０に配信される。それらの記憶ノード８１０は、上述したようにデータで応答して、データをＳＯＭ表現へと変容させてユーザに表示する。

　上述したような記憶ノードの代わりに、インテックスサービスロジックが、Google^ＲＴＭ等のインターネット検索エンジンから同様のデータを受信してよい。このデータは、既に説明した方法と同じ方法で処理される。検索エンジンからインデックスサービスへのデータ送信は、上述した方法のいずれかの方法により開始してよい。

情報記憶及び検索システムを概略説明するための図である。自己構成マップ（ＳＯＭ）の生成を示す概略フローチャートである。用語頻度ヒストグラムを概略説明する図である。元の特徴ベクトルを概略説明する図であり、（ａ）は圧縮されていない例、（ｂ）は圧縮された元の特徴ベクトルを概略説明する図である。ＳＯＭを概略説明する図である。ジッター処理を概略説明する図である。ＳＯＭにより表現される情報にアクセスするために、ユーザインタフェースを提供する表示画面を概略説明する図である。ＳＯＭにより表現される情報にアクセスするために、ユーザインタフェースを提供する表示画面を概略説明する図である。ＳＯＭにより表現される情報にアクセスするために、ユーザインタフェースを提供する表示画面を概略説明する図である。映像取得及び／又は処理装置の一例としての小型ビデオカメラを概略説明する図である。携帯データ処理装置の一例としてのパーソナルデジタルアシスタントを概略説明する図である。ネットワーク化された情報記憶及び検索システムを概略説明する図である。

符号の説明

　１０　汎用コンピュータ、２０　プロセッサユニット、３０　ディスク記憶装置、４０　ネットワークインタフェース、５０　ネットワーク、６０　ディスプレイ装置、７０　キーボード、８０　マウス

Claims

　異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされる情報検索システムにおいて、
　データネットワークと、
　前記データネットワークに接続された情報検索クライアントシステムと、
　前記データネットワークに接続された１つ以上の情報項目記憶ノードとを備え、
　前記情報項目記憶ノードは、複数の情報項目を記憶するための記憶手段と、前記情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介して前記情報検索クライアントシステムに送信するためのインデックス化手段とを含み、
　前記情報検索クライアントシステムは、前記インデックス化手段から受信したデータに応答して、前記受信データにより表現される各情報項目に対して、ノード位置を生成するための生成手段を含むことを特徴とする情報検索システム。
　前記インデックス化手段は、前記情報検索クライアントシステムにデータをバッチとして送信するように動作可能であり、
　前記バッチは、少なくとも、前記情報検索クライアントシステムにデータが予め送信されなかった情報項目記憶ノードに記憶された情報項目の一部から導き出されたデータを含むことを特徴とする請求項１に記載の情報検索システム。
　前記データのバッチは、前記情報検索クライアントシステムにデータが予め送信されなかった情報項目記憶ノードに記憶された情報項目から導き出されたデータを含むことを特徴とする請求項２に記載の情報検索システム。
　前記インデックス化手段は、前記情報検索クライアントシステムでの情報検索動作に応答して、前記情報項目記憶ノードに記憶された情報項目から導き出されたデータのバッチを前記情報検索クライアントシステムに送信するように動作可能であることを特徴とする請求項１乃至３のいずれか１項に記載の情報検索システム。
　前記インデックス化手段は、前記情報項目記憶ノードで変更又は新規に記憶された情報項目を検出し、前記検出に応答して、前記情報項目から導き出されたデータのバッチを前記情報検索クライアントシステムに送信するように動作可能であることを特徴とする請求項１乃至３のいずれか１項に記載の情報検索システム。
　前記データネットワークは、インターネットによるネットワークであることを特徴とする請求項１乃至５のいずれか１項に記載の情報検索システム。
　前記情報項目記憶ノードの１つ以上は、インターネット検索用サーバであることを特徴とする請求項６に記載の情報検索システム。
　前記情報項目は、少なくとも一部においてテキストであり、
　記憶された情報項目から導き出されたデータは、前記情報項目のテキスト内容の全てを含むことを特徴とする請求項１乃至７のいずれか１項に記載の情報検索システム。
　記憶された情報項目から導き出されたデータは、前記記憶された情報項目を示すテキストデータを含むことを特徴とする請求項１乃至７のいずれか１項に記載の情報検索システム。
　前記情報検索クライアントシステムは、ユーザ表示部上の表示領域内にある表示点の２次元表示配列の少なくとも一部を表現して表示するグラフィックユーザインタフェースを備えることを特徴とする請求項１乃至９のいずれか１項に記載の情報検索システム。
　前記情報検索クライアントシステムは、
　前記表示領域に２次元領域を指定する制御手段と、
　前記表示領域の前記２次元領域に含まれる前記表示点を検出する検出手段とを更に備えることを特徴とする請求項１０に記載の情報検索システム。
　前記グラフィックユーザインタフェースは、前記表示領域の前記２次元領域内に表示される前記表示点に対応するノードにマッピングされる情報項目を表現するデータ一覧を表示させるように動作可能であることを特徴とする請求項１１に記載の情報検索システム。
　前記情報検索クライアントシステムは、前記データ一覧から１つ以上の情報項目を選択する制御手段を更に備え、
　前記グラフィックユーザインタフェースは、前記制御手段によって選択された情報項目に対応する表示点の表示領域内の表示方法を変更するように動作可能であることを特徴とする請求項１２に記載の情報検索システム。
　情報項目から導き出されたデータは、前記情報項目の記憶箇所の識別手段を含むことを特徴とする請求項１乃至１３のいずれか１項に記載の情報検索システム。
　前記識別手段は、ＵＲＬ（Universal Resource Locator）を含むことを特徴とする請求項１４に記載の情報検索システム。
　異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は、前記ノード配列の類似した位置のノードにマッピングされる情報検索システムに使用され、情報項目記憶ノードから受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成するための生成手段を含む情報検索クライアントシステムにデータネットワークを介して接続される情報項目記憶ノードにおいて、
　複数の情報項目を記憶する記憶手段と、
　前記情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介して前記情報検索クライアントシステムに送信するインデックス化手段とを備える情報項目記憶ノード。
　異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされ、データネットワークを介して、複数の情報項目を記憶するための記憶手段と、記憶された情報項目から導き出されたデータを前記データネットワークを介して情報検索クライアントシステムに送信するためのインデックス化手段とを含む１つ以上の情報項目記憶ノードに接続される情報検索クライアントシステムにおいて、
　前記インデックス化手段から受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成するための生成手段を備える情報検索クライアントシステム。
　情報検索クライアントシステムを備えた携帯情報処理装置において、
　前記情報検索クライアントシステムは、異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされ、データネットワークを介して、複数の情報項目を記憶するための記憶手段と、記憶された情報項目から導き出されたデータを前記データネットワークを介して情報検索クライアントシステムに送信するためのインデックス化手段とを含む１つ以上の情報項目記憶ノードに接続される情報検索クライアントシステムであり、
　前記インデックス化手段から受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成するための生成手段を備える携帯情報処理装置。
　情報検索クライアントシステムを備えた映像取得及び／又は処理装置において、
　前記情報検索クライアントシステムは、異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされ、データネットワークを介して、複数の情報項目を記憶するための記憶手段と、記憶された情報項目から導き出されたデータを前記データネットワークを介して情報検索クライアントシステムに送信するためのインデックス化手段とを含む１つ以上の情報項目記憶ノードに接続される情報検索クライアントシステムであり、
　前記インデックス化手段から受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成するための生成手段を備える映像取得及び／又は処理装置。
　データネットワークと、前記データネットワークに接続された情報検索クライアントシステムと、前記データネットワークに接続された１つ以上の情報項目記憶ノードとを備えた情報検索システムにおいて、異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされる情報検索方法において、
　前記情報項目記憶ノードは、複数の情報項目を記憶し、前記データネットワークを介して、前記情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記情報検索クライアントシステムに送信し、
　前記情報検索クライアントシステムは、前記情報項目記憶ノードのインデックス化手段から受信したデータに応答して、前記受信されたデータにより表現される前記情報項目に対してノード位置を生成する情報検索方法。
　異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は、前記ノード配列の類似した位置のノードにマッピングされる情報検索システムに使用され、情報項目記憶ノードから受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成するための生成手段を含む情報検索クライアントシステムにデータネットワークを介して接続される情報項目記憶ノードの操作方法において、
　複数の情報項目を記憶し、
　前記情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介して前記情報検索クライアントシステムに送信する情報項目記憶ノードの操作方法。
　異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされ、データネットワークを介して、複数の情報項目を記憶するための記憶手段と、情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介して情報検索クライアントシステムに送信するためのインデックス化手段とを含む１つ以上の情報項目記憶ノードに接続される情報検索クライアントシステムの操作方法において、
　前記インデックス化手段から受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成する情報検索クライアントシステムの操作方法。
　データネットワークと、前記データネットワークに接続された情報検索クライアントシステムと、前記データネットワークに接続された１つ以上の情報項目記憶ノードとを備えた情報検索システムにおいて、異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされる情報検索方法をコンピュータで実現するための情報処理プログラムにおいて、
　前記情報項目記憶ノードは、複数の情報項目を記憶し、前記データネットワークを介して前記情報項目記憶ノードに記憶された情報項目から導き出されたデータを情報検索クライアントシステムに送信し、
　前記情報検索クライアントシステムは、前記情報項目記憶ノードのインデックス化手段から受信したデータに応答して、前記受信されたデータにより表現される前記情報項目に対してノード位置を生成する情報処理プログラム。
　異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は、前記ノード配列の類似した位置のノードにマッピングされる情報検索システムに使用され、情報項目記憶ノードから受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成するための生成手段を含む情報検索クライアントシステムにデータネットワークを介して接続される情報項目記憶ノードの操作方法をコンピュータで実現するための情報処理プログラムにおいて、
　複数の情報項目を記憶し、
　前記情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介して前記情報検索クライアントシステムに送信する情報処理プログラム。
　異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされ、データネットワークを介して、複数の情報項目を記憶するための記憶手段と、情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介して情報検索クライアントシステムに送信するためのインデックス化手段とを含む１つ以上の情報項目記憶ノードに接続される情報検索クライアントシステムの操作方法をコンピュータで実現するための情報処理プログラムにおいて、
　前記インデックス化手段から受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成する情報処理プログラム。
　情報処理プログラムを記憶したコンピュータが読みとり可能な記憶媒体において、
　前記情報処理プログラムは、データネットワークと、前記データネットワークに接続された情報検索クライアントシステムと、前記データネットワークに接続された１つ以上の情報項目記憶ノードとを備えた情報検索システムにおいて、異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされる情報検索方法をコンピュータで実現するための情報処理プログラムであり、
　前記情報項目記憶ノードは、複数の情報項目を記憶し、前記データネットワークを介して前記情報項目記憶ノードに記憶された情報項目から導き出されたデータを情報検索クライアントシステムに送信し、
　前記情報検索クライアントシステムは、前記インデックス化手段から受信したデータに応答して、前記受信されたデータにより表現される前記情報項目に対してノード位置を生成することを特徴とする記憶媒体。
　情報処理プログラムを記憶したコンピュータが読みとり可能な記憶媒体において、
　前記情報処理プログラムは、異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるそれぞれのノードにマッピングされるように処理することにより、類似する情報項目は、前記ノード配列の類似した位置のノードにマッピングされる情報検索システムに使用され、情報項目記憶ノードから受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成するための生成手段を含む情報検索クライアントシステムにデータネットワークを介して接続される情報項目記憶ノードの操作方法をコンピュータで実現するための情報処理プログラムであり、
　前記情報処理プログラムは更に複数の情報項目を記憶し、
　前記情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介して前記情報検索クライアントシステムに送信することを特徴とする記憶媒体。
　情報処理プログラムを記憶したコンピュータが読みとり可能な記憶媒体において、
　前記情報処理プログラムは、異なる情報項目群が、前記情報項目の相互類似性によってノード配列におけるノードにマッピングされるように処理することにより、類似する情報項目は前記ノード配列の類似した位置のノードにマッピングされ、データネットワークを介して、複数の情報項目を記憶するための記憶手段と、情報項目記憶ノードに記憶された情報項目から導き出されたデータを前記データネットワークを介して情報検索クライアントシステムに送信するためのインデックス化手段とを含む１つ以上の情報項目記憶ノードに接続される情報検索クライアントシステムの操作方法をコンピュータで実現するための情報処理プログラムであり、
　前記インデックス化手段から受信したデータに応答して、前記受信データにより表現される前記情報項目に対して、ノード位置を生成することを特徴とする記憶媒体。