JP2004164608A

JP2004164608A - 情報検索装置

Info

Publication number: JP2004164608A
Application number: JP2003328496A
Authority: JP
Inventors: David William Trepess; トレペス、デヴィッド　ウィリアム; Jonathan Richard Thorpe; ソープ、ジョナサン　リチャード
Original assignee: Sony United Kingdom Ltd
Current assignee: Sony Europe BV United Kingdom Branch
Priority date: 2002-09-19
Filing date: 2003-09-19
Publication date: 2004-06-10
Also published as: CN100416556C; US7627820B2; GB2393275A; EP1906317A2; GB0229072D0; EP1906317A3; GB2393271A; CN101251857B; EP1400902A1; US20040056886A1; CN1495646A; GB0221774D0; CN101251857A

Abstract

【課題】異なる性質の情報アイテムの組内の各情報アイテムが該情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、該ノードのアレー内の類似する位置におけるノードにマッピングされる情報検索装置を提供する。
【解決手段】ノードのうちの少なくとも幾つかを、ユーザディスプレイ上の表示領域内の２次元表示アレーの表示点として表示するグラフィックユーザインタフェースと、表示領域２７０内に２次元領域を定義するユーザ操作手段と、表示領域内の２次元領域内に存在する表示点を検出する検出手段とを備え、グラフィックユーザインタフェースは、上記表示領域内の２次元領域内に存在する表示点に対応するノードにマッピングされている情報アイテムを表すデータのリスト２６０を表示する。
【選択図】図８

Description

本発明は、情報の格納及び検索に関する。

キーワードに基づいて情報（例えば文書、画像、電子メール、特許情報、例えばオーディオ／ビデオコンテンツ等のインターネットコンテンツやメディアコンテンツ等）を検索するための多くの方式が確立されている。この検索の具体例としては、「グーグル（Google：商標）」、「ヤフー（Yahoo：商標）」等から提供されるインターネット検索「エンジン」も含まれ、これらにおいては、キーワードに基づく検索が実行され、検索エンジンによって適合度の順にランク付けされた検索結果のリストが得られる。

しかしながら、多くの場合大量のコンテンツコレクション（massive content collection）と呼ばれる大量のコンテンツを含むシステムにおいては、比較的短い「ヒット」した結果のリストが得られる有効な検索クエリを定式化することは困難となることがある。例えば、本出願を準備している時点では、グーグルにおいて、キーワード「massive document collection」を用いた検索を行うと、ヒット数は、２４３０００件となる。インターネット全体に蓄積されているコンテンツの量は、通常、時間と共に増加すると考えられるので、後に同じ検索を行った場合には、このヒット数は更に増加すると予想される。このようなヒットリストに基づいて、ヒットした全てのコンテンツに目を通す（Reviewing）ことは、現実的には殆ど不可能な程に時間がかかる作業である。

大量のコンテンツコレクションを活用することが困難である理由は、一般的には、以下のようなものがある。
・ユーザは、関連するコンテンツが存在することを知らない。
・ユーザは、関連するコンテンツが存在することを知っているが、そのコンテンツがどこにあるかを知らない。
・ユーザは、コンテンツが存在していることを知っているが、そのコンテンツが関連するコンテンツであることを知らない。
・ユーザは、関連するコンテンツが存在し、そのコンテンツを見つけ出す手法も知っているが、コンテンツを見つけ出すには時間がかかる。

「大量のドキュメントコレクションの自己組織化（Self Organisation of a Massive Document Collection）」、コホネン（Kohonen）他、ニューラルネットワークに関するＩＥＥＥトランザクション（IEEE Transactions on Neural Networks）、Ｖｏｌ１１、Ｎｏ．３、２０００年５月、５７４〜５８５頁には、所謂「自己組織化マップ（self-organising maps：以下、ＳＯＭという。）」を用いた技術が開示されている。ＳＯＭは、各ドキュメントのプロパティを表す「特徴ベクトル（feature vector）」をＳＯＭのノードにマッピングする、所謂教師なき自己学習ニューラルネットワークアルゴリズム（unsupervised self-learning neural network algorithm）を利用する。

コホネン他の論文に開示されている手法では、まず、文書テキストを前処理し、前処理された各文書から特徴ベクトルが導かれる。この特徴ベクトルは、大きな単語の辞書における各単語の出現頻度を示すヒストグラムの形式で表してもよい。ヒストグラム内の各データ値（すなわち、辞書中のそれぞれの単語の各出現頻度）は、辞書内の候補となる単語の総数（この論文に記述されている具体例では、４３２２２個）をｎとして、ｎ値のベクトルにおける値となる。例えば、ある単語の適合度を増加させ又は特異性を強調するために、ｎ個のベクトル値に重み付けを適用してもよい。

ｎ値のベクトルは、次元がより小さいベクトル（すなわちｎに比べてかなり小さな値の数ｍ（論文内の具体例では５００）の値を有するベクトル）にマッピングされる。これは、乱数配列により構成されるｎ×ｍの「プロジェクション行列（projection matrix）」をベクトルに乗算することによって実現される。この手法により、次元が小さくされたどの２つのベクトルをとっても、それぞれ対応する２つの入力ベクトルと略同じ内積を有する、次元がより小さいベクトルが生成される。このベクトルマッピング処理は、論文「ランダムマッピングによる次元縮退：クラスタリングのための高速類似性演算（Dimensionality Reduction by Random Mapping; Fast Similarity Computation for Clustering）」、カスキ（Kaski）、ＰｒｏｃＩＪＣＮＮ、４１３〜４１８頁、１９９８年に記載されている。

次元が低減されたベクトルは、各ベクトルを１つの「モデル（他のベクトル）」に乗算する処理によって、ＳＯＭ上のノード（ニューロンともいう）にマッピングされる。これらのモデルは、学習プロセスによって生成される。この学習プロセスでは、モデルを相互の類似性に基づいてＳＯＭ上に順序付けし、ＳＯＭは、通常、ノードの２次元グリッドとして表される。これは、膨大な演算を必要とする処理であり、コホネン他は、この処理のために、７００万の文書に満たない文書データベースに対して、８００ＭＢのメモリを有する６プロセッサのコンピュータで６週間を費やしている。最終的には、ＳＯＭを構成するノードのグリッドが表示され、ユーザはマップの領域をズームしてノードを選択することができ、これにより、ユーザインタフェースは、そのノードにリンクされた文書が含まれるインターネットページへのリンクを提供する。

本発明に係る情報検索装置は、異なる性質の情報アイテムの組内の各情報アイテムが情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、ノードのアレー内の類似する位置におけるノードにマッピングされる情報検索装置において、ノードのうちの少なくとも幾つかを、ユーザディスプレイ上の表示領域内の２次元表示アレーの表示点として表示するグラフィックユーザインタフェースと、表示領域内に２次元領域を定義するユーザ操作手段と、表示領域内の２次元領域内に存在する表示点を検出する検出手段とを備え、グラフィックユーザインタフェースは、表示領域内の２次元領域内に存在する表示点に対応するノードにマッピングされている情報アイテムを表すデータのリストを表示する。

当業者に明らかなように、単語「リスト」の通常の用途においては、情報アイテムを表すデータは、情報アイテムのサイズ及び性質が全てを表示するのに適するものであれば、情報アイテムそのものであってもよく、又は情報アイテムから導き出されたデータであってもよい。

更に、本発明に係る情報保存装置は、異なる性質の情報アイテムの組内の各情報アイテムが該情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、ノードのアレー内の類似する位置におけるノードにマッピングされるよう処理される情報保存装置において、各情報アイテムから、情報アイテム内における、情報の特徴のグループ内の各特徴の出現頻度の組を表す特徴ベクトルを導く特徴ベクトル生成手段と、ノードのアレー内のノードに各特徴ベクトルをマッピングするとともに、情報アイテムとノードの間のマッピングの際にディザ成分を含ませ、実質的に同一の情報アイテムを、アレーにおいて、近接しているが異なるノードにマッピングするマッピング手段とを備える。

本発明は、コホネン他の論文に開示されている処理に基づくユーザインタフェースを提供する。このユーザインタフェースにより、ユーザは、画面上の表示点をアイテムのリスト内の情報アイテム関連付けることができるとともに、類似する情報アイテムを容易に区別することができる。

本発明の更なる側面及び特徴は、添付の特許請求の範囲に定義されている。

図１は、情報格納及び検索システム（information storage and retrieval system）を概略的に示す図であり、この情報格納及び検索システムは、汎用コンピュータ１０によって実現されており、汎用コンピュータ１０は、プログラム及びデータを格納するディスク記憶装置３０を含むプロセッサユニット２０と、イーサネット（Ethernet network）（登録商標）又はインターネット等のネットワーク５０に接続されたネットワークインタフェースカード４０と、例えば陰極線管等の表示装置６０と、キーボード７０及びマウス８０等のユーザ入力装置とを備える。このシステムは、プログラム制御の下に動作し、このプログラムは、ディスク記憶装置３０に格納され、及び、例えばネットワーク５０又はリムーバブルディスク（図示せず）から、若しくはディスク記憶装置３０にプレインストールされて提供される。

情報格納及び検索システムは、２つの通常の動作モードで動作する。第１のモードでは、第１の情報アイテム（例えば、テキスト情報アイテム）の組がディスク記憶装置３０に又はネットワーク５０を介して接続されたネットワークディスクドライブに集められ（assembled）、検索動作のために予めソートされるとともに、インデックスが付けられる。第２のモードの動作では、ソートされ、インデックスが付されたデータに対して実際の検索が行われる。

この具体例は、多くの種類の情報アイテムに適用できる。適用される情報アイテムとしては、以下に限定されるものではないが、例えば、特許情報、ビデオマテリアル、電子メール、プレゼンテーション、インターネットコンテンツ、放送コンテンツ、営業報告書、オーディオマテリアル、グラフィクス及びクリップアート、写真、これらの組合せ又は混合された情報等がある。ここでは、テキスト情報アイテム、又は少なくともテキストコンテンツを含む又は関連した情報について説明する。例えば、オーディオ及び／又はビデオマテリアル等の放送コンテンツは、そのマテリアルをテキスト用語（textual terms）で定義する関連したメタデータを有することができる。

情報アイテムは、従来の方法でディスク記憶装置３０にロードされる。好ましくは、情報アイテムは、アイテムに索引を付けてより容易に検索できるようにデータベース構造の一部として格納されるが、このことは必ずしも必要なわけではない。情報及びアイテムが一旦格納されると、検索のために格納された情報を整理する、図２に示す処理が行われる。

なお、インデックスが付されたデータは、必ずしもローカルのディスクドライブであるディスク記憶装置３０に格納する必要はない。これらのデータは、ネットワーク５０を介して汎用コンピュータ１０に接続されたリモートのドライブに格納することもできる。これに代えて、情報は、分散方式で、例えばインターネット全域の様々サイトに格納することもできる。情報が異なるインターネットサイト又はネットワークサイトに格納されている場合、リモートの情報への「リンク」（例えば、ＵＲＬ）を、例えば関連した要約（summary）、概要（abstract）、又はこのリンク関するメタデータと共に格納する第２のレベルの情報格納を用いることができる。リモートに格納された情報は、ユーザが（例えば、後述する結果リスト２６０から）関連するリンクを選択しない限り、アクセスされないが、以下に記述する技術的な説明においては、リモートに格納された情報、又は要約、概要、メタデータ、若しくはリンク／ＵＲＬも「情報アイテム」とみなすことができる。

換言すると、「情報アイテム」とは、（後述のように）特徴ベクトルを導出及び処理して、ＳＯＭへのマッピングを行うことができるアイテムと形式的に定義することができる。後述する結果リスト２６０内のデータは、（情報アイテムがローカルに格納され、容易に表示できる程に十分短い場合）情報アイテム自体であってもよく、及び／又は、例えばメタデータ、ＵＲＬ、概要、キーワードのセット、代表的なキースタンプ画像等のうちの１つ以上である、情報アイテムを表現及び／又は指示するデータであってもよい。これは、必ずではないが、多くの場合、１組のアイテムを表すデータを一覧化する「リスト」動作に特有なものである。

更なる具体例においては、情報アイテムは、例えば研究チームや法律事務所等のネットワーク化されたワークグループ全体に格納してもよい。また、ハイブリッド法は、ローカルに格納された情報アイテム及び／又はローカルエリアネットワーク全体に格納された情報アイテム及び／又はワイドエリアネットワーク全体に格納された情報アイテムを含んでいてもよい。この場合、本発明に基づくシステムは、他者による類似した業績を検索するのに有用であり、例えば、後述するように、複数の国に亘る大規模な研究開発組織において、類似した研究業績をＳＯＭにおける類似した出力ノードにマッピングすることができる。または、新たなテレビジョン番組を企画する場合、本発明に基づく技術を用いて、類似するコンテンツを有する以前の番組を検索することにより、企画中の番組の独創性を確認することもできる。

図１に示すシステム１０は、インデックスが付された情報アイテムを用いる可能なシステムの一例にすぎない。初期の（インデックス付与）段階は、相当の演算能力を有するコンピュータ、可能性としては携帯型ではないコンピュータによって実行されるが、後の段階では、例えば、携帯情報端末（personal digital assistant：ＰＤＡ）（ディスプレイとユーザ入力装置とを備えた、通常片手で持てる程度の寸法のデータ処理装置を指す）、ラップトップコンピュータ等の携帯型コンピュータによって、情報のアクセスを実行してもよく、更に携帯電話、ビデオ編集装置、ビデオカメラ等の機器で行ってもよい。包括的に言えば、情報にアクセスする動作段階では、ディスプレイを有するあらゆる機器を用いることができる。

この処理は、特定の数の情報アイテムに対する処理に限定されるものではない。

情報アイテムの自己組織化マップ（ＳＯＭ）表現を生成する処理について、図２〜図６を用いて説明する。図２は、ＳＯＭマッピング処理の前に行われる、所謂「特徴抽出（feature extraction）」を説明するフローチャートである。

特徴抽出は、生のデータ（raw data）を抽象表現（abstract representation）に変換する処理である。そして、この抽象表現は、パターン分類、クラスタリング、認識等の処理に用いることができる。この処理により、所謂「特徴ベクトル」が生成される。特徴ベクトルは、文書内で使用される用語の頻度の抽象表現である。

特徴ベクトルを生成することにより、ビジュアライゼーション（visualisation）を形成する処理は、以下のステップを含む。
・用語の「文書データベース辞書（document database dictionary）」を作成する。
・「文書データベース辞書」に基づいて、個々の各文書について、「用語頻度ヒストグラム（term frequency histogram）」を作成する。
・ランダムマッピングを用いて、「用語頻度ヒストグラム」の次元を低減する。
・情報空間の２次元ビジュアライゼーションを作成する。

以下、これらのステップをより詳細に説明する。各文書（情報アイテム）１００は、順番に開かれる。ステップ１１０において、文書から全ての「ストップワード（stop word）」を取り除く。ストップワードとは、例えば「ａ」、「ｔｈｅ」、「ｈｏｗｅｖｅｒ」、「ａｂｏｕｔ」、「ａｎｄ」等、予め準備されたリストに挙げられている極めてありふれた単語である。これらの単語は、極めてありふれており、平均的に、十分な長さを有するあらゆる文書において、同様の頻度で出現する可能性が高い。したがって、これらの単語は、特定の文書のコンテンツを特徴付ける目的には殆ど貢献せず、このため、これらのストップワードを削除する。

ストップワードを削除した後、ステップ１２０において、残っている単語の語幹を調べる。これは、単語の活用形に対する共通の原形を見出す処理を含む。例えば「ｔｈｒｏｗｅｒ」、「ｔｈｒｏｗｓ」、「ｔｈｒｏｗｉｎｇ」は、共通の語幹又は原形「ｔｈｒｏｗ」を有している。

文書内に出現する（ストップワードを除く）単語の語幹又は原形の辞書は、保守される。すなわち、新たな単語が出現すると、この単語は辞書に追加され、文書コレクション（情報アイテム）全体の中でその単語が出現した回数も記録される。

この結果、その組内の全ての文書内で使用された用語が、その出現頻度とともに登録されたリストが作成される。出現頻度が高すぎる又は低すぎる単語は除外（discount）され、すなわち、これらの単語は辞書から削除され、後の分析には使用しない。出現頻度が低すぎる単語は、綴り間違いのある単語や、造語（made up）、又はその文書の組によって表されている分野に関係がない単語である可能性がある。一方、出現頻度が高すぎる単語は、その組内の文書を区別するために用いるには不適切である。例えば、「Ｎｅｗｓ」という単語が試験的な放送関連の文書の組全体の内、３分の１の文書において使用されており、一方、「ｆｏｏｔｂａｌｌ」という単語がこの試験的な文書の組全体の内、約２％しか使用されていないとする。この場合、「ｆｏｏｔｂａｌｌ」は、「Ｎｅｗｓ」より、文書のコンテンツを特徴付けるために適切な用語であると考えることができる。一方、「ｆｏｔｔｂａｌｌ（ｆｏｏｔｂａｌｌの綴り間違い）」が文書の組全体の内、１回しか出現していないとすると、この単語は、出現頻度が低すぎるとして除外される。これらの単語は、平均出現頻度に対して２標準偏差小さい出現頻度を有する単語、又は平均出現頻度に対して２標準偏差大きな出現頻度を有する単語と定義してもよい。

そして、ステップ１３０において、特徴ベクトルを生成する。

特徴ベクトルを生成するために、組内の各文書に対して用語頻度ヒストグラムを作成する。用語頻度ヒストグラムは、辞書（文書の組に関連付けられている）内に存在する単語が、個々の文書内で出現する頻度を計数することによって作成される。辞書内の大半の用語は、単一の文書内には存在せず、したがって、これらの用語の出現頻度は０である。図３ａ及び図３ｂは、２つの異なる文書についての用語頻度ヒストグラムの具体例を示している。

この具体例から、用語頻度ヒストグラムが、どのようにして文書のコンテンツを特徴付けているかがわかる。この具体例の場合、文書１は、文書２に比べて、「ＭＰＥＧ」、「Ｖｉｄｅｏ」という用語の出現頻度が高く、一方、文書２は、文書１に比べて、「ＭｅｔａＤａｔａ」という用語の出現頻度が高い。用語頻度ヒストグラム内の多くの項目（entry）は、対応する単語がその文書内に存在しないため、値が０となっている。

現実的には、実際の用語頻度ヒストグラムは、この具体例に示す用語頻度ヒストグラムより更に多数の用語を含んでいる。多くの場合、用語頻度ヒストグラムは、５００００個以上の異なる用語の頻度をプロットし、したがって、用語頻度ヒストグラムの次元は、５００００以上となる。この用語頻度ヒストグラムの次元は、ＳＯＭ情報空間の構築に使用するためには、かなり低減する必要がある。

用語頻度ヒストグラム内の各項目は、その文書を表現する特徴ベクトルにおける対応する値として使用される。この処理の結果、文書コレクション内の各文書について、辞書によって特定された全ての用語の頻度を含む（５００００×１）ベクトルが生成される。このベクトルでは、殆どの値が０であり、更にこの他の値の大半が１程度の非常に低い値を取るため、このベクトルは、「スパース（sparse）」ベクトルと呼ばれる。

ステップ１４０において、特徴ベクトルのサイズ、したがって用語頻度ヒストグラムの次元を小さくする。用語頻度ヒストグラムの次元を小さくする手法としては、例えば以下のような２つの手法がある。
１）ランダムマッピング法：用語頻度ヒストグラムに乱数の行列を乗算する手法。これは、計算機的には安い処理である。
２）潜在的意味抽出法（Latent Semantic Indexing）：文書内で同時に出現する可能性が高い用語のグループを調べることによって用語頻度ヒストグラムの次元を小さくする手法。これにより得られた単語のグループは、単一のパラメータにすることができる。これは、計算機的な波高価な処理である。

ここで説明する具体例においては、用語頻度ヒストグラムの次元を低減するために、上述したカスキ（Kaski）の論文に開示されているランダムマッピング法を用いる。ランダムマッピング法では、用語頻度ヒストグラムに乱数の行列を乗算することによって、用語頻度ヒストグラムの次元を低減する。上述のように、「生の」特徴ベクトル（図４ａに示す）は、５００００個もの値を有するスパースベクトル（sparse vector）である。このベクトルは、約２００個の値を有するサイズ（図４ｂに示す）にまで縮小されるが、それでもなお、特徴ベクトルの相対的特徴を保持しており、すなわち、同様に処理された他の特徴ベクトルに対する相対角（ベクトル内積）等の関係を保っている。これは、特定の次元の直交ベクトルの数が限られていても、略直交するベクトルの数が非常に多いので、有効である。

実際、ベクトルの次元が増加すると、ランダムに生成されたあらゆるベクトルの組が、互いに略直交するようになる。このような性質は、ベクトルの相対的な向きは、そのベクトルに乱数の行列を乗算しても保たれることを意味する。この性質は、ランダムマッピングの前後のベクトルの内積の類似性によって示される。

スパースベクトルの値を５００００個から２００個に低減しても、これらのベクトルの相対的な類似性が保たれることが経験的に確認されている。このマッピングは、完全ではないが、文書のコンテンツを簡潔に特徴付ける目的としては十分である。

文書コレクションについて、特徴ベクトルを作成し、文書コレクションの情報空間を定義した後、ステップ１５０において、意味論的なマップを生成するために、特徴ベクトルを２次元ＳＯＭに射影する。以下、図５を参照して、コホネン（Kohonen）の自己組織化マップを用いて、特徴ベクトルをクラスタリングすることによって２次元にマッピングする処理を説明する。

コホネンの自己組織化マップは、各文書に対して作成された特徴ベクトルをクラスタ化し、組織化するために使用される。

自己組織化マップは、入力ノード１７０と、２次元平面１８５として示されるノードの２次元アレー又はグリッド内の出力ノード１８０とを含む。自己組織化マップをトレーニングするために使用される特徴ベクトル内の値と同じ数の入力ノード１７０が存在する。自己組織化マップ上の各出力ノード１８０は、重み付けされたコネクション（weighted connection）１９０（１つのコネクションにつき、１つの重み）によって入力ノード１７０に関連付けられている。

まず、各重みは、ランダムな値に設定され、繰り返し処理により、これらの重みが「トレーニング」される。自己組織化マップは、このマップの入力ノード１７０に各特徴ベクトルを供給することによってトレーニングされる。各出力ノードの入力ベクトルと重みとの間のユークリッド距離を算出することにより、「最も近い」出力ノードが算出される。

最も近い出力ノードは、「勝者（winner）」と呼ばれ、このノードの重みは、このノードが入力ベクトルにより近づくように重みの値を若干変更することによってトレーニングされる。勝者のノードに加えて、この勝者のノードに隣接するノードもトレーニングされ、入力ベクトルに若干近づけられる。

単一のノードを重み付けするだけではなく、マップ上のノードの領域を重み付けするこの処理によって、マップは、一旦トレーニングされれば、ノードの２次元マップ内に入力空間のトポロジの大部分を保存することができる。

マップが一旦トレーニングされると、各文書をマップにマッピングし、どの出力ノードが、その文書について入力された特徴ベクトルに最も近いかを確認することができる。重みが特徴ベクトルと等しいことは希であり、特徴ベクトルとこの特徴ベクトルに最も近いノードとの間のユークリッド距離は、「量子化誤差」として知られる。

各文書についての特徴ベクトルをマップに与えて、この特徴ベクトルがどこに存在するかを確かめることにより、各文書について、（ｘ，ｙ）座標で表されるマップ上の位置が得られる。これらの（ｘ，ｙ）座標で表されるマップ上の位置は、文書ＩＤとともにルックアップテーブルで照合することにより、文書間の関係を視覚化するために使用することができる。更に、ステップ１６０においてディザ成分（dither component）を加算する。ディザ成分については、図６を用いて後に説明する。

上述の手法では、２つの同一の又は実質的に同一の情報アイテムが、ＳＯＭのノードアレー内の同じノードにマッピングされてしまうことがある。これは、データを取り扱う上では問題にならないが、表示画面（後に説明する）上にデータを視覚化して表示する際に問題となる。特に、データを表示画面上に視覚化して表示する場合、多数の非常に似ているアイテムを特定のノードにおいて単一のアイテム上で区別できることが有用であると認められる。したがって、各情報アイテムがマッピングされるノード位置にディザ成分を加算する。ディザ成分は、ノード間隔の最大±１／２をランダムに加算するものである。例えば、図６に示すように、マッピング処理により出力ノード２００が選択された情報アイテムにはディザ成分が加算され、この情報アイテムは、実際には、図６に点線枠で示す領域２１０内の任意のノード位置にマッピングされる。

このように、情報アイテムは、図６の面上において、ＳＯＭ処理の「出力ノード」とは異なるノード位置にマッピングされることもある。

これに代わる手法では、上述したＳＯＭマッピング処理における「出力ノード」高密度化するものがある。この手法では、全く同一の情報アイテムを区別することはできないが、完全ではないにしても殆どの同一の情報アイテムを、異なってはいるが、近接した出力ノードにマッピングすることができる。

図７は、検索作業のために、ＳＯＭに格納されたデータを視覚的に表示する表示装置６０に表示される画面を示している。この画面には、検索文字列入力枠２５０、結果リスト２６０、ＳＯＭ表示領域２７０が表示されている。

実際の作業では、ユーザは、検索文字列入力枠２５０にキーワード検索文字列を入力する。次にユーザは、キーボード７０のエンターボタンを押圧操作し、又はマウス８０を用いて画面上の検索開始ボタンを選択することにより検索を開始する。キーワード検索文字列入力枠２５０に入力されたキーワードは、標準的なキーワード検索技術を用いて、データベース内の情報アイテムと比較される。この検索の結果は、結果リスト２６０内の各エントリ２８０として表示される。更に、この検索の結果は、ＳＯＭ表示領域２７０上の対応する表示点を有する。

ＳＯＭ表現を作成するために用いたソート処理により、互いに類似する情報アイテムがＳＯＭ内でグループ化されるため、文字列の検索結果は、例えばクラスタ２９０のように、クラスタ内に集中しやすい。ここで、ＳＯＭ表示領域２７０内の各点は、結果リスト２６０内の関連する結果の１つに対応しており、ＳＯＭ表示領域２７０内の各点が表示されている位置は、ノードアレー内におけるこれらのノードのアレー位置に対応している。

ヒット（結果リスト内の結果）の数を少なくする手法を図８を用いて説明する。ユーザは、マウス８０を用いて、興味があるノードに対応する表示点の組の周辺をボックス３００で囲む。結果リスト２６０内には、ボックス３００内の点に対応する結果のみが表示される。これらの結果が、ユーザの求めるものと違うことが判明した場合、ユーザは、新たなボックスで他の表示点の組を囲む。

なお、結果リスト２６０は、検索文字列入力枠２５０に入力されたキーワードによる検索条件を満たし、且つ、表示点がボックス３００内にある結果に対応するエントリを表示している。ボックス３００は、ノードアレー内に含まれる（populated）ノードに対応する他の表示点を囲むこともできるが、これらのノードが検索条件を満たしていない場合、これらのノードは表示されず、したがって、結果リスト２６０内の結果には含まれない。

結果リスト２６０内のエントリのノード位置を検索する作業について、図９を用いて説明する。グラフィックユーザインタフェースの分野における標準的な技術、例えば「ウィンドウズ（Windows：登録商標）」を用いたコンピュータにおいて、ユーザは、検索リスト２６０内の１つ以上のエントリを「選択」することができる。この選択は、この具体例では、関連する結果に関連付けられた「チェックボックス」３１０をクリックすることによって実行される。また、結果全体をクリックにより強調し、又は関連する結果をダブルクリックすることによって選択を行ってもよい。結果が選択されると、ノードアレー内の各ノードを表す対応する表示点が、他とは異なるように表示される。この具体例では、検索リスト２６０内において選択された結果３３０に対応する２つの表示点３２０を示している。

表示点の表示法の変更は、表示点のサイズの拡大であってもよく、同じ表示色における明るさの変更であってもよく、異なる表示色による表示であってもよく、これらの属性の変更の組合せであってもよい。

いかなる時点においても、ＳＯＭに新たな情報アイテムを追加することができる。この処理は、上述したステップ（すなわち、ステップ１１０〜ステップ１４０）を実行し、これにより得られた縮小された特徴ベクトルを「先にトレーニングされている」ＳＯＭモデル、すなわち、マップの自己組織化処理によって得られたＳＯＭモデルの組に適用することによって行われる。したがって、新たに追加された情報アイテムについては、マップは、通常、「再トレーニング」されない。これに代えて、変更されていない全てのＳＯＭモデルとともに、ステップ１５０及びステップ１６０を実行する。新たな情報アイテムが追加される毎にＳＯＭを再トレーニングすると、演算コストが高くなり、また、ユーザは、マップ内においてよくアクセスする情報アイテムの相対的位置に慣れてくるので、再トレーニングは、ユーザを困惑させる場合もある。

しかしながら、再トレーニング処理を行う方が望ましい場合もある。例えば、最初にＳＯＭが作成された後に、新たな用語（例えば、ニュース又は新たな技術分野における新たな用語）が辞書に追加されたとすると、これらの新たな用語は、既存の出力ノードの組には、うまくマッピングできない場合がある。これは、新たに受け取った情報アイテムの既存のＳＯＭへのマッピングの際に検出される所謂「量子化誤差」の増大によって検出される。この具体例では、量子化誤差を誤差量の閾値と比較する。量子化誤差が閾値を超えている場合、（ａ）ＳＯＭに元から含まれる情報アイテム及びＳＯＭの作成後に加えられたあらゆる情報アイテムを用いてＳＯＭを自動的に再トレーニングし、又は（ｂ）適切なときに再トレーニング処理を開始するようユーザに促す。再トレーニング処理は、関連する全ての情報アイテムの特徴ベクトルを用いて、ステップ１５０及びステップ１６０を全ての特徴アイテムを用いて再び実行することによって行われる。

図１０は、ビデオ取得及び／又は処理装置（video acquisition and/or processing apparatus）の具体例として、カムコーダ５００の構成を示す図である。カムコーダ５００は、撮像装置５１０と、撮像装置５１０に取り付けられたレンズ５２０と、データ／信号プロセッサ５３０と、テープ状記録媒体５４０と、ディスク状又はランダムアクセス記録媒体５５０と、ユーザ操作子５６０と、表示装置５７０と、表示装置５７０に取り付けられた接眼レンズ５８０とを備える。周知のカムコーダ又は他の代替物におけるこの他の特徴（例えば、異なる記録媒体又は異なる表示画面構成）は、当業者にとって明らかである。実際の使用時には、捕捉されたビデオマテリアルに関連するメタデータがディスク状又はランダムアクセス記録媒体５５０に保存され、この保存されたデータに関連するＳＯＭが表示装置５７０に表示され、ユーザ操作子５６０を用いて、上述のように制御される。

図１１は、携帯可能なデータ表示装置の具体例として、携帯情報端末（personal digital assistant：以下、ＰＤＡという。）６００の構成を示す図である。ＰＤＡ６００は、表示領域６２０及びユーザ操作子として機能するタッチセンサ領域６３０を有する表示画面６１０と、データ処理部及びデータ記録部（図示せず）とを備える。ここでも、この分野における当業者は、変形例を容易に想到できる。ＰＤＡ６００は、図１を用いて説明したシステムと同様に使用することができる。

添付の図面を参照して本発明を詳細に説明したが、本発明は上述の実施の形態の詳細に限定されるものではなく、当業者は、添付の請求の範囲に定義された本発明の思想及び範囲から逸脱することなく、上述の実施の形態を様々に変更及び修正することができる。

情報保存及び検索システムの構成を示す図である。自己組織化マップ（ＳＯＭ）の作成の手順を説明するフローチャートである。ａ及びｂは、用語頻度ヒストグラムを示す図である。ａは、生の特徴ベクトルを示し、ｂは、縮小された特徴ベクトルを示す図である。ＳＯＭの構造を示す図である。ディザ処理を説明する図である。ＳＯＭによって表現された情報にアクセスするためのユーザインタフェースを提供する表示画面を示す図である。ＳＯＭによって表現された情報にアクセスするためのユーザインタフェースを提供する表示画面を示す図である。ＳＯＭによって表現された情報にアクセスするためのユーザインタフェースを提供する表示画面を示す図である。ビデオ取得及び／又は処理装置の具体例として、カムコーダの構成を示す図である。携帯型データ処理装置の具体例として、携帯情報端末の構成を示す図である。

Claims

異なる性質の情報アイテムの組内の各情報アイテムが該情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、該ノードのアレー内の類似する位置におけるノードにマッピングされる情報検索装置において、
（１）上記ノードのうちの少なくとも幾つかを、ユーザディスプレイ上の表示領域内の２次元表示アレーの表示点として表示するグラフィックユーザインタフェースと、
（２）上記表示領域内に２次元領域を定義するユーザ操作手段と、
（３）上記表示領域内の２次元領域内に存在する表示点を検出する検出手段とを備え、
（４）上記グラフィックユーザインタフェースは、上記表示領域内の２次元領域内に存在する表示点に対応するノードにマッピングされている情報アイテムを表すデータのリストを表示する情報検索装置。
上記情報アイテムは、各情報アイテムから導かれた特徴ベクトルに基づいて、上記アレー内のノードにマッピングされることを特徴とする請求項１記載の情報検索装置。
上記情報アイテムから導かれた特徴ベクトルは、該情報アイテム内における、情報の特徴のグループ内の各特徴の出現頻度の組を表すことを特徴とする請求項２記載の情報検索装置。
上記情報アイテムは、テキスト情報を含み、上記情報アイテムから導かれた特徴ベクトルは、該情報アイテム内における、単語のグループ内の各単語の出現頻度の組を表すことを特徴とする請求項３記載の情報検索装置。
上記情報アイテムは、テキスト情報を含み、上記ノードは、上記テキスト情報の少なくとも一部の相互の類似性に基づいてマッピングされることを特徴とする請求項１記載の情報検索装置。
上記情報アイテムは、上記情報アイテムの組における頻度の閾値を超える頻度で出現する単語を除外することによって、マッピングのための前処理が施されることを特徴とする請求項４記載の情報検索装置。
上記情報アイテムは、上記情報アイテムの組における頻度の閾値を下回る頻度で出現する単語を除外することによって、マッピングのための前処理が施されることを特徴とする請求項４記載の情報検索装置。
（１）上記情報アイテムの単語に関する検索を実行する検索手段を有し、
（２）上記検索手段及び上記グラフィックユーザインタフェースは、協働して、上記検索によって選択された情報アイテムに対応する表示点のみが表示されるように動作することを特徴とする請求項４記載の情報検索装置。
上記情報アイテムとノードの間のマッピングは、ディザ成分を含み、実質的に同一の情報アイテムが、上記アレーにおいて、近接しているが異なるノードにマッピングされるようにする請求項１記載の情報検索装置。
上記リストから１つ以上の情報アイテムを選択するためのユーザ操作手段を備え、上記グラフィックユーザインタフェースは、選択された情報アイテムに対応する表示領域内の表示点の表示法を変更することを特徴とする請求項１記載の情報検索装置。
上記グラフィックユーザインタフェースは、上記リスト内で選択された情報アイテムに対応する表示点を異なる色及び／又は明るさで表示することを特徴とする請求項１０記載の情報検索装置。
異なる性質の情報アイテムの組内の各情報アイテムが該情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、該ノードのアレー内の類似する位置におけるノードにマッピングされるよう処理される情報保存装置において、
各情報アイテムから、該情報アイテム内における、情報の特徴のグループ内の各特徴の出現頻度の組を表す特徴ベクトルを導く特徴ベクトル生成手段と、
ノードのアレー内のノードに各特徴ベクトルをマッピングするとともに、情報アイテムとノードの間のマッピングの際にディザ成分を含ませ、実質的に同一の情報アイテムを、上記アレーにおいて、近接しているが異なるノードにマッピングするマッピング手段とを備える情報保存装置。
新たに受け取られた情報アイテムを上記ノードのアレー内のノードにマッピングするマッピング手段と、
上記新たに受け取られ、マッピングされた情報アイテムのマッピングにおける誤差を検出するマッピング誤差検出手段と、
上記マッピングにおける誤差が、誤差の閾値を超えていることを検出して、上記情報アイテム及び新たに受け取られた情報アイテムの組に対する再マッピング処理を開始する再マッピング手段とを備える請求項１２記載の情報保存装置。
請求項１記載の情報検索装置を備える携帯型データ処理装置。
請求項１記載の情報検索装置を備えるビデオ取得及び／又は処理装置。
異なる性質の情報アイテムの組内の各情報アイテムが該情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、該ノードのアレー内の類似する位置におけるノードにマッピングされるよう処理される情報保存方法において、
各情報アイテムから、該情報アイテム内における、情報の特徴のグループ内の各特徴の出現頻度の組を表す特徴ベクトルを導くステップと、
ノードのアレー内のノードに各特徴ベクトルをマッピングするとともに、情報アイテムとノードの間のマッピングの際にディザ成分を含ませ、実質的に同一の情報アイテムを、上記アレーにおいて、近接しているが異なるノードにマッピングするステップとを有する情報保存方法。
異なる性質の情報アイテムの組内の各情報アイテムが該情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、該ノードのアレー内の類似する位置におけるノードにマッピングされる情報検索方法において、
（１）上記ノードのうちの少なくとも幾つかを、ユーザディスプレイ上の表示領域内の２次元表示アレーの表示点として表示するステップと、
（２）ユーザ操作子によって、上記表示領域内に２次元領域を定義するステップと、
（３）上記表示領域内の２次元領域内に存在する表示点を検出するステップと、
（４）上記表示領域内の２次元領域内に存在する表示点に対応するノードにマッピングされている情報アイテムを表すデータのリストを表示するステップとを有する情報検索方法。
請求項１６又は１７に示す情報保存方法又は情報検索方法を実行するプログラムコードを有するコンピュータソフトウェア。
請求項１８記載のコンピュータソフトウェアを提供する提供媒体。
当該提供媒体は、記録媒体であることを特徴とする請求項１９記載の提供媒体。
当該提供媒体は、伝送媒体であることを特徴とする請求項１９記載の提供媒体。