JP2008276768A

JP2008276768A - 情報検索装置及び方法

Info

Publication number: JP2008276768A
Application number: JP2008110736A
Authority: JP
Inventors: David William Trepess; ウィリアムトレペス、デヴィッド; Jonathan Richard Thorpe; リチャードソープ、ジョナサン
Original assignee: Sony United Kingdom Ltd
Current assignee: Sony Europe BV United Kingdom Branch
Priority date: 2002-11-27
Filing date: 2008-04-21
Publication date: 2008-11-13
Also published as: US20040139105A1; JP2004213626A; EP1426881A2; GB2395805A; EP1426881A3; GB0227658D0; US7668853B2

Abstract

【課題】検索された複数の情報アイテムを、情報アイテムの相互の類似性によって、類似する情報アイテムがノードアレー内の類似する位置のノードに表示する。
【解決手段】検索条件を定義するユーザ操作手段と、検索条件に基づいて情報アイテムを選択するために、画像アイテムに関連したメタデータの検索を実行し、選択された情報アイテムに対応するノードアレー内の位置を検出するプロセッサと、選択された情報アイテムに対応するノードアレー内の位置を示す表示点を表示するグラフィカルユーザインタフェースとを備える。プロセッサは、選択された情報アイテムの情報コンテンツを代表する１つ以上の代表画像を提供し、プロセッサ及びグラフィカルユーザインタフェースは、協働して、検索によって選択された情報アイテムに対応する表示点のみをグラフィカルユーザインタフェースに表示する。
【選択図】図８

Description

本発明は、情報検索装置及び方法に関する。

キーワードに基づいて情報（例えば文書、画像、電子メール、特許情報、例えばオーディオ／ビデオコンテンツ等のインターネットコンテンツやメディアコンテンツ等）を検索するための多くの方式が確立されている。この検索の具体例としては、「グーグル（Google：商標）」、「ヤフー（Yahoo：商標）」等から提供されるインターネット検索「エンジン」も含まれ、これらにおいては、キーワードに基づく検索が実行され、検索エンジンによって適合度の順にランク付けされた検索結果のリストが得られる。

しかしながら、多くの場合、大量のコンテンツ集合（massive content collection）と呼ばれる大量のコンテンツを含むシステムにおいては、比較的短い「ヒット」した結果のリストが得られる有効な検索クエリを定式化することは困難となることがある。例えば、本出願を準備している時点では、グーグルにおいて、キーワード「massive document collection」を用いた検索を行うと、ヒット数は、２４３０００件となる。インターネット全体に蓄積されているコンテンツの量は、通常、時間と共に増加すると考えられるので、後に同じ検索を行った場合には、このヒット数は更に増加すると予想される。このようなヒットリストに基づいて、ヒットした全てのコンテンツに目を通す（Reviewing）ことは、現実的には殆ど不可能な程に時間がかかる作業である。

大量のコンテンツ集合を活用することが困難である理由は、一般的には、以下のようなものがある。
・ユーザは、関連するコンテンツが存在することを知らない。
・ユーザは、関連するコンテンツが存在することを知っているが、そのコンテンツがどこにあるかを知らない。
・ユーザは、コンテンツが存在していることを知っているが、そのコンテンツが関連するコンテンツであることを知らない。
・ユーザは、関連するコンテンツが存在し、そのコンテンツを見つけ出す手法も知っているが、コンテンツを見つけ出すには時間がかかる。

「大量の文書集合の自己組織化（Self Organisation of a Massive Document Collection）」、コホネン（Kohonen）他、ニューラルネットワークに関するＩＥＥＥトランザクション（IEEE Transactions on Neural Networks）、Ｖｏｌ１１、Ｎｏ．３、２０００年５月、５７４〜５８５頁には、所謂「自己組織化マップ（self-organising maps：以下、ＳＯＭという。）」を用いた技術が開示されている。ＳＯＭは、各文書の特徴を表す「特徴ベクトル（feature vector）」をＳＯＭのノードにマッピングする、所謂教師なき自己学習ニューラルネットワークアルゴリズム（unsupervised self-learning neural network algorithm）を利用する。

コホネン他の論文に開示されている手法では、まず、文書テキストを前処理し、前処理された各文書から特徴ベクトルが導出される。この特徴ベクトルは、大きな単語の辞書における各単語の出現頻度を示すヒストグラムの形式で表してもよい。ヒストグラム内の各データ値（すなわち、辞書中のそれぞれの単語の各出現頻度）は、辞書内の候補となる単語の総数（この論文に記述されている具体例では、４３２２２個）をｎとして、ｎ値のベクトルにおける値となる。例えば、ある単語の適合度を増加させ又は特異性を強調するために、ｎ個のベクトル値に重み付けを適用してもよい。

ｎ値のベクトルは、次元がより小さいベクトル（すなわちｎに比べてかなり小さな値の数ｍ（論文内の具体例では５００）の値を有するベクトル）にマッピングされる。これは、乱数配列により構成されるｎ×ｍの「プロジェクション行列（projection matrix）」をベクトルに乗算することによって実現される。この手法により、次元が小さくされたどの２つのベクトルをとっても、それぞれ対応する２つの入力ベクトルと略同じ内積を有する、次元がより小さいベクトルが生成される。このベクトルマッピング処理は、論文「ランダムマッピングによる次元縮退：クラスタリングのための高速類似性演算（Dimensionality Reduction by Random Mapping; Fast Similarity Computation for Clustering）」、カスキ（Kaski）、ＰｒｏｃＩＪＣＮＮ、４１３〜４１８頁、１９９８年に記載されている。

次元が低減されたベクトルは、各ベクトルを１つの「モデル（他のベクトル）」に乗算する処理によって、ＳＯＭ上のノード（ニューロンともいう）にマッピングされる。これらのモデルは、学習プロセスによって生成される。この学習プロセスでは、モデルを相互の類似性に基づいてＳＯＭ上に順序付けし、ＳＯＭは、通常、ノードの２次元グリッドとして表される。これは、膨大な演算を必要とする処理であり、コホネン他は、この処理のために、７００万の文書に満たない文書データベースに対して、８００ＭＢのメモリを有する６プロセッサのコンピュータで６週間を費やしている。最終的には、ＳＯＭを構成するノードのグリッドが表示され、ユーザはマップの領域をズームしてノードを選択することができ、これにより、ユーザインタフェースは、そのノードにリンクされた文書が含まれるインターネットページへのリンクを提供する。

コホネンの論文には、マップを検索するためのガイダンスとなるラベルを用いる手法が開示されている。これらのラベルは、キーワードを選択することによって自動的に生成される。この手法は、ケー・ラグス（K.Lagus）及びエス・ラスキ（S.Laski）著、テキスト文書マップを特徴付けるキーワード選択法（Keyword selection method for characterising text document maps）、ＰｒｏｃＩＣＡＮＮ９９、ＮｉｎｔｈＩｎｔ．Ｃｏｎｆ．ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ｖｏｌ．１、１９９９年、ｐｐ．３７１〜３７６に開示されている。

本発明に係る情報検索装置は、画像データからなる画像アイテムに関連したメタデータを少なくとも有する異なる複数の情報アイテムを、情報アイテムの相互の類似性によって、類似する情報アイテムがノードアレー内の類似する位置のノードに位置するように、それぞれのノードにマッピングする情報検索装置において、検索条件を定義するユーザ操作手段と、検索条件に基づいて情報アイテムを選択するために、画像アイテムに関連したメタデータの検索を実行し、選択された情報アイテムに対応するノードアレー内の位置を検出するプロセッサと、選択された情報アイテムに対応するノードアレー内の位置を示す表示点を表示するグラフィカルユーザインタフェースとを備える。プロセッサは、選択された情報アイテムの情報コンテンツを代表する１つ以上の代表画像を提供し、プロセッサ及びグラフィカルユーザインタフェースは、協働して、検索によって選択された情報アイテムに対応する表示点のみをグラフィカルユーザインタフェースに表示する。

また、本発明に係る情報検索方法は、画像データからなる画像アイテムに関連したメタデータを少なくとも有し、画像データからなる画像アイテムに少なくとも関連した異なる複数の情報アイテムを、情報アイテムの相互の類似性によって、類似する情報アイテムがノードアレー内の類似する位置のノードに位置するように、それぞれのノードにマッピングする情報検索方法において、情報アイテムを選択するための検索条件を定義するステップと、画像アイテムに関連したメタデータの検索を実行することによって、情報アイテムを選択するステップと、選択された情報アイテムに対応するノードアレー内の位置を検出するステップと、選択された情報アイテムに対応するノードアレー内の位置を示す表示点をグラフィカルユーザインタフェースに表示するステップと、検索条件によって定義された選択された情報アイテムに応じて、選択された情報アイテムの情報コンテンツを代表する１つ以上の表現を提供するステップとを有する。選択するステップ及び検出するステップは、協働して、検索によって選択された情報アイテムに対応する表示点のみをグラフィカルユーザインタフェースに表示する。

図１は、情報格納及び検索システム（information storage and retrieval system）を概略的に示す図であり、この情報格納及び検索システムは、汎用コンピュータ１０によって実現されており、汎用コンピュータ１０は、プログラム及びデータを格納するディスク記憶装置３０を含むプロセッサユニット２０と、イーサネット（Ethernet network）（登録商標）又はインターネット等のネットワーク５０に接続されたネットワークインタフェースカード４０と、例えば陰極線管等の表示装置６０と、キーボード７０及びマウス８０等のユーザ入力装置とを備える。この情報格納及び検索システムは、プログラム制御の下に動作し、このプログラムは、例えばネットワーク５０又はリムーバブルディスク（図示せず）から供給されてディスク記憶装置３０に格納され、あるいはディスク記憶装置３０にプレインストールされている。

情報格納及び検索システムは、２つの通常の動作モードで動作する。第１のモードでは、情報アイテム（例えば、テキスト情報アイテム）の集合がディスク記憶装置３０に又はネットワーク５０を介して接続されたネットワークディスクドライブに集められ（assembled）、検索動作のために予めソートされるとともに、インデックスが付けられる。第２のモードの動作では、ソートされ、インデックスが付けられたデータに対して実際の検索が行われる。

この実施の形態は、多くの種類の情報アイテムに適用することができる。適用される情報としては、以下に限定されるものではないが、例えば、特許情報、ビデオマテリアル、電子メール、プレゼンテーション、インターネットコンテンツ、放送コンテンツ、営業報告書、オーディオマテリアル、グラフィクス及びクリップアート、写真、これらの組合せ又は混合された情報等がある。ここでは、テキスト情報アイテムについて説明する。テキスト情報アイテムは、非テキスト情報アイテムに関連付けられ、又はリンクされていてもよい。例えば、オーディオ及び／又はビデオマテリアルは、そのマテリアルを言葉により定義するテキスト情報アイテムである「メタデータ」に関連付けられていてもよい。

情報アイテムは、従来の方法でディスク記憶装置３０にロードされる。好ましくは、情報アイテムは、情報アイテムにインデックスを付けてより容易に検索できるようにデータベース構造の一部として格納されるが、このことは必ずしも必要なわけではない。情報及び情報アイテムが一旦格納されると、検索のために格納された情報を整理する、図２に示す処理が行われる。

なお、インデックスが付けられたデータは、必ずしもローカルのディスクドライブであるディスク記憶装置３０に格納する必要はない。情報アイテムは、ネットワーク５０を介して汎用コンピュータ１０に接続されたリモートのドライブに格納することもできる。これに代えて、情報アイテムは、分散方式で、例えばインターネット全域の様々なサイトに格納することもできる。情報が異なるインターネットサイト又はネットワークサイトに格納されている場合、リモートの情報アイテムへの「リンク」（例えば、汎用リソース識別子：universal resource identifier：ＵＲＩ）を、例えば関連した要約（summary）、概要（abstract）、又はこのリンク関するメタデータと共に格納する第２のレベルの情報格納を用いることができる。リモートに格納された情報アイテムは、ユーザが（例えば、後述する結果リスト２６０から）関連するリンクを選択しない限り、アクセスされないが、以下に記述する技術的な説明においては、リモートに格納された情報、又は要約、概要、メタデータ、若しくはリンク／ＵＲＩも「情報アイテム」とみなすことができる。

換言すると、「情報アイテム」とは、（後述のように）特徴ベクトルを導出及び処理して、ＳＯＭへのマッピングを行うことができる情報アイテムと形式的に定義することができる。後述する結果リスト２６０内のデータは、（情報アイテムがローカルに格納され、容易に表示できる程に十分短い場合）ユーザが検索する実際の情報アイテム自体であってもよく、及び／又は、例えばメタデータ、ＵＲＩ、概要、キーワードのセット、代表的なキースタンプ画像等のうちの１つ以上である、情報アイテムを表す及び／又は指示するデータであってもよい。これは、必ずではないが、多くの場合、１組の情報アイテムを表すデータを一覧化する「リスト」動作に特有なものである。

更なる実施の形態においては、情報アイテムは、例えば研究チームや法律事務所等のネットワーク化されたワークグループ全体に格納してもよい。また、ハイブリッド法は、ローカルに格納された情報アイテム及び／又はローカルエリアネットワーク全体に格納された情報アイテム及び／又はワイドエリアネットワーク全体に格納された情報アイテムを含んでいてもよい。この場合、本発明に基づく情報格納及び検索システムは、他者による類似した業績を検索するのに有用であり、例えば、後述するように、複数の国に亘る大規模な研究開発組織において、類似した研究業績をＳＯＭにおける類似した出力ノードにマッピングすることができる。または、新たなテレビジョン番組を企画する場合、本発明に基づく技術を用いて、類似した内容を有する以前の番組を検索することにより、企画中の番組の独創性を確認することもできる。

図１に示す汎用コンピュータ１０は、インデックスが付けられた情報アイテムを用いる可能なシステムの一例にすぎない。初期の（インデックス付与）段階は、相当の演算能力を有するコンピュータ、可能性としては携帯型ではないコンピュータによって実行されるが、後の段階では、例えば、携帯情報端末（personal digital assistant：ＰＤＡ）（ディスプレイとユーザ入力装置とを備えた、通常片手で持てる程度の寸法のデータ処理装置を指す）、ラップトップコンピュータ等の携帯型コンピュータによって、情報アイテムのアクセスを実行してもよく、更に携帯電話、ビデオ編集装置、ビデオカメラ等の機器で行ってもよい。包括的に言えば、情報アイテムにアクセスする動作段階では、ディスプレイを有するあらゆる機器を用いることができる。

この処理は、特定の数の情報アイテムに対する処理に限定されるものではない。

情報アイテムの自己組織化マップ（ＳＯＭ）を生成する処理について、図２〜図６を用いて説明する。図２は、ＳＯＭマッピング処理の前に行われる、所謂「特徴抽出（feature extraction）」処理を説明するためのフローチャートである。

特徴抽出は、生のデータ（raw data）を抽象的な表現（abstract representation）に変換する処理である。そして、この抽象的な表現は、パターン分類、クラスタリング、認識等の処理に用いることができる。この処理により、所謂「特徴ベクトル」が生成される。特徴ベクトルは、文書内で使用されている用語の頻度の抽象的な表現である。

特徴ベクトルを生成することにより、視覚化（visualisation）を行う処理は、以下のステップを含む。
・用語の「文書データベース辞書（document database dictionary）」を生成する。
・「文書データベース辞書」に基づいて、個々の各文書について「用語頻度ヒストグラム（term frequency histogram）」を生成する。
・ランダムマッピングを用いて、「用語頻度ヒストグラム」の次元を低減する。
・情報空間の２次元の視覚化を行う。

以下、これらのステップをより詳細に説明する。各文書（情報アイテム）１００を、順番に開く。ステップ１１０において、文書から全ての「ストップワード（stop word）」を取り除く。ストップワードとは、例えば「a」、「the」、「however」、「about」、「and」等の予め用意されたリストに挙げられている極めてありふれた単語である。これらの単語は、極めてありふれているので、平均的に、十分な長さを有するあらゆる文書において、同様の頻度で出現する可能性が高い。したがって、これらの単語は、特定の文書の内容を特徴付ける目的には殆ど貢献せず、このため、これらのストップワードを削除する。

ストップワードを削除した後、ステップ１２０において、残っている単語の語幹を調べる。これは、単語の活用形に対する共通の原形を見出す処理を含む。例えば「thrower」、「throws」、「throwing」は、共通の語幹又は原形「throw」を有している。

文書内に出現する（ストップワードを除く）単語の語幹又は原形の辞書は、保守される。すなわち、新たな単語が出現すると、この単語は辞書に追加され、全文書の集合（情報アイテムの集合）の中でその単語が出現した回数も記録される。

この結果、その文書集合内の全ての文書内で使用されている用語が、その出現頻度とともに登録されたリストが生成される。出現頻度が高すぎる又は低すぎる単語は除外（discount）され、すなわち、これらの単語は辞書から削除され、後の分析には使用しない。出現頻度が低すぎる単語は、綴り間違いのある単語、造語（made up）又はその文書集合によって表される分野に関係がない単語である可能性がある。一方、出現頻度が高すぎる単語は、その文書集合内の文書を区別するために用いるには不適切である。例えば、「News」という単語が、放送に関連した文書の試験的な集合において、３分の１の文書で使用されており、一方、「football」という単語がこの文書の試験的な集合の約２％の文書でしか使用されていないとする。この場合、「football」は、「News」よりも、文書の内容を特徴付けるためには、適切な用語であると考えることができる。一方、「fottball（footballの綴り間違い）」が文書集合全体で１回しか出現していないとすると、この単語は、出現頻度が低すぎるとして除外される。これらの単語は、平均出現頻度に対して２標準偏差小さい出現頻度を有する単語、又は平均出現頻度に対して２標準偏差大きな出現頻度を有する単語と定義してもよい。

そして、ステップ１３０において、特徴ベクトルを生成する。

特徴ベクトルを生成するために、文書集合内の各文書に対して用語頻度ヒストグラムを生成する。用語頻度ヒストグラムは、辞書（文書集合に関連付けられている）内に存在する単語が、個々の文書内で出現する頻度を計数することによって生成される。辞書内の大半の用語は、１つの文書内には存在せず、したがって、これらの用語の出現頻度は０である。図３ａ及び図３ｂは、２つの異なる文書についての用語頻度ヒストグラムの具体例を示している。

この具体例から、用語頻度ヒストグラムが、どのようにして文書の内容を特徴付けているかがわかる。この具体例の場合、文書１は、文書２に比べて、「MPEG」、「Video」という用語の出現頻度が高く、一方、文書２は、文書１に比べて、「MetaData」という用語の出現頻度が高い。用語頻度ヒストグラム内の多くのエントリ（entry）は、対応する単語がその文書内に存在しないため、値が０となっている。

現実的には、実際の用語頻度ヒストグラムは、この具体例に示す用語頻度ヒストグラムより更に多数の用語を含んでいる。多くの場合、用語頻度ヒストグラムは、５００００個以上の異なる用語の頻度を示し、したがって、用語頻度ヒストグラムの次元は、５００００以上となる。この用語頻度ヒストグラムの次元は、ＳＯＭ情報空間の構築に使用するためには、かなり低減する必要がある。

用語頻度ヒストグラム内の各エントリは、その文書を表す特徴ベクトルの相当値として使用される。この処理の結果、文書集合内の各文書について、辞書によって特定される全ての用語の頻度を含む（５００００×１）ベクトルが生成される。このベクトルでは、殆どの値が０であり、更に、この他の値の大半が１程度の非常に低い値を取るので、このベクトルは、「スパース（sparse）」ベクトルと呼ばれる。

ステップ１４０において、特徴ベクトルのサイズ、したがって、用語頻度ヒストグラムの次元を小さくする。用語頻度ヒストグラムの次元を小さくする手法としては、例えば以下のような２つの手法がある。
１）ランダムマッピング法：用語頻度ヒストグラムに乱数の行列を乗算する手法。これは、計算機的には安い処理である。
２）潜在的意味抽出法（Latent Semantic Indexing）：文書内で同時に出現する可能性が高い用語のグループを調べることによって、用語頻度ヒストグラムの次元を小さくする手法。これにより得られた単語のグループは、１つのパラメータにすることができる。これは、計算機的には高価な処理である。

ここで説明する実施の形態においては、用語頻度ヒストグラムの次元を低減するために、上述したカスキ（Kaski）の論文に開示されているランダムマッピング法を用いる。ランダムマッピング法では、用語頻度ヒストグラムに乱数の行列を乗算することによって、用語頻度ヒストグラムの次元を低減する。

上述のように、「生の」特徴ベクトル（図４ａに示す）は、５００００個もの値を有するスパースベクトル（sparse vector）である。この特徴ベクトルは、約２００個の値を有するサイズ（図４ｂに示す）にまで縮小されるが、それでもなお、特徴ベクトルの相対的特徴を保持しており、すなわち、同様に処理された他の特徴ベクトルに対する相対角（ベクトル内積）等の関係を保っている。これは、特定の次元の直交ベクトルの数が限られていても、略直交するベクトルの数が非常に多いので、有効である。

実際、ベクトルの次元が増加すると、ランダムに生成された所定の集合のベクトルは、互いに略直交するようになる。このような性質は、ベクトルの相対的な向きは、そのベクトルに乱数の行列を乗算しても保たれることを意味する。この性質は、ランダムマッピングの前後のベクトルの内積の類似性によって示される。

スパースベクトルの値を５００００個から２００個に低減しても、これらのベクトルの相対的な類似性が保たれることが経験的に確認されている。このマッピングは、完全ではないが、文書の内容を簡潔に特徴付ける目的としては十分である。

文書集合について、特徴ベクトルを生成し、文書集合の情報空間を定義した後、ステップ１５０において、意味論的なマップを生成するために、特徴ベクトルを２次元のＳＯＭに射影する。以下、図５を参照して、コホネン（Kohonen）の自己組織化マップを用いて、特徴ベクトルをクラスタリングすることによって２次元にマッピングする処理を説明する。

コホネンの自己組織化マップは、各文書に対して生成された特徴ベクトルをクラスタ化し、組織化するために使用される。

自己組織化マップは、入力ノード１７０と、２次元平面１８５として示される複数のノードからなる２次元のノードアレー又はグリッド内の出力ノード１８０とを含む。自己組織化マップをトレーニングするために使用される特徴ベクトル内の値と同じ数の入力ノード１７０が存在する。自己組織化マップ上の各出力ノード１８０は、重み付けされたコネクション（weighted connection）１９０（１つのコネクションにつき、１つの重み）によって入力ノード１７０に関連付けられている。

まず、各重みは、ランダムな値に設定され、繰り返し処理により、これらの重みが「トレーニング」される。自己組織化マップ（以下、単にマップともいう）は、このマップの入力ノード１７０に各特徴ベクトルを供給することによってトレーニングされる。入力特徴ベクトルと各出力ノードの重みとの間のユークリッド距離を算出することにより、「最も近い」出力ノードが算出される。

最も近い出力ノードは、「勝者（winner）」と呼ばれ、この出力ノードの重みは、出力ノードが入力特徴ベクトルにより近づくように、重みの値を若干変更することによってトレーニングされる。勝者のノードに加えて、この勝者のノードの近くの出力ノードもトレーニングされ、入力特徴ベクトルに若干近づけられる。

１つのノードを重み付けするだけではなく、マップ上のノードの領域を重み付けするこの処理によって、マップは、一旦トレーニングされれば、ノードの２次元マップ内に、入力空間のトポロジの大部分を保存することができる。

マップが一旦トレーニングされると、各文書をマップにマッピングし、どの出力ノードが、その文書の入力特徴ベクトルに最も近いかを確認することができる。重みが特徴ベクトルと等しいことは希であり、特徴ベクトルとこの特徴ベクトルに最も近い出力ノードとの間のユークリッド距離は、「量子化誤差」として知られる。

各文書についての特徴ベクトルをマップに与えて、この特徴ベクトルがどこに存在するかを確かめることにより、各文書について、（ｘ，ｙ）座標で表されるマップ上の位置が得られる。これらの（ｘ，ｙ）座標で表されるマップ上の位置を、文書ＩＤとともにルックアップテーブルに入れておくことにより、文書間の関係を視覚化するために使用することができる。

更に、ステップ１６０において、ディザ成分（dither component）を加算する。ディザ成分については、図６を用いて後に説明する。

上述の手法では、２つの同一の又は略同一の情報アイテムが、ＳＯＭのノードアレーの同じノードにマッピングされてしまうことがある。これは、データを処理する上では問題にならないが、表示画面（後に説明する）上にデータを視覚化して表示する際には問題となる。特に、データを表示画面上に視覚化して表示する場合、複数の非常に似ている情報アイテムを特定のノードにおいて１つの１つの情報アイテムとして区別できることが有用であると認められている。したがって、各情報アイテムがマッピングされるノード位置にディザ成分を加算する。ディザ成分は、ノード間隔の±１／２をランダムに加算するものである。例えば、図６に示すように、マッピング処理により出力ノード２００が選択された情報アイテムにディザ成分が加算され、この情報アイテムは、実際には、図６に点線枠で示す領域２１０内の任意のノード位置にマッピングされる。

このように、情報アイテムは、図６の面上において、ＳＯＭ処理の「出力ノード」とは異なるノード位置にマッピングされることもある。

いかなる時点においても、ＳＯＭに新たな情報アイテムを追加することができる。この処理は、上述したステップ（すなわち、ステップ１１０〜ステップ１４０）を実行し、これにより得られた縮小された特徴ベクトルを「先にトレーニングされている」ＳＯＭモデル、すなわち、マップの自己組織化処理によって得られたＳＯＭモデルの組に適用することによって行われる。したがって、新たに追加された情報アイテムについては、マップは、通常、「再トレーニング」されない。これに代えて、変更されていない全てのＳＯＭモデルに対して、ステップ１５０及びステップ１６０を実行する。新たな情報アイテムが追加される毎にＳＯＭを再トレーニングすると、演算コストが高くなり、また、ユーザは、マップ内においてよくアクセスする情報アイテムの相対的位置に慣れてくるので、再トレーニングは、ユーザを困惑させる場合もある。

しかしながら、再トレーニング処理を行う方が望ましい場合もある。例えば、最初にＳＯＭが生成された後に、新たな用語（例えば、ニュース又は新たな技術分野における新たな用語）が辞書に追加されたとすると、これらの新たな用語は、既存の出力ノードの組には、うまくマッピングできない場合がある。これは、新たに受け取った情報アイテムを既存のＳＯＭにマッピングする際に検出される所謂「量子化誤差」の増大によって、検出される。この実施の形態では、量子化誤差を誤差量の閾値と比較する。量子化誤差が閾値を超えている場合、（ａ）ＳＯＭに元から含まれる情報アイテム及びＳＯＭの生成後に加えられたあらゆる情報アイテムを用いて、ＳＯＭを自動的に再トレーニングし、又は（ｂ）適切なときに、再トレーニング処理を開始するようユーザに促す。再トレーニング処理は、関連する全ての情報アイテムの特徴ベクトルを用いて、ステップ１５０及びステップ１６０を完全に再実行することによって行われる。

図７は、検索作業のために、ＳＯＭを視覚的に表示する表示装置６０の画面を示している。この画面には、検索文字列入力枠２５０と、結果リスト２６０と、ＳＯＭ表示領域２７０とが表示されている。

実際の動作では、ＳＯＭ表示領域２７０は、最初はブランクになっている。ユーザは、検索文字列入力枠２５０にキーワード検索文字列を入力する。次に、ユーザは、キーボード７０のエンターボタンを押圧操作し、又はマウス８０を用いて画面上の検索開始ボタンを選択することにより、検索を開始する。検索文字列入力枠２５０に入力されたキーワードは、標準的なキーワード検索技術を用いて、データベース内の情報アイテムと比較される。この検索の結果は、結果リスト２６０内の各エントリ２８０として表示される。ＳＯＭ表示領域２７０は、検索の結果として得られた各情報アイテムに対応する表示点を表示する。

ＳＯＭを生成するために用いたソート処理により、互いに類似する情報アイテムは、ＳＯＭ内でグループ化されているので、文字列の検索結果は、例えばクラスタ２９０のように、クラスタ内に集中しやすい。ここで、ＳＯＭ表示領域２７０内の各表示点は、結果リスト２６０内の結果の１つに関連したＳＯＭのそれぞれのエントリに対応しており、ＳＯＭ表示領域２７０内の表示点が表示されている各位置は、ノードアレー内におけるこれらのノードの位置に対応している。

ヒット（結果リスト内の結果）の数を少なくする手法を図８を用いて説明する。この実施の形態では、ユーザは、マウス８０を用いて、興味があるノードに対応する表示点の組の周辺を長方形状のボックス（境界線）３００で囲む。結果リスト２６０内には、ボックス３００内の表示点に対応する結果のみが表示される。これらの結果が、ユーザの求めるものと違うことが判明した場合、ユーザは、新たなボックスで他の表示点の組を囲む。

なお、結果リスト２６０は、検索文字列入力枠２５０に入力されたキーワードによる検索条件を満たし、且つ、表示点がボックス３００内にある結果に対応するエントリを表示している。ボックス３００は、ノードアレー内に含まれる（populated）ノードに対応する他の表示点を囲むこともできるが、これらのノードが検索条件を満たしていない場合には、これらのノードは表示されないので、したがって、結果リスト２６０内の結果には含まれない。

本発明の実施の形態を図９を用いて説明する。まず、図９におけるステップ９２０において、ラベルを有していない（この点がコホネンのＳＯＭと異なる）自己組織化マップを生成する。ユーザは、自己組織化マップを検索するためのガイダンスとなるラベルを要求する。本発明の実施の形態においては、ラベルは、ユーザの特定の要求（ニーズ）に合わせて自動的に生成される。ユーザは、図７及び／又は図８を用いて説明したように、検索の結果を示すリストを作成する。ラベルは、この結果に基づいて自動的且つ動的に生成され、ＳＯＭ表示領域２７０の表示点のクラスタ（clusters）を分類するために用いられる。

ステップ９２１において、ユーザは、検索操作を行う。検索動作は、この実施の形態では、図７を用いて説明したように、キーワード検索文字列を用いて行われる。この検索の結果得られた例えば文書等の多くの情報アイテムは、ステップ９２２において、マップ上の個々の（ｘ，ｙ）座標によって示される。ステップ９２１及びステップ９２２に続いて、ステップ９２３において、Ｋ−ｍｅａｎｓクラスタリング及び枝刈り（k-means clustering and pruning）が実行される。ステップ９２３における処理は、ステップ９２１における検索動作の結果として得られた情報アイテムの組に対応するマップ上の（ｘ，ｙ）座標に対して実行される。このステップ９２３においては、周知のＫ−ｍｅａｎｓクラスタリング処理により、類似する情報アイテムを示す情報アイテムのグループが識別される。この処理は、検索結果の情報アイテムに対応する（ｘ，ｙ）座標に隣接した複数のサブクラスタ（sub-cluster）が同じメインクラスタ（main cluster）の一部であるか否かを判定する処理（ステップ９２３における枝刈り処理）を含む。２つのサブクラスタの中心間の距離が閾値より小さい場合、２つのサブクラスタは、同じメインクラスタの一部であるとみなされる。この枝刈り処理は、ステップ９２４において、クラスタ処理が安定する（stable）まで、周知の手法に基づいて繰り返し行われる。

ステップ９２６において、クラスタ内の情報アイテム及びキーワードが特定される。各情報アイテムについて、上位２０個のキーワード及びその出現頻度が予め算出される。クラスタのラベルを算出する処理は、各情報アイテムについて予め導出された全てのキーワードの出現頻度の合計を算出し、最も出現頻度が高いキーワードを選択する処理を含む。選択されたキーワードは、クラスタのラベルとして適用される。このように、キーワードを予め算出することにより、クラスタのラベルを生成するために必要な時間を著しく短縮することができる。

クラスタ内に１つの情報アイテムしかない場合、その情報アイテムの「タイトル」をラベルとして用いる。

このように、クラスタの決定及びクラスタに対するラベルの付与は、ユーザによる検索に基づいて行われる。

上述したサブクラスタの中心間の距離に関する閾値は、ユーザが選択してもよい。これに代えて、閾値を「拡大率（zoom）」に基づいて定めてもよい。ＳＯＭは、その一部を拡大して見ることができる。マップを縮小して見ると、隣接するクラスタは、より大きな１つのクラスタに見えるが、マップを拡大して見ると、これらのクラスタは、それぞれ独立して見える。したがって、閾値は、拡大率に基づいて決定される。

情報アイテムは、文書でも画像でも映像でもよい。情報アイテムが画像や映像等のメディアアイテムである場合、キーワードは、画像や映像に関連するメタデータにおいて用いられているキーワードであってもよい。タイトルもメタデータの一例である。メタデータの他の例については、当該分野において周知である。

更に、映像等のメディアアイテムを表すために、代表キースタンプ（Representative Key Stamp：ＲＫＳ）を生成する手法も知られている。本発明の他の実施の形態においては、図７、又は図７及び図８、並びに上述したステップ９２０〜ステップ９２４に従って検索を実行し、ＳＯＭ表示領域２７０における表示点に対応する検索結果のリストを生成し、安定したクラスタを特定する。そして、ステップ９２８〜ステップ９３１として示すように、クラスタ２９０のラベルとして、ＲＫＳが選択される。例えば、本発明の一実施の形態においては、ステップ９２８において、クラスタ２９０のメディアアイテムのＲＫＳが選択され、ステップ９２９において、これらのＲＫＳの全てのカラーヒストグラムが算出される。ステップ９３０において、カラーヒストグラムの平均値が算出され、ステップ９３１において、この平均値に最も近いカラーヒストグラムを有するＲＫＳが選択される。このように平均に近いＲＫＳがクラスタを代表するＲＫＳとなる。これにより、クラスタに対して、そのクラスタを代表するＲＫＳをラベルとして付すことができる。個々のＲＫＳは、そのクラスタ又は各クラスタ内の個々のメディアアイテムを表している。

検索結果のリスト全体を表すＲＫＳと、各クラスタを表すＲＫＳと、検索リストの結果における個々のアイテムを表す個々のＲＫＳとからなるＲＫＳの階層構造を生成してもよい。

１つのメディアアイテムのＲＫＳは、周知のいかなる手法で選択してもよい。以下に、ＲＫＳを選択する手法の一例を説明する。

１）１つのメディアアイテムのＲＫＳを決定するために、メディアアイテム内の各フレームについてメトリックを算出し、フレーム内に顔があるか、その顔が誰の顔であるか、及び音声チャンネルに人間の声が含まれているかを判定する。そして、メディアアイテム内に最も多く登場する個人の顔を含み、更にその個人の声を含むフレームを、代表フレームとして選択することができる。例えば、「パーキンソン（Parkinson）：英国で有名なテレビジョン番組司会者」は、ゲストの登場するフレームより、パーキンソン自身がカメラに向かって話しているフレームを好む。

メディアアイテムのグループ（例えば、リスト又はクラスタ）のＲＫＳは、周知のいかなる手法で選択してもよい。この幾つかの具体例を以下に示す。

２）メディアアイテムのグループのＲＫＳを決定するために、全てのメディアアイテム内の全てのフレームに対して、１）と同様の処理を行ってもよい。例えば、５分のメディアアイテムが１０個ある場合、これを１つの５０分のメディアアイテムとみなして、１）と同様の処理を行ってもよい。

３）これに代えて、メディアアイテムのグループについて、１）と同様の手法で、各メディアアイテムのＲＫＳを決定することもできる。次に、検索結果のリストが、検索クエリに対する関連性に基づいて各検索結果をランク付けする関連メトリック（relevancy metric）を含んでいると仮定する。これにより、メディアアイテムのグループにおいて最も関連性が高いメディアアイテムのＲＫＳをメディアアイテムのグループのＲＫＳとすることができる。

４）上述した３）の手法の拡張として、任意の手法を用いて検索結果をランク付けし、検索結果のクラスタのうち、最もランクが高いメディアアイテムを判定し、そのメディアアイテムのＲＫＳによって、グループを表してもよい。

５）ＲＫＳを決定する単純な手法として、グループ内の全てのメディアアイテムを構成する全てのフレームの組から、自動的にランダムにフレームを選択し、又は、単純に、メディアアイテムのグループのうち、最初に処理することになったフレームを自動的に選択してもよく、ユーザが最も代表的である考えるフレームを選択してもよい。

図１０は、ビデオ捕捉及び／又は処理装置（video acquisition and/or processing apparatus）の具体例として、カムコーダ５００の構成を示す図である。カムコーダ５００は、撮像装置５１０と、撮像装置５１０に取り付けられたレンズ５２０と、データ／信号プロセッサ５３０と、テープ状記録媒体５４０と、ディスク状又はランダムアクセス記録媒体５５０と、ユーザ操作子５６０と、表示装置５７０と、表示装置５７０に取り付けられた接眼レンズ５８０とを備える。周知のカムコーダ又は他の代替物におけるこの他の特徴（例えば、異なる記録媒体又は異なる表示画面構成）は、当業者にとって明らかである。実際の使用時には、捕捉されたビデオマテリアルに関連するメタデータがディスク状又はランダムアクセス記録媒体５５０に保存され、この保存されたデータに関連するＳＯＭが表示装置５７０に表示され、ユーザ操作子５６０を用いて、上述のように制御される。

図１１は、携帯可能なデータ表示装置の具体例として、携帯情報端末（personal digital assistant：以下、ＰＤＡという。）６００の構成を示す図である。ＰＤＡ６００は、表示領域６２０及びユーザ操作子として機能するタッチセンサ領域６３０を有する表示画面６１０と、データ処理部及びデータ記録部（図示せず）とを備える。ここでも、この分野における当業者は、変形例を容易に想到できる。ＰＤＡ６００は、図１を用いて説明した情報格納及び検索システムと同様に使用することができる。

添付の図面を参照して本発明を詳細に説明したが、本発明は上述の実施の形態の詳細に限定されるものではなく、当業者は、添付の請求の範囲に定義された本発明の思想及び範囲から逸脱することなく、上述の実施の形態を様々に変更及び修正することができる。

情報保存及び検索システムの構成を示す図である。自己組織化マップ（ＳＯＭ）の生成の手順を説明するフローチャートである。ａ及びｂは、用語頻度ヒストグラムを示す図である。ａは、生の特徴ベクトルを示し、ｂは、縮小された特徴ベクトルを示す図である。ＳＯＭの構造を示す図である。ディザ処理を説明する図である。ＳＯＭによって表現された情報にアクセスするためのユーザインタフェースを提供する表示画面を示す図である。ＳＯＭによって表現された情報にアクセスするためのユーザインタフェースを提供する表示画面を示す図である。ラベルの自動的な生成処理を説明するフローチャートである。ビデオ取得及び／又は処理装置の具体例として、カムコーダの構成を示す図である。携帯型データ処理装置の具体例として、携帯情報端末の構成を示す図である。

符号の説明

１０汎用コンピュータ、２０プロセッサユニット、３０ディスク記憶装置、４０ネットワークインタフェースカード、５０ネットワーク、６０表示装置、７０キーボード、８０マウス、１７０入力ノード、１８０出力ノード、２００出力ノード、１８５２次元平面、２１０領域、２５０検索文字列入力枠、２６０結果リスト、２７０表示領域、２８０エントリ、２９０クラスタ、３００ボックス、５００カムコーダ、５１０撮像装置、５２０レンズ、５３０信号プロセッサ、５４０テープ状記録媒体、５５０ランダムアクセス記録媒体、５６０ユーザ操作子、５７０表示装置、５８０接眼レンズ、６１０表示画面、６２０表示領域、６３０タッチセンサ領域

Claims

画像データからなる画像アイテムに関連したメタデータを少なくとも有する異なる複数の情報アイテムを、該情報アイテムの相互の類似性によって、類似する情報アイテムがノードアレー内の類似する位置のノードに位置するように、それぞれのノードにマッピングする情報検索装置において、
検索条件を定義するユーザ操作手段と、
上記検索条件に基づいて上記情報アイテムを選択するために、上記画像アイテムに関連したメタデータの検索を実行し、選択された情報アイテムに対応する上記ノードアレー内の位置を検出するプロセッサと、
上記選択された情報アイテムに対応するノードアレー内の位置を示す表示点を表示するグラフィカルユーザインタフェースとを備え、
上記プロセッサは、上記選択された情報アイテムの情報コンテンツを代表する１つ以上の代表画像を提供し、
上記プロセッサ及び上記グラフィカルユーザインタフェースは、協働して、上記検索によって選択された情報アイテムに対応する表示点のみを該グラフィカルユーザインタフェースに表示することを特徴とする情報検索装置。
上記グラフィカルユーザインタフェースは、上記表示点の２次元アレーを表示することを特徴とする請求項１記載の情報検索装置。
表示されたときに、略同一の情報アイテムが上記ノードアレーにおいて近接しているが、異なるノードにマッピングされるように、該情報アイテムとノードの間のマッピングにディザ成分が加算されることを特徴とする請求項２記載の情報検索装置。
上記情報アイテムは、各情報アイテムから導出される特徴ベクトルに基づいて、上記ノードアレー内のノードにマッピングされることを特徴とする請求項２記載の情報検索装置。
上記情報アイテムの特徴ベクトルは、該情報アイテム内における、情報の特徴のグループ内の各特徴の出現頻度を表すことを特徴とする請求項４記載の情報検索装置。
上記情報アイテムは、テキスト情報を含み、該情報アイテムから導出される特徴ベクトルは、該情報アイテム内における単語のグループ内の各単語の出現頻度からなることを特徴とする請求項５記載の情報検索装置。
上記情報アイテムは、テキスト情報を含み、上記ノードは、該テキスト情報の少なくとも一部の相互の類似性によってマッピングされることを特徴とする請求項１記載の情報検索装置。
上記情報アイテムは、上記情報アイテムの集合における頻度の閾値を超える頻度で出現する単語を除外することによって、上記マッピングのための前処理が施されることを特徴とする請求項６記載の情報検索装置。
上記情報アイテムは、上記情報アイテムの集合における頻度の閾値を下回る頻度で出現する単語を除外することによって、上記マッピングのための前処理が施されることを特徴とする請求項６記載の情報検索装置。
上記プロセッサは、類似する情報アイテムのクラスタを検出し、それぞれのクラスタの情報コンテンツを代表する代表画像を提供することを特徴とする請求項１記載の情報検索装置。
上記プロセッサは、上記代表画像又は各代表画像を、該代表画像によって代表される情報アイテムに対応する表示点のラベルとして、ユーザディスプレイに表示することを特徴とする請求項１記載の情報検索装置。
上記プロセッサは、上記複数の情報アイテムに関連した画像アイテムから、所定の選択条件に基づいて、画像アイテムを全体として代表する画像アイテムを選択することを特徴とする請求項１記載の情報検索装置。
上記プロセッサは、全ての画像アイテムにおける同じ属性の平均に最も近い画像属性を有する画像アイテムを選択することを特徴とする請求項１記載の情報検索装置。
請求項１記載の情報検索装置を備える携帯型データ処理装置。
請求項１記載の情報検索装置を備えるビデオ捕捉及び／又は処理装置。
画像データからなる画像アイテムに関連したメタデータを少なくとも有し、該画像データからなる画像アイテムに少なくとも関連した異なる複数の情報アイテムを、該情報アイテムの相互の類似性によって、類似する情報アイテムがノードアレー内の類似する位置のノードに位置するように、それぞれのノードにマッピングする情報検索方法において、
上記情報アイテムを選択するための検索条件を定義するステップと、
上記画像アイテムに関連したメタデータの検索を実行することによって、上記情報アイテムを選択するステップと、
上記選択された情報アイテムに対応するノードアレー内の位置を検出するステップと、
上記選択された情報アイテムに対応するノードアレー内の位置を示す表示点をグラフィカルユーザインタフェースに表示するステップと、
上記検索条件によって定義された選択された情報アイテムに応じて、該選択された情報アイテムの情報コンテンツを代表する１つ以上の表現を提供するステップとを有し、
上記選択するステップ及び上記検出するステップは、協働して、上記検索によって選択された情報アイテムに対応する表示点のみを上記グラフィカルユーザインタフェースに表示することを特徴とする情報検索方法。
上記表示点を表示するステップは、上記表示点の２次元アレーを表示するステップを有することを特徴とする請求項１６記載の情報検索方法。
類似する情報アイテムのクラスタを検出し、ぞれぞれのクラスタの情報コンテンツを代表する表現を提供するステップを有する請求項１６記載の情報検索方法。
上記表現又は各表現を、該表現によって代表される情報アイテムに対応する表示点のラベルとして、ユーザディスプレイに表示するステップを有する請求項１６記載の情報検索方法。
上記複数の情報アイテムに関連した画像アイテムから、所定の選択条件に基づいて、該画像アイテムを全体として代表する画像アイテムを選択するステップを有する請求項１６記載の情報検索方法。
上記画像アイテムの集合における同じ属性の平均に最も近い属性を有する画像アイテムを選択するステップを有する請求項２０記載の情報検索方法。
請求項１６に記載の情報検索方法の各ステップをコンピュータに実行させるためのプログラムコードを有するコンピュータソフトウェア。
請求項２２記載のコンピュータソフトウェアを提供するコンピュータで上記プログラムコードを読出可能な提供媒体。
当該提供媒体は、記録媒体であることを特徴とする請求項２３記載の提供媒体。
当該提供媒体は、伝送媒体であることを特徴とする請求項２３記載の提供媒体。