JP4937578B2

JP4937578B2 - 情報処理方法

Info

Publication number: JP4937578B2
Application number: JP2005356537A
Authority: JP
Inventors: マイケルカールラング; ジョナサンリチャードソープ; ポールエドワードプライル
Original assignee: Sony United Kingdom Ltd
Current assignee: Sony Europe BV United Kingdom Branch
Priority date: 2004-12-09
Filing date: 2005-12-09
Publication date: 2012-05-23
Anticipated expiration: 2025-12-09
Also published as: US20060143230A1; US8311100B2; CN1786966A; GB0427041D0; EP1669897A3; EP1669897A2; JP2006236311A; GB2421094A

Description

本発明は、情報処理方法に関する。

情報（例えば文書、画像、電子メール、特許情報、例えばオーディオ／ビデオコンテンツ等のインターネットコンテンツ又はメディアコンテンツ等）をキーワードによって検索する方式が数多く確立されている。これらの検索の具体例としては、「グーグル（Google：商標）」、「ヤフー（Yahoo：商標）」等から提供されているインターネット検索「エンジン」があり、これらにおいては、キーワードによる検索が実行され、検索エンジンによって適合度の順にランク付けされた検索結果のリストが得られる。

しかしながら、大量のコンテンツを含むシステム、多くの場合は大規模コンテンツ集合（massive content collection）と呼ばれるシステムにおいては、「ヒット」結果の比較的短いリストが得られる効果的な検索クエリを定式化することは困難となることがある。例えば、本出願を準備している時点で、グーグルにおいて、キーワード「massive document collection」を用いた検索を行ったときは、ヒット数は１７４００００件であった。インターネット全体に保存されているコンテンツの量は、通常、時間と共に増加するので、後で同じ検索を行った場合には、このヒット数は更に増加すると予想される。このようなヒットリストに目を通す（Reviewing）ことは、ひどく時間がかかることである。

大規模コンテンツ集合を活用することが困難である理由は、一般的には、以下のようなものである。
・ユーザが、関連したコンテンツがあることを知らない。
・ユーザが、関連したコンテンツがあることを知っているが、そのコンテンツがどこにあるかを知らない。
・ユーザが、コンテンツがあることを知っているが、そのコンテンツが関連したコンテンツであることを知らない。
・ユーザが、関連したコンテンツがあり、そのコンテンツを見つける方法も知っているが、コンテンツを見つけ出すのに時間がかかる。

「大量文書集合の自己組織化（Self Organisation of a Massive Document Collection）」、コホネン（Kohonen）他、ニューラルネットワークに関するＩＥＥＥ研究論文（IEEE Transactions on Neural Networks）、Ｖｏｌ１１、Ｎｏ．３、２０００年５月、５７４〜５８５頁には、所謂「自己組織化マップ（self-organising maps：以下、ＳＯＭという。）」を用いた技術が開示されている。ＳＯＭは、各文書の属性を表す「特徴ベクトル（feature vector）」をＳＯＭのノードにマッピングする、所謂教師なき自己学習ニューラルネットワークアルゴリズム（unsupervised self-learning neural network algorithm）を利用している。

コホネン他の論文に開示されている手法では、まず、文書テキストを前処理し、前処理された各文書から特徴ベクトルが導かれる。この特徴ベクトルは、大きな単語の辞書における各単語の出現頻度を示すヒストグラムの形式で表すことができる。ヒストグラム内の各データ値（すなわち、辞書中のそれぞれの単語の各出現頻度）は、辞書内の候補となる単語の総数（この論文に記述されている具体例では、４３２２２個）をｎとして、ｎ値のベクトルにおける値となる。例えば、ある単語の適合度を増加させ又は特異性を強調するために、ｎ個のベクトル値に重み付けを適用してもよい。

そして、ｎ値のベクトルは、次元がより小さいベクトル（すなわちｎに比べてかなり小さな値の数ｍ（論文内の具体例では５００）の値を有するベクトル）にマッピングされる。これは、乱数の配列により構成されるｎ×ｍの「射影行列（projection matrix）」をベクトルに乗算することによって実現される。この手法により、次元が小さくされたどの２つの縮退ベクトルをとっても、それぞれ対応する２つの入力ベクトルと略同じ内積を有する、次元がより縮退されたベクトルが生成される。

そして、次元が縮退されたベクトルは、各ベクトルに「モデル（他のベクトル）」を乗算する処理によって、ＳＯＭ上のノード（ニューロンともいう）にマッピングされる。これらのモデルは、学習プロセスによって生成される。この学習プロセスでは、モデルを相互の類似性に基づいて自動的にＳＯＭ上に順序付けする。ＳＯＭは、通常、ノードの２次元グリッドとして表される。これは、膨大な演算を必要とする処理であり、コホネン他は、この処理のために、７００万の文書に満たない文書データベースに対して、８００ＭＢのメモリを有する６プロセッサのコンピュータで６週間を費やしている。最終的には、ＳＯＭを構成するノードのグリッドが表示され、ユーザはマップの領域をズームしてノードを選択することができ、これにより、ユーザインタフェースは、そのノードにリンクされた文書が含まれるインターネットページへのリンクを提供する。

本発明は、情報処理技術を改善することを目的とする。

本発明は、情報アイテムの相互の類似性に基づき、類似する情報アイテムがノードのアレー内の同様な位置にマッピングされ、情報アイテムをノードのアレー内の各ノードにマッピングし、マッピング関係が情報アイテム及びノードのアレー内のノードに関連する特徴データの間で定義される情報処理方法を提供する。この情報処理方法は、（ａ）情報アイテムのグループの各情報アイテムについて、情報アイテムの一組のプロパティにおける各プロパティを表す特徴データを検出するステップと、（ｂ）情報アイテムのグループに対応する特徴データの集合体について、集合体内で重要度が高いプロパティ及び重要度が低いプロパティを検出するステップと、（ｃ）縮退された特徴ベクトルと、ノードのアレー内のノードとの間のマッピングを定義するステップとを有する。

本発明は、（例えば、所謂「特徴ベクトル」の形式で）特徴データの生成及びマッピングを行う手法を提供する。この手法は、コホネンの論文に典型的に示されているような、母集合が疎らな特徴ベクトルだけではなく、例えば、オーディオ／ビデオ情報アイテムのオーディオ又はビデオプロパティを解析することによって得られるような、母集合が遙かに密な特徴データにも好適に適用される。本発明は、上述した特徴ベクトルの縮減法は、母集合が疎である疎ベクトルには適切ではないとの認識を踏まえている。

まず、検出法（例えば、主成分分析）を用いて、検出された特徴のうち、どの特徴が統計的に重要であるかを検出する。そして、情報アイテムの全体のグループに亘って、重要度が低いプロパティを定義する特徴データを削除する。この処理自体により、有用なマッピングを行うために実行すべき演算量が低減される。

なお、好適な実施形態では、あるグループに関して、どの特徴データが削除されたかを定義するデータを保存する。これは、新たな情報アイテムがグループに追加されると、又は新たな検索クエリが実行されると、縮退された特徴ベクトルを直接生成できることを意味し、これにより、更に演算リソースの効率性を高めることができる。

本発明の更なる側面及び特徴は、特許請求の範囲に定義されている。

以下、本発明の実施形態について図面を参照して例示的に説明する。

図１は、情報蓄積及び検索システム（information storage and retrieval system）の構成を示すブロック図であり、この情報蓄積及び検索システムは、汎用コンピュータ１０によって実現されており、汎用コンピュータ１０は、プログラム及びデータを格納するディスク記憶装置３０を含むプロセッサユニット２０と、イーサネット（登録商標）（Ethernet（登録商標） network）又はインターネット等のネットワーク５０に接続されたネットワークインタフェースカード４０と、例えば陰極線管等の表示装置６０と、キーボード７０及びマウス８０等のユーザ入力装置とを備える。この情報蓄積及び検索システムは、プログラム制御の下に動作し、このプログラムは、ディスク記憶装置３０に格納され、及び、例えばネットワーク５０又はリムーバブルディスク（図示せず）から、若しくはディスク記憶装置３０にプリインストールされて提供される。

情報蓄積及び検索システムは、２つの一般的な動作モードで動作する。第１の動作モードでは、情報アイテム（例えば、テキスト情報アイテム）の集合がディスク記憶装置３０に又はネットワーク５０によって接続されたネットワークディスクドライブに集められ、検索動作のために予めソートされるとともに、インデックスが付けられる。第２の動作モードでは、ソートされ、インデックスが付されたデータに対して実際の検索が行われる。

この具体例は、多くの種類の情報アイテムに適用することができる。適した情報の種類としては、以下に限定されるものではないが、例えば、特許情報、ビデオマテリアル、電子メール、プレゼンテーション、インターネットコンテンツ、放送コンテンツ、営業報告書、オーディオマテリアル、グラフィクス及びクリップアート、写真、これらの組合せ又は混合された情報等がある。ここでは、テキスト情報アイテム、又は少なくともテキストコンテンツを含む又は関連した情報について説明する。例えば、オーディオ及び／又はビデオマテリアルのような放送コンテンツは、そのマテリアルをテキスト用語（textual terms）で定義する「メタデータ」に関連付けることができる。

情報アイテムは、従来の方法でディスク記憶装置３０にロードされる。好ましくは、情報アイテムは、アイテムに索引を付けてより容易に検索できるようにデータベース構造の一部として格納されるが、このことは必ずしも必要なわけではない。情報及びアイテムが一旦格納されると、検索のために格納された情報を整理する、図２に示す処理が行われる。

なお、インデックスが付されたデータは、必ずしもローカルのディスクドライブであるディスク記憶装置３０に格納する必要はない。このデータはネットワーク５０を介して汎用コンピュータ１０に接続されたリモートのドライブに格納することもできる。あるいは、情報は、分散方式で、例えばインターネット全域の様々なサイトに格納することもできる。情報が異なるインターネットサイト又はネットワークサイトに格納されている場合、リモートの情報への「リンク（例えば、ユニバーサルリソースロケータ：Universal Resource Locator：ＵＲＬ）」を、例えば関連した要約（summary）、概要（abstract）、又はこのリンクに関するメタデータと共にローカルに格納する第２のレベルの情報格納を用いることもできる。したがって、リモートに格納された情報は、ユーザが（例えば、後述する結果リスト２６０から）関連するリンクを選択しない限り、アクセスされないが、以下の技術的な説明においては、リモートに格納された情報、又は要約、概要、メタデータ、若しくはリンク／ＵＲＬも「情報アイテム」とみなすことができる。

換言すると、「情報アイテム」は、（後述するように）特徴ベクトルを導出及び処理して、自己組織化マップ（ＳＯＭ）へのマッピングを行うことができるアイテムと形式的に定義することができる。後述する結果リスト２６０内のデータは、（情報アイテムがローカルに格納され、容易に表示できる程に十分短い場合）情報アイテム自体であってもよく、あるいは、例えば１つ以上のメタデータ、ＵＲＬ、概要、キーワードのセット、代表的なキースタンプ画像等の情報アイテムを表現及び／又は指示するデータであってもよい。これは、必ずではないが、多くの場合、１組のアイテムを表すデータを一覧化する「リスト」動作に特有なものである。

更なる具体例においては、情報アイテムは、例えば研究チームや法律事務所等のネットワーク化されたワークグループ全体に格納してもよい。また、ハイブリッド形式では、情報アイテムは、ローカルに格納された情報アイテム及び／又はローカルエリアネットワーク全体に格納された情報アイテム及び／又はワイドエリアネットワーク全体に格納された情報アイテムを含んでいてもよい。この場合、情報蓄積及び検索システムは、他人による類似した業績を検索するのに有効であり、例えば、複数の国に亘る大規模な研究開発組織において、類似した研究業績をＳＯＭにおける類似した出力ノードにマッピングすることができる（後述する）。あるいは、新たなテレビジョン番組を企画する場合、本発明に基づく技術を用いて、類似するコンテンツを有する以前の番組を検索することにより、企画中の番組の独創性を調査することもできる。

図１に示す汎用コンピュータ１０は、インデックスが付された情報アイテムを用いる可能なシステムの一例に過ぎない。初期の（インデックス付与）段階は、相当の演算能力を有するコンピュータ、可能性としては携帯型ではないコンピュータによって実行されるが、後の段階では、例えば、携帯情報端末（personal digital assistant：ＰＤＡ、表示画面とユーザ入力装置とを備え、通常片手で持てる程度の寸法のデータ処理装置）、ラップトップコンピュータ等の携帯型コンピュータによって、更には携帯電話、ビデオ編集装置、ビデオカメラ等の機器で、情報のアクセスを実行してもよい。包括的に言えば、情報にアクセスする動作段階では、表示画面を有するあらゆる機器を用いることができる。

この処理は、情報アイテムの特定の数に限定されるものではない。

情報アイテムの自己組織化マップ（ＳＯＭ）表現を生成する処理について、図２〜図４を用いて説明する。図２は、ＳＯＭマッピング処理の前に行われる、所謂「特徴抽出（feature extraction）」を説明するフローチャートである。

特徴抽出は、生のデータ（raw data）を抽象的表現（abstract representation）に変換する処理である。そして、この抽象的表現は、パターン分類、クラスタ化、認識等の処理に用いることができる。この処理により、所謂「特徴ベクトル」が生成される。特徴ベクトルは、文書内で使用されている用語の頻度の抽象的表現である。

図２の基本的な手順は、以下の通り、オーディオ及び／又はビデオマテリアルを含む情報アイテムのグループ内の情報アイテム１００に関して実行される。

ステップ１１０において、各情報アイテムのオーディオ及び／又はビデオプロパティを順次検出する。ステップ１２０、１３０においては、重要度が高い及び重要度が低いプロパティデータを検出する処理を実行し、重要度が低いプロパティデータを削除する。ステップ１４０において、残りの（削除されなかった）プロパティデータを結合し、「縮退された」特徴ベクトルを生成する。情報アイテムの集合について、一旦、「縮退された」特徴ベクトルを生成すると、ステップ１５０において、これらを二次元ＳＯＭに射影し、意味論的なマップを作成する。そして、ステップ１６０において、「ディザ（dither）」関数（後述）を適用する。

後述するように、ステップ１２０〜１４０は、他の順序で実行してもよく、例えば、結合の後にデータを削除してもよい（又は、実際には、削除処理は結合の前及び後のいずれの時点で行ってもよい）。それぞれの手法の利点については、後に説明する。

以下、ステップ１１０〜１４０について、より詳細に説明する。

この技術の目的は、可能な限り少ない変数で又は少なくとも変数の数を減らして（オーディオ及びビデオ情報から）メディアアイテムジャンルを表す特徴ベクトルを自動的に抽出することである。この特徴ベクトルを、ここでは、「縮退された特徴ベクトル」と呼ぶ。

縮退された特徴ベクトルは、複数の「基本特徴ベクトル」の組合せからなる。基本特徴ベクトルは、色、形状等の特定の種類の特徴をカプセル化する。

縮退された特徴ベクトルを作成するためには、まず、以下の質問に答える必要がある。
・縮退された特徴ベクトルの作成のためにどの基本特徴ベクトルを用いることが適当であるか。
・基本特徴ベクトルを結合して縮退された特徴ベクトルを形成する最良の手法は何であるか。
・基本特徴ベクトル及び縮退された特徴ベクトルが何らかの冗長データを含んでいるか、及び冗長データが含まれている場合、それを取り除くことができるか。

この具体例では、経験的検査のために、２つの異なるデータ集合を用いることとした。第１のデータ集合は、様々なテレビ番組からの６９７個の５分間の編集されたクリップからなり、この第１のデータ集合を、以後「ＴＶマテリアル」と呼ぶ。第２のデータ集合は、背景環境に基づいて分類された、様々な長さ（約５秒乃至約５分）の４４２個の編集されていないクリップからなり、この第２のデータ集合を、以後、「ＤＶマテリアル」と呼ぶ。各データ集合は、以下のように、それぞれ６つの異なるジャンル／種類に分類される。

ＴＶジャンル
・アニメーション
・ゲームショー
・ニュース
・ドラマ
・スポーツ
・トークショー
ＤＶジャンル
・自動車
・ダイビング
・ファッション
・セーリング
・南極
・電車

核となる技術は、自己組織化マップ（ＳＯＭ）に基づいているので、特徴ベクトルの成功は、「組織化精度（organisation accuracy）」によって測定することができる。組織化精度は、以下の手法で計算される：
ＳＯＭの各ノードは、複数のオブジェクトに対応することがあり、これらのオブジェクトは、同じジャンルからのオブジェクトである場合もあれば、異なるジャンルからのオブジェクトである場合もある。ここでは、各ノードを１つの種類のジャンルのみに対応付けることを目的とする。成功を測定するために、ＳＯＭ内の各ノードを、主なジャンル（そのノードへの既知の所望のマッピングとみなされる）によって分類し、ノードに関連するアイテムの総数におけるその主なジャンルの割合を算出する。そして、ＳＯＭ内の全てのノードに亘ってこの割合を平均し、これにより得られる平均値を以後「組織化精度」と呼ぶ。

したがって、換言すれば、異なる縮退された特徴ベクトルの長さについて組織化精度（後述）を比較することにより、縮退された特徴ベクトルによって得られたマッピングと、既知の所望のマッピングとの間の差異の度合いが判明する。

基本特徴ベクトルの生成
この実験の第１の部分で用いた基本特徴ベクトルには、５つの種類があり、これらは、色、形状、オーディオ、顔及びエッジ／プレーンに基づく特徴ベクトルである。以下に示す結果の多くは、エッジ／プレーンベクトルなしで導出されたものであるが、後述する順列に加えて（又は順列内の１又は複数のベクトルに代えて）エッジ／プレーンベクトルを用いて同様の原理を適用してもよい。更に、以下に示す順列は、単に例示的なものであり、ベクトルの他の順列を用いてもよい。

色
用いることができる幾つかの色モデルがある。この実験の目的に最適な色モデルを見出すために、幾つかの色モデルを試した。

各色モデル実験において、メディアアイテムの各フレームについて、２０ビンのヒストグラムを算出し、メディアアイテム全体に亘って、ヒストグラム内の各列の平均及び標準偏差を算出した。平均及び標準偏差ベクトルは、メディアアイテムを表す基本特徴ベクトルとして用いた。また、平均及び標準偏差の結合を基本特徴ベクトルとして用い、以下ではこれを「組合せ」と呼ぶ。これらから算出された色モデル及び特徴ベクトルは、以下の通りである。

・色相ヒストグラム
・平均
・標準偏差
・組合せ（結合された平均及び標準偏差ベクトル）
・明度ヒストグラム
・平均
・標準偏差
・組合せ（結合された平均及び標準偏差ベクトル）
・赤ヒストグラム
・平均
・標準偏差
・組合せ（結合された平均及び標準偏差ベクトル）
・緑ヒストグラム
・平均
・標準偏差
・組合せ（結合された平均及び標準偏差ベクトル）
・青ヒストグラム
・平均
・標準偏差
・組合せ（結合された平均及び標準偏差ベクトル）
・ＲＧＢヒストグラム（６０ビン、３つの異なるヒストグラムの組合せ）
・平均
・標準偏差
・組合せ（結合された平均及び標準偏差ベクトル）

形状
２つの異なる種類の形状記述子を検査した。これらの間の差異は、第４のステップにおける高速フーリエ変換（ＦＦＴ）の後に得られる。全ての形状記述子は、以下の手法で抽出される。
１．例えば、双線形補間によって、各フレームを６４×６４画像サイズに変更する。
２．サイズ変更されたフレームに対してＦＦＴを実行する。
３．各方向の最初の１０個の周波数（最低周波数）を１００値の長さの特徴ベクトルに結合する。
４．２つの異なる種類の特徴ベクトルをここで生成する。
ｉ．ベクトルに対しては如何なる処理も施さない通常のＦＦＴ
ｉｉ．特徴ベクトルの各値を以下の式によって処理する拡張されたＦＦＴ（Magnified FFT）
D(u,v)=10*log(1+|F(u,v)|)
５．メディアアイテム全体に亘って、ベクトルの各列についての平均及び標準偏差を算出し、これは、ポストプロセッシングメソッドあたり３つの特徴ベクトルを提供する。
ｉ．平均
ｉｉ．標準偏差
ｉｉｉ．組合せ（結合された平均及び標準偏差特徴ベクトル）

顔
２つの異なる種類の顔の特徴ベクトルを検査した。一方を「顔特徴」と呼び、他方を「顔統計」と呼ぶ。

顔統計基本特徴ベクトル（face statistics basic feature vector）は、以下のように生成される。

１．各フレームについて、以下の３つの変数を算出する。
・顔カウント、すなわち、フレーム内にある顔の数
・フレーム内の全ての顔の平均した顔のサイズ
・フレーム内の全ての顔の平均ｘ（水平）位置
２．そして、メディアアイテム内の全てのフレームに亘って、３つの全ての変数について、平均及び標準偏差を算出する。
３．顔カウント、サイズ及びｘ−位置に関する平均及び標準偏差は、６個の変数を有する特徴ベクトルを形成する。

顔特徴基本特徴ベクトル（face features basic feature vector）は、以下のように生成される。

１．顔のサイズ及び顔のｘ−位置に基づいてフレーム内の全ての顔を６つの異なるクラスに分類する顔分類器を用いる。
顔分類器は、以下のように動作する。
ａ．顔のサイズが（例えば、幅について）２１画素以上の場合、その顔をサブクラスＡとして分類し、顔のサイズが２１画素より小さい場合、その顔をサブクラスＢとして分類する。
ｂ．顔のｘ−位置について、例えば、左端からの画素数が７４画素（例えば、左端からの画素数）未満である場合、７４〜１１４画素である場合、１１４画素を上回る場合等に基づいて、サブクラスＡ及びＢの両方を３つの異なるサブクラスに分類する。
２．各メディアアイテムは、７ビンのヒストグラムを有し、第１のビンは、顔がないフレームを表し、他の各ビンは、６つの異なる顔クラスを表す。解析された各フレームについて、顔が検出されると、その顔の分類に属するビンを１ずつ大きくする。
３．ヒストグラムは、メディアアイテムを表す７ビンの基本特徴ベクトルを形成する。

オーディオ
利用可能なオーディオ情報は、４８ｋＨｚのサンプルレートを有し、このオーディオ情報は、１６ｍｓのオーバラップを有する３２ｍｓのウィンドウでサンプリングされ、これにより合計Ｎ＝１５３６個のサンプルが得られる。ｒｍｓ振幅は、以下のように定義される。

まず、以下の式に基づいて、全体の信号をハミングウィンドウ化する。

この後、全てのフレームについて、ＦＦＴ係数Ｆ（ω）を算出する。次に、各オーディオフレームについて、以下の特徴を算出する。

・合計スペクトルパワー。スペクトルパワーの対数を用いる。

・サブバンドパワー。次の期間を有する４つのサブバンドパワーを用いる。

サブバンドのパワーは、以下のように算出される。

・明るさ。明るさは周波数重心として定義され、以下のように算出される。

・帯域幅。帯域幅Ｂは、以下のように算出される。

・ピッチ周波数。ピッチ周波数は、以下のようにして測定される。
１．各オーディオフレームについて、パワースペクトルを算出する。
２．パワースペクトルピークを、離散的な演算子｛０．２５ｆ、０．７５ｆ、１．０ｆ、０．７５ｆ、０．２５ｆ｝によって強調する。
３．オーディオウィンドウの高調波を以下のように算出する。
ａ．５０Ｈｚのピッチから１０００Ｈｚのピッチに達するまで、櫛形フィルタのフィルタリング周波数を連続的に高める。各ステップにおいて、櫛形フィルタによってフィルタリングされた信号「Ｃ」と、雑音「Ｎ」との間の差分を取る。
ｉ．櫛形フィルタ値を以下のように算出する。
Ｃ_ｉ＝２．２５＊Ｓ_ｉ−１＋１．５＊Ｓ_ｉ＋２．２５＊Ｓ_ｉ＋１
ここで、「ｉ」は、ピッチ周波数であり、「Ｓ」は、強調された信号である。［ｉ−１，ｉ，ｉ＋１］について、Ｓ＝１のとき、Ｃ＝６となるかを観測する。
ｉｉ．雑音を以下のように算出する。

以下の場合について、Ｓ＝１のとき、Ｎ＝６となるかを観測する。

４．これにより、周波数対高調波のグラフが生成される。高調波のピークは、ピッチ周波数を表す。

・ＦＦＴパワー係数からメル−周波数ケプストラム係数を算出する。三角バンドパスフィルタバンク（triangular bandpass filter bank）によって係数をフィルタリングする。フィルタバンクは、周波数範囲０〜４０００Ｈｚをカバーする一定のメル周波数間隔の１９個の三角フィルタから構成される。フィルタバンクからの出力をＳ_ｋ｛ｋ＝１，２，．．．Ｋ｝と表す。メル周波数スペクトルは、以下のように算出される。

ここで、ｎ＝１，２，３・・・１２は、ケプストラムの順序を表す。

上述の構成により、２０値の特徴ベクトルが生成され、メディアの全体に亘って、列毎に平均及び標準偏差を算出し、これを結合して４０値の特徴ベクトルを生成する。そして、無音のフレームと、メディアアイテム全体におけるフレームの総数との比率を算出し、これを４１個目の変数として特徴ベクトルに加える。

エッジ／プレーンフィールド特徴ベクトル
次に、他の基本特徴ベクトルを定義する。この特徴ベクトルを、エッジ／プレーンフィールドヒストグラム（edge/plain field histogram：以下、ＥＰＦＨという。）特徴ベクトルと呼ぶ。この特徴ベクトルは、以下のような２つの基本的な手順によって生成される。

１．画像内の色値の量子化
２．ＥＰＦＨの生成

色空間の量子化
処理は、０≦Ｈ≦３６０、０≦Ｓ≦１、０≦Ｖ≦１として、ＨＳＶ（Hue Saturation Value：色相・彩度・明度）符号化された画像から開始される。検討される画像がこのフォーマットで提供されていない場合、マッピング処理によって画像をこのフォーマットに変換することは容易（且つ、既知）である。

ＨＳＶ色空間を視覚化すると、円錐の形状になる。定量化ステップは、この円錐を異なるブロックに分割することを目的とする。各ブロックには、インデクスとして番号を付す。各番号自体は、特別な意味はなく、番号は、単にインデクスとしてのみ機能する。

インデクスは、第１に説明する彩度量子化によって生成された（又は、「戻された」）値である。次に、インデクスは、後述する色相及び明度の量子化について言及する。

彩度は、以下のように４つの部分に量子化される。

最後の３つのカテゴリについては、色相及び明度を以下のように量子化する。

色相は、７つの異なる部分に量子化される。

明度Ｃ（Value）は、３つの部分に量子化される。

「無色」として分類された場合、明度値は、以下のように量子化される。

明度Ａ（Value）は、無色の領域においては、４つの部分に量子化される。

ＥＰＦＨの生成
次に、画像内の各画素毎に、各画素（中心画素）を周囲の画素（８つの画素のグループ）と順次比較する。周囲の画素のいずれかが現在の中心画素とは異なる色インデクス値を有する場合、その中心画素は、「エッジ」画素とみなされ、これ以外の場合、プレーンフィールド画素であるとみなされる。

混乱を避けるために、「中心」という用語は、色プロパティが比較されている画素に対する関係に関して、画素の空間的な（画像）位置を示すものとする。一方、「エッジ」及び「プレーンフィールド」という用語は、空間的に周囲の画素に関して、色空間における現在の中心画素の位置を示す。

画素がエッジ画素として分類される場合、その画素は、「エッジ」ヒストグラムに加えられ、この他の場合、「プレーンフィールド」ヒストグラムに加えられる。

それぞれのヒストグラムのビンは、上述した色インデクスである。

特徴ベクトルのポストプロセッシング
エッジヒストグラム及びプレーンフィールドヒストグラムは、長さが１になるように、それぞれ個別に正規化される。また、画像内のエッジ画素の総画素に対する比率（「エッジ比率」）も算出する。

最終的な特徴ベクトルは、正規化されたエッジヒストグラム、正規化されたプレーンフィールドヒストグラム及びエッジ比率の結合を含む。

ベンチマーク特徴ベクトル
主な目的は、個々の基本特徴ベクトルがジャンルと如何に高い相関性を有するかを調べることである。

各特徴ベクトル検査について、以下の表に示すように、列が予想される分類を示し、行が実際の分類を示す混同マトリクス（confusion matrix）を算出する。

各特徴ベクトル演算について、特徴ベクトル精度の尺度として、組織化精度（organisation accuracy）を算出する。また、特徴ベクトルがどれくらいの一般性を有するかに関する尺度として、組織化精度内における標準偏差も算出する。標準偏差が高く、組織化精度も高い場合、これは、特徴ベクトルが幾つかの種類のデータを分類するのに非常に優れており、他の種類のデータの分類には適していないことを意味する。

ここでは、以下の手法で実験を行った。

平均標準偏差正規化法によって、特徴ベクトルを列毎に正規化した。その後、これらの特徴ベクトルを評価した。

確実な結果を得るために、各特徴ベクトルを１００回検査した。この検査の結果を以下の形式で表２に示す。

列１：特徴ベクトルの名称
列２：平均組織化精度は、１００個の混同マトリクスからの組織化精度ＯＡの平均である（このパラメータは、分類がどれ程優れいているかを示す）。これは、百分率で表現される。
列３：組織化精度の標準偏差は、１００個の混同マトリクスからの組織化精度の標準偏差である（このパラメータは、分類がどれ程安定しているかを示す）。
列４：標準偏差精度は、１００個の混同マトリクスからの標準偏差の平均である（このパラメータは、分類がどれ程一般性を有するかを示す）。
列５：標準偏差精度の標準偏差は、１００個の混同マトリクスからの標準偏差の標準偏差である（このパラメータは、分類がどれ程安定しているかを示す）。
列６：検算された全ての特徴ベクトルから平均組織化精度の平均を算出し、この平均を平均組織化精度から減算する。これにより、各特徴ベクトルの成功の度合いが良好に示される。

結果
ＴＶ及びＤＶマテリアルに関するそれぞれの結果を以下の２つの表として示す。第１の表は、検査内で用いられたデータを示し、第２の表は、前章に示した結果を示している。

ＴＶ
ＴＶ検査データは、表３に示すジャンルからの６９７個の５分のクリップからなる。表４は、総合的な結果を示している。

ディスカッション
この技術の目的は、縮退された特徴ベクトルで用いる基本特徴ベクトルを選択することである。この実験では、以下のような、４つの主な種類の基本特徴ベクトルクラスがある。

・色ベースの特徴ベクトル
・ＦＦＴベースの特徴ベクトル
・オーディオベースの特徴ベクトル
・顔ベースの特徴ベクトル
縮退された特徴ベクトルは、この実験では検査しなかったデータ集合にも機能するように多角的（diversified）で安定している必要があると同時に、平均特徴ベクトルより良好に機能することが理想的である。したがって、縮退された特徴ベクトルは、全ての主な基本特徴ベクトルクラスからのデータを含む必要がある。

・色ベースの特徴ベクトル
ＴＶマテリアル及びＤＶマテリアルからの結果を総合すると、この目的に適した色モデルはＲＧＢであることがわかる。なお、ＲＧＢの平均値だけを用いた特徴ベクトルよりも２倍の長さになるが、ＲＧＢの組合せヒストグラムを用いた方が僅かに優れているだけであっても、ここではＲＧＢの組合せヒストグラムを使用する。ＲＧＢの組合せヒストグラムを用いる理由は、組合せヒストグラムが平均値だけより遙かに広範囲に亘る情報を提供し、後述するホテリング変換（Hotelling transform）により、特徴ベクトルが著しく短くなるからである。

・ＦＦＴベースの特徴ベクトル
拡張されたＦＦＴの平均及び標準偏差は、ＴＶ及びＤＶマテリアルの両方について良好に機能する。なお、これらの組合せは、平均及び標準偏差自身程は良好に機能しない。なお、「色ベースの特徴ベクトル」の場合と同様の理由から、ここでは組合せベクトルを用いる。

・オーディオベースの特徴ベクトル
オーディオの特徴ベクトルは、全てのマテリアルについて良好に機能し、良い選択である。

・顔ベースの特徴ベクトル
ＴＶマテリアルについて、２つの異なる種類の顔特徴ベクトルである「顔特徴」及び「顔統計」を検査した。「顔統計」は、「顔特徴」より僅かに良好であり、演算も比較的簡単であった。ＤＶマテリアルについては、「顔特徴」を検査していないが、ＴＶマテリアルからの結果から、基本特徴ベクトル「顔統計」を用いることを判断した。

特徴ベクトルにおける冗長性の調査
特徴ベクトルのコンパクト性は、特徴ベクトルの非常に重要な側面である。この実験の主な目的は、特徴ベクトルをより少ない変数で表現できるかを調査することである。

ベクトルの最も重要な部分を得る一手法として、所謂ホテリング変換を用いる手法がある。ホテリング変換は、特徴ベクトルの統計的特性に基づいている。２０変数のベクトルの変換により、分散が最も大きいトップの／第１の変数（したがって、より重要度が高い変数と考えられる）を有する２０変数のベクトルが得られる。これは、この変換により、特徴ベクトル内の最も重要な特徴がベクトルの始めに移行することを意味する。

実験は、以下の手法で行った。
１．平均標準偏差正規化法によって、列毎に特徴ベクトル集合を正規化した。
２．集合内の全ての特徴ベクトルをホテリング変換によって変換した。
３．以下のような評価ループを開始し、特徴ベクトルに残る変数が１つだけになるまでこの評価ループを継続的に実行した。
ａ．ベクトル内に残る最後（最下位）の変数を除外又は削除する。
ｂ．特徴ベクトルを１０回評価し、平均組織化精度をグラフにする。

この結果を図１０〜図１４に示す。ここで、横軸は、ベクトル内の変数の数を表し、縦軸は、平均組織化精度を表す（また、図１３では、縦軸の１０及び４０の目盛位置を基準として、それぞれ組織化精度の１次導関数及び２次導関数も示している）。ここでは、代表的な結果のみを示している。

これらの結果は、組織化精度への貢献度が低いために削除することができる幾つかの変数があることを示している。この実施形態では、以下を結合することによって縮退された特徴ベクトルを形成する。

・４１変数のオーディオベクトルの最初の７個の変数
・１２０変数のＲＧＢ組合せベクトルの最初の７個の変数
・２００変数の拡張されたＦＦＴ組合せベクトルの最初の１０個の変数
・６変数の顔統計ベクトルの全ての６個の変数

これらの切り捨て点を分析的に導出するために、各グラフの「折点（knee）」を導出し、その折点以降の全ての特徴データを削除することが有用である。これは、傾斜が実質的に水平であり、非常に緩やかに変化しているグラフの右側の領域（例えば、図１０の２５〜４０の変数に対応する領域）におけるグラフの平均傾斜を導出し、及び傾斜が急なグラフの左側の領域（例えば、図１０の１〜６の変数に対応する領域）におけるグラフの平均傾斜を導出することによって行うことができる。これらの２つの傾斜が交差する点が折点を示しているとみなすことができる。所定の少数の更なる変数（例えば、追加的な２つの変数）を安全域として任意に加えてもよい。

これに代えてグラフの左側から始めて、変数の数に関して次に高い変数までの差異が、組織化精度における閾値差異より低くなる点を検出してもよい。

正規化法のベンチマーキング
ＳＯＭ（後述）は、トレーニング及び特徴ベクトルの組織化のためにユークリッド距離を用いる。結合された特徴ベクトルの如何なる部分も、他の如何なる部分より大きな影響を有さないようにするために、「基本特徴ベクトル」の各値が同じ値範囲内になるように各値を正規化することが望ましい。正規化については、以下のような３つの主な手法がある。

１．各基本特徴ベクトルは、等しく結果に貢献するべきであり、したがって、各特徴ベクトルを、それ自身の長さによって正規化することが有用である（所謂ベクトル正規化処理）。（なお、結合の後にベクトル正規化を行った場合、ベクトル正規化は、縮退された特徴ベクトルに対して行われる。）
２．基本特徴ベクトルの各変数は、等しく貢献し、したがって、平均標準偏差正規化又は１次変換によって特徴ベクトルを列毎に正規化する。
３．上の２つ手法の組合せ（例えば、列の正規化の後にそれ自身の長さの正規化を行う。）

実際には、下の表に示すように、８つの有意義な正規化の組合せがある。以下の表では、ＡＬＴ１が生の特徴ベクトルである。なお、表において、「vector」、「mean」及び「linear」は、それぞれ、ベクトル正規化、平均標準偏差正規化及び線形正規化を表している。

以下では、この実験で行った、完全な基本特徴ベクトル、ホテリング変換、縮退された特徴ベクトルの切り捨ての結合、ホテリング変換及び基本特徴ベクトルの切り捨て／丸込みの逆処理及びこれらの結合の場合について説明する。

最適な正規化法を見出すために、上で定義した特徴ベクトルを、正規化し、結合する。そして、各特徴ベクトルを１００回を分類し、結果の平均を、ＴＶマテリアルについては表８に、ＤＶマテリアルについては、表９に示す。

ディスカッション
結合の前後のベクトル正規化は、いずれも、結果をより劣化させているだけであることは明らかである。線形正規化は、ＤＶマテリアルについては、結果を改善しているが、ＴＶマテリアルについては、結果を劣化させており、したがって、異なるデータ集合間で不安定であることがわかる。一方、平均標準偏差正規化は、ＴＶマテリアル及びＤＶマテリアルの両方について良好に機能し、したがって、好適な正規化法であると言える。

結合後の縮退された特徴ベクトルにおける冗長性の調査
前章では、幾つかの異なる方法及び処理を用いて縮退された特徴ベクトルを生成した。今までのところ、最良と考えられる手法は、基本特徴ベクトルを用いて、これらを結合し、平均標準偏差正規化法によってこれらを正規化する手法である。

ここで、基本特徴ベクトルを縮退された特徴ベクトルに結合した場合、冗長データが生成されるか否かを調査する。換言すれば、ここでは、基本特徴ベクトルのいずれかが同じデータを含んでいるか否か、同じデータを含んでいるとすれば、これを除去することができるか否かを検討する。

ここでは、上述した特徴ベクトル内の冗長性の調査と同じ手法で検査を行った。

実験結果は、縮退された特徴ベクトルの長さを半分にした場合、組織化精度が約５〜７％低下することを示し、この低下は、この場合、過大な損失であると考えられる。

この実施形態において用いられる好適な縮退された特徴ベクトルの定義を以下に示す。

縮退された特徴ベクトルサブパーツの作成
色
基本的な色特徴ベクトルは、メディアアイテム全体に対する６０ビンＲＧＢヒストグラム（１色あたり２０ビン）の平均及び標準偏差からなる。これにより、１２０変数の特徴ベクトルが得られる。

色ヒストグラムをホテリング変換によって変換し、最初の７個の変数が維持されるように丸める。

形状
各映画フレームを、双線形補間によって、７２０×５７６から６４×６４にサイズ変更する（これにより、エイリアシング問題が生じる）。ここでは、６４×６４の画像をＦＦＴによって変換し、以下のように、１０個の最低周波数のパワーに１を加算した値の対数を保存した。
D(u,v)=10*log(1+|F(u,v)|)
これにより、１００値の長いベクトルが生成される。これらのベクトルは、各フレームについて生成され、メディアアイテム全体に亘る平均及び標準偏差を特徴ベクトルとして用いた。これは、２００値の長さの特徴ベクトルが得られることを意味する。

形状特徴ベクトルをホテリング変換で変換し、（最初の１０個の変数が維持されるように）丸めた。

オーディオ
上述のようにオーディオ特徴ベクトルを作成し、これにより、４１値の特徴ベクトルを得た。

顔
上述のように、顔特徴ベクトルを作成し、これにより、それは６値の特徴ベクトルを得た。

結合及び正規化
サブ特徴ベクトルを平均標準偏差正規化によって正規化し、結合した。これにより、以下のような実証的な組織化精度を有する３０値の長さの特徴ベクトルが得られた。

ＳＯＭに関する包括的説明
本明細書及び参考文献の任意の部分におけるＳＯＭに関する説明も参照される。

自己組織化マップ（ＳＯＭ）は、ｎ次元ベクトルを二次元マップにマッピングする一種のニューラルネットワークである。

マップは、Ｎ×Ｍノードからなり、各ノードは、コードブックベクトルｍ^ｔ _ＮＭを表す。システムが初期化されると、コードブックベクトルは、ランダム値に設定される。

ベクトル集合Ｘ＝｛ｘ｝についてマップをトレーニングするために、まず、例えば、ユークリッド距離等の距離尺度を用いて、ｘを全てのコードブックベクトルｍ^ｔ _ＮＭと比較する。そして、勝利ノード及び勝利ノードの周囲のノードを以下の式に基づいて変更する。

ここで、ｈ（ｎ，ｍ）は、バブル関数等の他の関数を表していてもよい。

ホテリング変換に関する包括的説明
ホテリング変換は、主要成分、固有ベクトル及び離散カーネン−レーベ変換としても知られている。ホテリング変換は、特徴ベクトル内の冗長性を低減するための非常に有用な手法である。

例えば、以下のようなベクトルの母集団について検討する。

平均ベクトルをｍ_ｘ＝Ｅ（ｘ）とする。

そして、共分散行列をＣ_ｘ＝Ｅ（（ｘ−ｍ_ｘ）（ｘ−ｍ_ｘ）^Ｔ）とする。

固有値を選択し、固有ベクトルをマッチングし、固有値の値の降順に対応する順序で固有ベクトルを並べ替えると、行列Ａが得られる。

Ａ＝ｅｉｇ（Ｃ_ｘ）
そして、ホテリング変換は、以下の式で記述することができる。

ｙ＝Ａ・（ｘ−ｍ_ｘ）
ここで、ｘはｙに変換される。ｙベクトルの第１の次元は、分散が最も大きく、第２の次元は、次に分散が大きく、以下同様に、次元が高くなるにつれて分散が小さくなる。これは、固有値のサイズに関して固有ベクトルを組織化したためである。

ベクトル正規化に関する包括的説明
ベクトル正規化とは、ベクトルをそれ自身のノルムで除算する標準の代数的演算である。これにより、長さが１のベクトルが得られる。

列１次変換正規化に関する包括的説明
各列について、最小及び最大を見出し、これらを新たな最小及び最大に変換する。

平均及び標準偏差正規化に関する包括的説明
平均及び標準偏差正規化は、一種の列正規化である。列毎に平均及び標準偏差を取る。そして、各値を平均によって変換し、その列の標準偏差で除算する。

変形例の検討
ホテリング変換によってベクトル集合を変換し、ベクトルによって短くし、ベクトルを結合した場合と、ベクトルを結合し、ホテリング変換によって変換し、最終的な特徴ベクトルを短くした場合とを比較する実験を行い、このような手法に何らかの利点があるかを調べた。

メソッド
この実験では、結合前に短縮された特徴ベクトルと、結合後に短縮された特徴ベクトルの２つの種類の特徴ベクトルを互いに比較した。これらの特徴ベクトルは、以下のようにして導出した。

結合前に短縮された特徴ベクトル
各基本特徴ベクトルをホテリング変換によって変換し、（上述のように）その冗長性「折点」で切り捨て、平均標準偏差正規化によって正規化した。そして、全ての基本特徴ベクトルを結合し、１つの大きい特徴ベクトルを形成した。

結合後に短縮された特徴ベクトル
各基本特徴ベクトルを平均標準偏差正規化によって正規化し、結合して１つの大きい特徴ベクトルを形成した。そして、大きい特徴ベクトルをホテリング変換によって変換し、結合前に短縮された特徴ベクトルと同じ長さに切り捨てた。

そして、組織化精度を１０回算出した。各特徴ベクトルの平均を以下の表に示す。

この結果から、先に基本特徴ベクトルをホテリング変換し、短縮した後、これらを結合する手法の方が、先に基本特徴ベクトルを結合し、縮退された特徴ベクトルをホテリング変換した後、縮退された特徴ベクトルを切り捨てる手法に比べて有利であることがわかる。

上述のように、情報アイテムの集合に対して、「縮減された」特徴ベクトルを一旦生成し、したがって、情報アイテムの集合の情報空間を定義した後、ステップ１５０において、意味論的なマップを生成するために、特徴ベクトルを２次元ＳＯＭに射影する。以下、図３を参照して、コホネン（Kohonen）の自己組織化マップを用い、特徴ベクトルをクラスタ化することによって、２次元にマッピングする処理を説明する。

コホネンの自己組織化マップは、各文書に対して生成された特徴ベクトルをクラスタ化し、組織化するために使用される。

自己組織化マップは、入力ノード１７０と、２次元プレーン１８５として示されるノードの２次元アレー又はグリッド内の出力ノード１８０とを含む。自己組織化マップをトレーニングするために使用される特徴ベクトルの数と同じ数の入力ノード１７０が存在する。自己組織化マップ上の各出力ノード１８０は、重み付けされたコネクション（weighted connection）１９０（１つのコネクションにつき１つの重み）によって入力ノード１７０に関連付けられている。

最初は、これらの重みのそれぞれは、ランダムな値に設定され、繰返し処理によって、「トレーニング」される。自己組織化マップは、このマップの入力ノード１７０に各特徴ベクトルを入力することによってトレーニングされる。入力ベクトルと各出力ノードの重みとの間のユークリッド距離を算出することにより、「最も近い」出力ノードが算出される。

最も近い出力ノードは、「勝者（winner）」と呼ばれ、このノードの重みは、このノードが入力ベクトルにより近づくように重みの値を僅かに変更することによって、トレーニングされる。勝者のノードに加えて、勝者のノードの近くのノードもトレーニングされ、入力ベクトルに若干近づけられる。

単一のノードを重み付けするだけではなく、マップ上のノードの領域を重み付けするこの処理によって、マップを一旦トレーニングすると、入力空間のトポロジの大部分をノードの２次元マップ内に保存することができる。

マップを一旦トレーニングすると、各文書をマップに表示し、どの出力ノードが、その文書の入力特徴ベクトルに最も近いかを見ることができる。重みが特徴ベクトルと等しいことは希であり、特徴ベクトルとこの特徴ベクトルに最も近いノードとの間のユークリッド距離は、「量子化誤差」として知られる。

各文書の特徴ベクトルをマップに表示することにより、この特徴ベクトルがどこに存在し、各文書に対する（ｘ，ｙ）座標で表されるマップ上の位置を見ることができる。これらの（ｘ，ｙ）座標で表されるマップ上の位置は、文書ＩＤとともにルックアップテーブルに入れておくことにより、文書間の関係を視覚化するために使用することができる。

更に、ステップ１６０において、ディザ成分（dither component）を加算する。ディザ成分については、図４を用いて後に説明する。

上述の手法では、２つの同一の又は実質的に同一の情報アイテムが、ＳＯＭのノードアレー内の同じノードにマッピングされてしまうことがある。これは、データを取り扱う上では問題にならないが、表示画面（後に説明する）上にデータを視覚化して表示する際には問題となる。特に、データを表示画面上に視覚化して表示する場合、複数の非常に似ているアイテムを特定のノードにおいて単一のアイテム上で区別できることが、有用であると認められた。したがって、各情報アイテムがマッピングされるノード位置にディザ成分を加算する。ディザ成分は、ノード間隔の最大±１／２をランダムに加算するものである。例えば、図４に示すように、マッピング処理により出力ノード２００を選択する情報アイテムには、ディザ成分が加算され、この情報アイテムは、実際には、図４に点線枠で示す領域２１０内の任意のノード位置にマッピングされる。

したがって、情報アイテムは、図４の面上において、ＳＯＭ処理の「出力ノード」とは異なるノード位置にマッピングされると考えることもできる。

変形例として、上述したＳＯＭマッピング処理において、遙かに高密度な「出力ノード」を用いてもよい。この場合、絶対的に同一の情報アイテムは区別されないが、殆ど同じだが完全に同一ではないような情報アイテムを、近接して配置されているが異なる出力ノードにマッピングすることができる。

図５は、ＳＯＭにソートされたデータを、検索操作において使用するためにグラフィカルに表示した表示装置６０の画面を示している。この画面には、検索文字列入力枠２５０と、結果リスト２６０と、ＳＯＭ表示領域２７０とが表示されている。

実際の操作では、ユーザは、検索文字列入力枠２５０にキーワード検索文字列を入力する。次にユーザは、キーボード７０の入力ボタンを押圧操作し、又はマウス８０を用いて画面上の検索開始ボタンを選択することにより検索を開始する。検索文字列入力枠２５０に入力されたキーワードは、標準的なキーワード検索技術を用いて、データベース内の情報アイテムと比較される。この検索の結果は、結果リスト２６０内の各エントリ２８０として表示される。また、それぞれの結果は、ＳＯＭ表示領域２７０のノード上に、点として表示される。

ＳＯＭ表現を作成するために用いたソート処理により、互いに類似する情報アイテムがＳＯＭ内でグループ化されているため、文字列の検索結果は、例えばクラスタ２９０のように、クラスタ内に集中する傾向がある。ここで、ＳＯＭ表示領域２７０内の各点は、結果リスト２６０内の１つの結果に関連したＳＯＭの各エントリに対応しており、ＳＯＭ表示領域２７０内の各点が表示されている位置は、ノードアレー内におけるこれらのノードのアレー位置に対応している。

「ヒット」（結果リスト内の結果）の数を少なくする手法を図６を用いて説明する。ユーザは、マウス８０を用いて、興味があるノードに対応した一組の表示点の周囲を選択枠３００によって囲む。結果リスト２６０内には、選択枠３００内の点に対応する結果のみが表示される。これらの結果が、ユーザの求めるものと違うことが判明した場合、ユーザは、新たな選択枠で他の表示点の集合を囲む。

なお、結果リスト２６０は、検索文字列入力枠２５０に入力されたキーワードによる検索条件を満たし、且つ、表示点が選択枠３００内にある結果に対応したエントリを表示している。選択枠３００は、ノードアレー内に配置されたノードに対応する他の表示点を囲むこともできるが、これらのノードが検索条件を満たしていない場合、これらのノードは表示されず、したがって、結果リスト２６０内の結果にも含まれない。

図７は、結果リスト２６０内のエントリのノード位置を検出する手法を示している。グラフィカルユーザインタフェースの分野、特に、所謂「ウィンドウズ（登録商標）：Windows（登録商標）」オペレーティングシステムを用いるコンピュータにおいて標準的な手法を用いて、ユーザは、結果リスト内の１つ以上のエントリを「選択」することができる。この具体例では、この選択は、該当する結果に関連した「チェックボックス」３１０をマウスでクリックすることによって行われる。なお、この選択は、クリックによって全部の結果を強調表示させ、又は該当する結果をダブルクリックする等、他の手法により実行してもよい。結果を選択すると、ノードアレー内の各ノードを表す対応した表示点は、外観が異なる形式で表示される。これは、結果領域２６０内において選択された結果３３０に対応した２つの表示点３２０として示されている。

外観の変更は、表示点のサイズを大きくし、同じ色を濃くし、色を変更し、又はこれらの異なる属性を組み合わせることによっても実現することができる。

如何なる時点においても、ＳＯＭに新たな情報アイテムを追加することができる。この処理は、上述したステップ（すなわちステップ１１０〜ステップ１４０）を実行し、これにより得られた縮退された特徴ベクトルを「前にトレーニングされている」ＳＯＭモデル、すなわちマップの自己組織化処理によって得られたＳＯＭモデルの組に適用することによって行われる。したがって、新たに追加された情報アイテムに対しては、マップは、通常、「再トレーニング」されない。これに代えて、変更されていない全てのＳＯＭモデルによって、ステップ１５０及びステップ１６０を実行する。新たな情報アイテムが追加される毎にＳＯＭを再トレーニングすると、演算コストが高くなり、また、ユーザは、マップ内においてよくアクセスする情報アイテムの相対的位置に慣れてくるので、再トレーニングは、ユーザを困惑させる場合もある。

なお、主成分検出処理（principal component detection process）によって、元のマッピングを準備する段階で保存された、どの特徴データを残し、どの特徴データを削除するかを定義する情報は、新たにマッピングされたアイテムに関して、対応する縮退された特徴ベクトルを生成するために有用である。同様の処理は、オーディオ／ビデオマテリアルのプロパティに基づく検索クエリにも適用される（例えば、「これに類似する更なるマテリアルを検出する」）。ここでクエリ（又は、データの組との比較）に関連する縮退された特徴ベクトルは、組全体について定義された重要度が高い特徴データの組を用いて生成される。

しかしながら、再トレーニング処理を行う方が望ましい場合もある。例えば、最初にＳＯＭが生成された後に、新たな用語（例えば、ニュース又は新しい技術分野における新たな用語）が辞書に追加されたとすると、これらの新たな用語は、出力ノードの既存の集合には、うまくマッピングできない場合がある。これは、新たに入力された情報アイテムの既存のＳＯＭへのマッピングの際に検出される所謂「量子化誤差」の増加として検出される。この具体例では、量子化誤差を誤差量の閾値と比較する。量子化誤差が閾値を超えている場合、（ａ）ＳＯＭに元から含まれる情報アイテム及びＳＯＭの生成後に加えられたあらゆる情報アイテムを用いて、ＳＯＭを自動的に再トレーニングし、又は（ｂ）適切なときに再トレーニング処理を開始するようにユーザを促す。再トレーニングは、少なくとも閾値数を上回る誤差が検出され、又はこのような数が閾値期間内で検出された場合等の状況のみに限定して行ってもよい。

図８は、ビデオ取得及び／又は処理装置（video acquisition and/or processing apparatus）の具体例として、ビデオカメラ５００の構成を示す図である。ビデオカメラ５００は、撮像装置５１０と、撮像装置５１０に取り付けられたレンズ５２０と、データ／信号プロセッサ５３０と、テープ状記録媒体５４０と、ディスク状又はランダムアクセス記録媒体５５０と、ユーザ操作子５６０と、表示装置５７０と、表示装置５７０に取り付けられた接眼レンズ５８０とを備える。周知のビデオカメラ又は他の代替物におけるこの他の特徴（例えば、異なる記録媒体又は異なる表示画面構成）は、当業者にとって明らかである。実際の使用時には、捕捉されたビデオマテリアルに関連するメタデータがディスク状又はランダムアクセス記録媒体５５０に保存され、この保存されたデータに関連するＳＯＭが表示装置５７０に表示され、ユーザ操作子５６０を用いて、上述のように制御される。

図９は、携帯可能なデータ表示装置の具体例として、携帯情報端末（personal digital assistant：以下、ＰＤＡという。）６００の構成を示す図である。ＰＤＡ６００は、表示領域６２０及びユーザ操作子として機能するタッチセンサ領域６３０を有する表示画面６１０と、データ処理部及びデータ記録部（図示せず）とを備える。ここでも、当業者は、変形例を容易に想到することができる。ＰＤＡ６００は、図１を用いて説明した情報蓄積及び検索システムと同様に使用することができる。

情報保存及び検索システムの構成を示す図である。自己組織化マップ（ＳＯＭ）の作成の手順を説明するフローチャートである。ＳＯＭの構造を示す図である。ディザ処理を説明する図である。ＳＯＭによって表現された情報にアクセスするためのユーザインタフェースを提供する表示画面を示す図である。ＳＯＭによって表現された情報にアクセスするためのユーザインタフェースを提供する表示画面を示す図である。ＳＯＭによって表現された情報にアクセスするためのユーザインタフェースを提供する表示画面を示す図である。ビデオ取得及び／又は処理装置の具体例として、ビデオカメラの構成を示す図である。携帯型データ処理装置の具体例として、携帯情報端末の構成を示す図である。重要度が低い変数が削除された特徴ベクトルの実証的な結果を示すグラフ図である。重要度が低い変数が削除された特徴ベクトルの実証的な結果を示すグラフ図である。重要度が低い変数が削除された特徴ベクトルの実証的な結果を示すグラフ図である。重要度が低い変数が削除された特徴ベクトルの実証的な結果を示すグラフ図である。重要度が低い変数が削除された特徴ベクトルの実証的な結果を示すグラフ図である。

Claims

情報アイテムの特徴データ間相互の類似性に基づき、上記特徴データが類似する情報アイテムがノード配列内の近接する位置にマッピングされるように、該情報アイテムを該ノード配列内の各ノードにマッピングする情報処理方法において、
（ａ）プロセッサが、情報アイテムのグループの各情報アイテムについて、該情報アイテムのプロパティの集合を抽象的表現として示す特徴データをそれぞれ生成し、当該生成された特徴データから、所定の統計手法を用いて、重要度が高いプロパティ及び重要度が低いプロパティを検出し、当該検出された重要度が高いプロパティを有する複数の特徴データから、それぞれ縮退された複数の特徴ベクトルを生成し、当該生成された複数の特徴ベクトルを結合し、当該情報アイテムについて１つの縮退された特徴ベクトルを生成するステップと、
（ｂ）上記プロセッサが、上記生成された縮退された特徴ベクトルを、上記ノード配列内のノードにマッピングするステップと
を有する情報処理方法。
上記情報アイテムは、オーディオ及び／又はビデオマテリアルアイテムを含み、上記プロパティは、マテリアルアイテムのオーディオ及び／又はビデオプロパティを含むことを特徴とする請求項１記載の情報処理方法。
上記検出された重要度が低いプロパティを示すデータを保存するステップを更に有する請求項１又は２記載の情報処理方法。
ノードに新たにマッピングされる情報アイテムに関して、情報アイテムの現在のグループに関連するマッピングを用いるステップと、
少なくとも、上記情報アイテムの現在のグループに関して上記縮退された特徴ベクトルに用いられた情報アイテムのプロパティを表す特徴データを検出するステップと、
検出された特徴データを関連付け、新たにマッピングされる情報アイテムに対応する縮退された特徴ベクトルを形成するステップとを有する請求項３記載の情報処理方法。
新たにマッピングされた情報アイテムと、該情報アイテムがマッピングされるノードとの間のマッピング誤差に基づいて、誤差量を導出するステップと、
上記誤差量が閾値誤差を上回っているか否かを判定するステップと、
上記誤差量が閾値誤差量を上回っている場合、上記新たにマッピングされた情報アイテムを含む情報アイテムの集合体の再マッピングを開始するステップとを更に有する請求項４記載の情報処理方法。
上記誤差量は、上記新たにマッピングされたノードに対応する上記縮退された特徴ベクトルと、上記情報アイテムが新たにマッピングされたノードとの間のユークリッド距離に依存することを特徴とする請求項５記載の情報処理方法。
所定数の新たにマッピングされた情報アイテムに関連する誤差量が閾値誤差量を上回った場合のみ再マッピングを開始するステップを更に有する請求項５又は６記載の情報処理方法。
所定数の新たにマッピングされた情報アイテムに関連する誤差量が閾値誤差量を超え、及びこれらの情報アイテムが、全体として、閾値期間内にマッピングされた場合のみ再マッピングを開始するステップを更に有する請求項７記載の情報処理方法。
上記再マッピング動作は、上記重要度が高い及び重要度が低いプロパティを検出するステップを繰り返すステップを含むことを特徴とする請求項５乃至８いずれか１項記載の情報処理方法。
上記情報アイテムのグループから生成された縮退された特徴ベクトルについて実行されたマッピングを用いてノードに新たにマッピングされる検索クエリに関して、
上記検索クエリの一部として、少なくとも、上記縮退された特徴ベクトルの生成に用いられた、上記情報アイテムの上記重要度が高いプロパティを有する特徴データを記憶するステップと、
上記記憶された特徴データを用いて、上記新たにマッピングされる検索クエリに対応する縮退された特徴ベクトルを生成するステップとを有することを特徴とする請求項３乃至９いずれか１項記載の情報処理方法。
上記重要度が高い及び重要度が低いプロパティを検出するステップは、主成分解析法を用いることを特徴とする請求項１乃至１０いずれか１項記載の情報処理方法。
上記重要度が高い及び重要度が低いプロパティを検出するステップは、ホテリング変換技術を用いることを特徴とする請求項１１記載の情報処理方法。
上記重要度が高い及び重要度が低いプロパティを検出するステップは、個々のプロパティ又はプロパティのサブグループに関して実行されることを特徴とする請求項１乃至１２いずれか１項記載の情報処理方法。
上記一組のプロパティは、色相統計的分布、明度統計的分布、明度統計的分布、色成分統計的分布、画像形状、顔検出統計、オーディオのパワー、オーディオサブバンドのパワー、オーディオの明るさ、オーディオの帯域幅、オーディオのピッチ、オーディオのメル周波数プロパティから選択された１つ以上のプロパティを含むことを特徴とする請求項１乃至１３いずれか１項記載の情報処理方法。
重要度が低いプロパティに関連する特徴データを削除するステップを更に有する請求項１乃至１４いずれか１項記載の情報処理方法。
どのプロパティの重要度が高いか、又は重要度が低いかを判定するために、
（１）上記ノード配列内のノードに既知の望ましいマッピングが行われた所定の情報アイテムの検査グループについて、該情報アイテムのプロパティの集合のそれぞれを表す特徴データを検出するステップと、
（２）上記情報アイテムの検査グループについて検出された上記特徴データの集合体について、該特徴データ内又は該特徴データのサブカテゴリ内で重要度の順序を検出し、
ｎを少なくとも２として、上記特徴データの集合体において重要度が高い順に上位ｎ個の最も重要なプロパティを有する特徴データを結合して、各情報アイテムについて１つの縮退された特徴ベクトルを生成し、
上記生成された縮退された特徴ベクトルを、上記ノード配列内のノードにマッピングし、
上記ｎ個の特徴データから生成された縮退された特徴ベクトルにより実行されたマッピングと、上記既知の望ましいマッピングとの間の差異の度合いを検出するステップと
を更に有する請求項１乃至１５いずれか１項記載の情報処理方法。
ｎにおける上記差異の度合いと、ｎ＋１における上記差異の度合いとの差分が、上記差異の度合いに関する閾値を下回るｎの値を検出することによって、上記重要度が高い特徴データと、上記重要度が低い特徴データとの間の境界を検出するステップを含むことを特徴とする請求項１６記載の情報処理方法。
コンピュータに、請求項１乃至１７いずれか１項記載の情報処理方法における各ステップを実行させるためのプログラム。
請求項１８記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
情報アイテムの特徴データ間相互の類似性に基づき、上記特徴データが類似する情報アイテムがノード配列内の近接する位置にマッピングされるように、該情報アイテムを該ノード配列内の各ノードにマッピングする情報処理装置において、
情報アイテムのグループの各情報アイテムについて、該情報アイテムのプロパティの集合を抽象的表現として示す特徴データをそれぞれ生成し、当該生成された特徴データから、所定の統計手法を用いて、重要度が高いプロパティ及び重要度が低いプロパティを検出する検出手段と、
上記検出された重要度が高いプロパティを有する複数の特徴データから、それぞれ縮退された複数の特徴ベクトルを生成し、当該生成された複数の特徴ベクトルを結合し、当該情報アイテムについて１つの縮退された特徴ベクトルを生成する生成手段と、
上記生成された縮退された特徴ベクトルを、上記ノード配列内のノードにマッピングするマッピング手段と
を備える情報処理装置。
請求項２０記載の情報処理装置を含む携帯型データ処理装置。
請求項２０記載の情報処理装置を含むビデオ取得処理装置。