JP4937578B2 - 情報処理方法 - Google Patents

情報処理方法 Download PDF

Info

Publication number
JP4937578B2
JP4937578B2 JP2005356537A JP2005356537A JP4937578B2 JP 4937578 B2 JP4937578 B2 JP 4937578B2 JP 2005356537 A JP2005356537 A JP 2005356537A JP 2005356537 A JP2005356537 A JP 2005356537A JP 4937578 B2 JP4937578 B2 JP 4937578B2
Authority
JP
Japan
Prior art keywords
information
feature vector
feature data
information processing
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005356537A
Other languages
English (en)
Other versions
JP2006236311A5 (ja
JP2006236311A (ja
Inventor
マイケル カール ラング
ジョナサン リチャード ソープ
ポール エドワード プライル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Europe BV United Kingdom Branch
Original Assignee
Sony United Kingdom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony United Kingdom Ltd filed Critical Sony United Kingdom Ltd
Publication of JP2006236311A publication Critical patent/JP2006236311A/ja
Publication of JP2006236311A5 publication Critical patent/JP2006236311A5/ja
Application granted granted Critical
Publication of JP4937578B2 publication Critical patent/JP4937578B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理方法に関する。
情報(例えば文書、画像、電子メール、特許情報、例えばオーディオ/ビデオコンテンツ等のインターネットコンテンツ又はメディアコンテンツ等)をキーワードによって検索する方式が数多く確立されている。これらの検索の具体例としては、「グーグル(Google:商標)」、「ヤフー(Yahoo:商標)」等から提供されているインターネット検索「エンジン」があり、これらにおいては、キーワードによる検索が実行され、検索エンジンによって適合度の順にランク付けされた検索結果のリストが得られる。
しかしながら、大量のコンテンツを含むシステム、多くの場合は大規模コンテンツ集合(massive content collection)と呼ばれるシステムにおいては、「ヒット」結果の比較的短いリストが得られる効果的な検索クエリを定式化することは困難となることがある。例えば、本出願を準備している時点で、グーグルにおいて、キーワード「massive document collection」を用いた検索を行ったときは、ヒット数は1740000件であった。インターネット全体に保存されているコンテンツの量は、通常、時間と共に増加するので、後で同じ検索を行った場合には、このヒット数は更に増加すると予想される。このようなヒットリストに目を通す(Reviewing)ことは、ひどく時間がかかることである。
大規模コンテンツ集合を活用することが困難である理由は、一般的には、以下のようなものである。
・ユーザが、関連したコンテンツがあることを知らない。
・ユーザが、関連したコンテンツがあることを知っているが、そのコンテンツがどこにあるかを知らない。
・ユーザが、コンテンツがあることを知っているが、そのコンテンツが関連したコンテンツであることを知らない。
・ユーザが、関連したコンテンツがあり、そのコンテンツを見つける方法も知っているが、コンテンツを見つけ出すのに時間がかかる。
「大量文書集合の自己組織化(Self Organisation of a Massive Document Collection)」、コホネン(Kohonen)他、ニューラルネットワークに関するIEEE研究論文(IEEE Transactions on Neural Networks)、Vol11、No.3、2000年5月、574〜585頁には、所謂「自己組織化マップ(self-organising maps:以下、SOMという。)」を用いた技術が開示されている。SOMは、各文書の属性を表す「特徴ベクトル(feature vector)」をSOMのノードにマッピングする、所謂教師なき自己学習ニューラルネットワークアルゴリズム(unsupervised self-learning neural network algorithm)を利用している。
コホネン他の論文に開示されている手法では、まず、文書テキストを前処理し、前処理された各文書から特徴ベクトルが導かれる。この特徴ベクトルは、大きな単語の辞書における各単語の出現頻度を示すヒストグラムの形式で表すことができる。ヒストグラム内の各データ値(すなわち、辞書中のそれぞれの単語の各出現頻度)は、辞書内の候補となる単語の総数(この論文に記述されている具体例では、43222個)をnとして、n値のベクトルにおける値となる。例えば、ある単語の適合度を増加させ又は特異性を強調するために、n個のベクトル値に重み付けを適用してもよい。
そして、n値のベクトルは、次元がより小さいベクトル(すなわちnに比べてかなり小さな値の数m(論文内の具体例では500)の値を有するベクトル)にマッピングされる。これは、乱数の配列により構成されるn×mの「射影行列(projection matrix)」をベクトルに乗算することによって実現される。この手法により、次元が小さくされたどの2つの縮退ベクトルをとっても、それぞれ対応する2つの入力ベクトルと略同じ内積を有する、次元がより縮退されたベクトルが生成される。
そして、次元が縮退されたベクトルは、各ベクトルに「モデル(他のベクトル)」を乗算する処理によって、SOM上のノード(ニューロンともいう)にマッピングされる。これらのモデルは、学習プロセスによって生成される。この学習プロセスでは、モデルを相互の類似性に基づいて自動的にSOM上に順序付けする。SOMは、通常、ノードの2次元グリッドとして表される。これは、膨大な演算を必要とする処理であり、コホネン他は、この処理のために、700万の文書に満たない文書データベースに対して、800MBのメモリを有する6プロセッサのコンピュータで6週間を費やしている。最終的には、SOMを構成するノードのグリッドが表示され、ユーザはマップの領域をズームしてノードを選択することができ、これにより、ユーザインタフェースは、そのノードにリンクされた文書が含まれるインターネットページへのリンクを提供する。
本発明は、情報処理技術を改善することを目的とする。
本発明は、情報アイテムの相互の類似性に基づき、類似する情報アイテムがノードのアレー内の同様な位置にマッピングされ、情報アイテムをノードのアレー内の各ノードにマッピングし、マッピング関係が情報アイテム及びノードのアレー内のノードに関連する特徴データの間で定義される情報処理方法を提供する。この情報処理方法は、(a)情報アイテムのグループの各情報アイテムについて、情報アイテムの一組のプロパティにおける各プロパティを表す特徴データを検出するステップと、(b)情報アイテムのグループに対応する特徴データの集合体について、集合体内で重要度が高いプロパティ及び重要度が低いプロパティを検出するステップと、(c)縮退された特徴ベクトルと、ノードのアレー内のノードとの間のマッピングを定義するステップとを有する。
本発明は、(例えば、所謂「特徴ベクトル」の形式で)特徴データの生成及びマッピングを行う手法を提供する。この手法は、コホネンの論文に典型的に示されているような、母集合が疎らな特徴ベクトルだけではなく、例えば、オーディオ/ビデオ情報アイテムのオーディオ又はビデオプロパティを解析することによって得られるような、母集合が遙かに密な特徴データにも好適に適用される。本発明は、上述した特徴ベクトルの縮減法は、母集合が疎である疎ベクトルには適切ではないとの認識を踏まえている。
まず、検出法(例えば、主成分分析)を用いて、検出された特徴のうち、どの特徴が統計的に重要であるかを検出する。そして、情報アイテムの全体のグループに亘って、重要度が低いプロパティを定義する特徴データを削除する。この処理自体により、有用なマッピングを行うために実行すべき演算量が低減される。
なお、好適な実施形態では、あるグループに関して、どの特徴データが削除されたかを定義するデータを保存する。これは、新たな情報アイテムがグループに追加されると、又は新たな検索クエリが実行されると、縮退された特徴ベクトルを直接生成できることを意味し、これにより、更に演算リソースの効率性を高めることができる。
本発明の更なる側面及び特徴は、特許請求の範囲に定義されている。
以下、本発明の実施形態について図面を参照して例示的に説明する。
図1は、情報蓄積及び検索システム(information storage and retrieval system)の構成を示すブロック図であり、この情報蓄積及び検索システムは、汎用コンピュータ10によって実現されており、汎用コンピュータ10は、プログラム及びデータを格納するディスク記憶装置30を含むプロセッサユニット20と、イーサネット(登録商標)(Ethernet(登録商標) network)又はインターネット等のネットワーク50に接続されたネットワークインタフェースカード40と、例えば陰極線管等の表示装置60と、キーボード70及びマウス80等のユーザ入力装置とを備える。この情報蓄積及び検索システムは、プログラム制御の下に動作し、このプログラムは、ディスク記憶装置30に格納され、及び、例えばネットワーク50又はリムーバブルディスク(図示せず)から、若しくはディスク記憶装置30にプリインストールされて提供される。
情報蓄積及び検索システムは、2つの一般的な動作モードで動作する。第1の動作モードでは、情報アイテム(例えば、テキスト情報アイテム)の集合がディスク記憶装置30に又はネットワーク50によって接続されたネットワークディスクドライブに集められ、検索動作のために予めソートされるとともに、インデックスが付けられる。第2の動作モードでは、ソートされ、インデックスが付されたデータに対して実際の検索が行われる。
この具体例は、多くの種類の情報アイテムに適用することができる。適した情報の種類としては、以下に限定されるものではないが、例えば、特許情報、ビデオマテリアル、電子メール、プレゼンテーション、インターネットコンテンツ、放送コンテンツ、営業報告書、オーディオマテリアル、グラフィクス及びクリップアート、写真、これらの組合せ又は混合された情報等がある。ここでは、テキスト情報アイテム、又は少なくともテキストコンテンツを含む又は関連した情報について説明する。例えば、オーディオ及び/又はビデオマテリアルのような放送コンテンツは、そのマテリアルをテキスト用語(textual terms)で定義する「メタデータ」に関連付けることができる。
情報アイテムは、従来の方法でディスク記憶装置30にロードされる。好ましくは、情報アイテムは、アイテムに索引を付けてより容易に検索できるようにデータベース構造の一部として格納されるが、このことは必ずしも必要なわけではない。情報及びアイテムが一旦格納されると、検索のために格納された情報を整理する、図2に示す処理が行われる。
なお、インデックスが付されたデータは、必ずしもローカルのディスクドライブであるディスク記憶装置30に格納する必要はない。このデータはネットワーク50を介して汎用コンピュータ10に接続されたリモートのドライブに格納することもできる。あるいは、情報は、分散方式で、例えばインターネット全域の様々なサイトに格納することもできる。情報が異なるインターネットサイト又はネットワークサイトに格納されている場合、リモートの情報への「リンク(例えば、ユニバーサルリソースロケータ:Universal Resource Locator:URL)」を、例えば関連した要約(summary)、概要(abstract)、又はこのリンクに関するメタデータと共にローカルに格納する第2のレベルの情報格納を用いることもできる。したがって、リモートに格納された情報は、ユーザが(例えば、後述する結果リスト260から)関連するリンクを選択しない限り、アクセスされないが、以下の技術的な説明においては、リモートに格納された情報、又は要約、概要、メタデータ、若しくはリンク/URLも「情報アイテム」とみなすことができる。
換言すると、「情報アイテム」は、(後述するように)特徴ベクトルを導出及び処理して、自己組織化マップ(SOM)へのマッピングを行うことができるアイテムと形式的に定義することができる。後述する結果リスト260内のデータは、(情報アイテムがローカルに格納され、容易に表示できる程に十分短い場合)情報アイテム自体であってもよく、あるいは、例えば1つ以上のメタデータ、URL、概要、キーワードのセット、代表的なキースタンプ画像等の情報アイテムを表現及び/又は指示するデータであってもよい。これは、必ずではないが、多くの場合、1組のアイテムを表すデータを一覧化する「リスト」動作に特有なものである。
更なる具体例においては、情報アイテムは、例えば研究チームや法律事務所等のネットワーク化されたワークグループ全体に格納してもよい。また、ハイブリッド形式では、情報アイテムは、ローカルに格納された情報アイテム及び/又はローカルエリアネットワーク全体に格納された情報アイテム及び/又はワイドエリアネットワーク全体に格納された情報アイテムを含んでいてもよい。この場合、情報蓄積及び検索システムは、他人による類似した業績を検索するのに有効であり、例えば、複数の国に亘る大規模な研究開発組織において、類似した研究業績をSOMにおける類似した出力ノードにマッピングすることができる(後述する)。あるいは、新たなテレビジョン番組を企画する場合、本発明に基づく技術を用いて、類似するコンテンツを有する以前の番組を検索することにより、企画中の番組の独創性を調査することもできる。
図1に示す汎用コンピュータ10は、インデックスが付された情報アイテムを用いる可能なシステムの一例に過ぎない。初期の(インデックス付与)段階は、相当の演算能力を有するコンピュータ、可能性としては携帯型ではないコンピュータによって実行されるが、後の段階では、例えば、携帯情報端末(personal digital assistant:PDA、表示画面とユーザ入力装置とを備え、通常片手で持てる程度の寸法のデータ処理装置)、ラップトップコンピュータ等の携帯型コンピュータによって、更には携帯電話、ビデオ編集装置、ビデオカメラ等の機器で、情報のアクセスを実行してもよい。包括的に言えば、情報にアクセスする動作段階では、表示画面を有するあらゆる機器を用いることができる。
この処理は、情報アイテムの特定の数に限定されるものではない。
情報アイテムの自己組織化マップ(SOM)表現を生成する処理について、図2〜図4を用いて説明する。図2は、SOMマッピング処理の前に行われる、所謂「特徴抽出(feature extraction)」を説明するフローチャートである。
特徴抽出は、生のデータ(raw data)を抽象的表現(abstract representation)に変換する処理である。そして、この抽象的表現は、パターン分類、クラスタ化、認識等の処理に用いることができる。この処理により、所謂「特徴ベクトル」が生成される。特徴ベクトルは、文書内で使用されている用語の頻度の抽象的表現である。
図2の基本的な手順は、以下の通り、オーディオ及び/又はビデオマテリアルを含む情報アイテムのグループ内の情報アイテム100に関して実行される。
ステップ110において、各情報アイテムのオーディオ及び/又はビデオプロパティを順次検出する。ステップ120、130においては、重要度が高い及び重要度が低いプロパティデータを検出する処理を実行し、重要度が低いプロパティデータを削除する。ステップ140において、残りの(削除されなかった)プロパティデータを結合し、「縮退された」特徴ベクトルを生成する。情報アイテムの集合について、一旦、「縮退された」特徴ベクトルを生成すると、ステップ150において、これらを二次元SOMに射影し、意味論的なマップを作成する。そして、ステップ160において、「ディザ(dither)」関数(後述)を適用する。
後述するように、ステップ120〜140は、他の順序で実行してもよく、例えば、結合の後にデータを削除してもよい(又は、実際には、削除処理は結合の前及び後のいずれの時点で行ってもよい)。それぞれの手法の利点については、後に説明する。
以下、ステップ110〜140について、より詳細に説明する。
この技術の目的は、可能な限り少ない変数で又は少なくとも変数の数を減らして(オーディオ及びビデオ情報から)メディアアイテムジャンルを表す特徴ベクトルを自動的に抽出することである。この特徴ベクトルを、ここでは、「縮退された特徴ベクトル」と呼ぶ。
縮退された特徴ベクトルは、複数の「基本特徴ベクトル」の組合せからなる。基本特徴ベクトルは、色、形状等の特定の種類の特徴をカプセル化する。
縮退された特徴ベクトルを作成するためには、まず、以下の質問に答える必要がある。
・縮退された特徴ベクトルの作成のためにどの基本特徴ベクトルを用いることが適当であるか。
・基本特徴ベクトルを結合して縮退された特徴ベクトルを形成する最良の手法は何であるか。
・基本特徴ベクトル及び縮退された特徴ベクトルが何らかの冗長データを含んでいるか、及び冗長データが含まれている場合、それを取り除くことができるか。
この具体例では、経験的検査のために、2つの異なるデータ集合を用いることとした。第1のデータ集合は、様々なテレビ番組からの697個の5分間の編集されたクリップからなり、この第1のデータ集合を、以後「TVマテリアル」と呼ぶ。第2のデータ集合は、背景環境に基づいて分類された、様々な長さ(約5秒乃至約5分)の442個の編集されていないクリップからなり、この第2のデータ集合を、以後、「DVマテリアル」と呼ぶ。各データ集合は、以下のように、それぞれ6つの異なるジャンル/種類に分類される。
TVジャンル
・アニメーション
・ゲームショー
・ニュース
・ドラマ
・スポーツ
・トークショー
DVジャンル
・自動車
・ダイビング
・ファッション
・セーリング
・南極
・電車
核となる技術は、自己組織化マップ(SOM)に基づいているので、特徴ベクトルの成功は、「組織化精度(organisation accuracy)」によって測定することができる。組織化精度は、以下の手法で計算される:
SOMの各ノードは、複数のオブジェクトに対応することがあり、これらのオブジェクトは、同じジャンルからのオブジェクトである場合もあれば、異なるジャンルからのオブジェクトである場合もある。ここでは、各ノードを1つの種類のジャンルのみに対応付けることを目的とする。成功を測定するために、SOM内の各ノードを、主なジャンル(そのノードへの既知の所望のマッピングとみなされる)によって分類し、ノードに関連するアイテムの総数におけるその主なジャンルの割合を算出する。そして、SOM内の全てのノードに亘ってこの割合を平均し、これにより得られる平均値を以後「組織化精度」と呼ぶ。
したがって、換言すれば、異なる縮退された特徴ベクトルの長さについて組織化精度(後述)を比較することにより、縮退された特徴ベクトルによって得られたマッピングと、既知の所望のマッピングとの間の差異の度合いが判明する。
基本特徴ベクトルの生成
この実験の第1の部分で用いた基本特徴ベクトルには、5つの種類があり、これらは、色、形状、オーディオ、顔及びエッジ/プレーンに基づく特徴ベクトルである。以下に示す結果の多くは、エッジ/プレーンベクトルなしで導出されたものであるが、後述する順列に加えて(又は順列内の1又は複数のベクトルに代えて)エッジ/プレーンベクトルを用いて同様の原理を適用してもよい。更に、以下に示す順列は、単に例示的なものであり、ベクトルの他の順列を用いてもよい。

用いることができる幾つかの色モデルがある。この実験の目的に最適な色モデルを見出すために、幾つかの色モデルを試した。
各色モデル実験において、メディアアイテムの各フレームについて、20ビンのヒストグラムを算出し、メディアアイテム全体に亘って、ヒストグラム内の各列の平均及び標準偏差を算出した。平均及び標準偏差ベクトルは、メディアアイテムを表す基本特徴ベクトルとして用いた。また、平均及び標準偏差の結合を基本特徴ベクトルとして用い、以下ではこれを「組合せ」と呼ぶ。これらから算出された色モデル及び特徴ベクトルは、以下の通りである。
・色相ヒストグラム
・平均
・標準偏差
・組合せ(結合された平均及び標準偏差ベクトル)
・明度ヒストグラム
・平均
・標準偏差
・組合せ(結合された平均及び標準偏差ベクトル)
・赤ヒストグラム
・平均
・標準偏差
・組合せ(結合された平均及び標準偏差ベクトル)
・緑ヒストグラム
・平均
・標準偏差
・組合せ(結合された平均及び標準偏差ベクトル)
・青ヒストグラム
・平均
・標準偏差
・組合せ(結合された平均及び標準偏差ベクトル)
・RGBヒストグラム(60ビン、3つの異なるヒストグラムの組合せ)
・平均
・標準偏差
・組合せ(結合された平均及び標準偏差ベクトル)
形状
2つの異なる種類の形状記述子を検査した。これらの間の差異は、第4のステップにおける高速フーリエ変換(FFT)の後に得られる。全ての形状記述子は、以下の手法で抽出される。
1.例えば、双線形補間によって、各フレームを64×64画像サイズに変更する。
2.サイズ変更されたフレームに対してFFTを実行する。
3.各方向の最初の10個の周波数(最低周波数)を100値の長さの特徴ベクトルに結合する。
4.2つの異なる種類の特徴ベクトルをここで生成する。
i.ベクトルに対しては如何なる処理も施さない通常のFFT
ii.特徴ベクトルの各値を以下の式によって処理する拡張されたFFT(Magnified FFT)
D(u,v)=10*log(1+|F(u,v)|)
5.メディアアイテム全体に亘って、ベクトルの各列についての平均及び標準偏差を算出し、これは、ポストプロセッシングメソッドあたり3つの特徴ベクトルを提供する。
i.平均
ii.標準偏差
iii.組合せ(結合された平均及び標準偏差特徴ベクトル)

2つの異なる種類の顔の特徴ベクトルを検査した。一方を「顔特徴」と呼び、他方を「顔統計」と呼ぶ。
顔統計基本特徴ベクトル(face statistics basic feature vector)は、以下のように生成される。
1.各フレームについて、以下の3つの変数を算出する。
・顔カウント、すなわち、フレーム内にある顔の数
・フレーム内の全ての顔の平均した顔のサイズ
・フレーム内の全ての顔の平均x(水平)位置
2.そして、メディアアイテム内の全てのフレームに亘って、3つの全ての変数について、平均及び標準偏差を算出する。
3.顔カウント、サイズ及びx−位置に関する平均及び標準偏差は、6個の変数を有する特徴ベクトルを形成する。
顔特徴基本特徴ベクトル(face features basic feature vector)は、以下のように生成される。
1.顔のサイズ及び顔のx−位置に基づいてフレーム内の全ての顔を6つの異なるクラスに分類する顔分類器を用いる。
顔分類器は、以下のように動作する。
a.顔のサイズが(例えば、幅について)21画素以上の場合、その顔をサブクラスAとして分類し、顔のサイズが21画素より小さい場合、その顔をサブクラスBとして分類する。
b.顔のx−位置について、例えば、左端からの画素数が74画素(例えば、左端からの画素数)未満である場合、74〜114画素である場合、114画素を上回る場合等に基づいて、サブクラスA及びBの両方を3つの異なるサブクラスに分類する。
2.各メディアアイテムは、7ビンのヒストグラムを有し、第1のビンは、顔がないフレームを表し、他の各ビンは、6つの異なる顔クラスを表す。解析された各フレームについて、顔が検出されると、その顔の分類に属するビンを1ずつ大きくする。
3.ヒストグラムは、メディアアイテムを表す7ビンの基本特徴ベクトルを形成する。
オーディオ
利用可能なオーディオ情報は、48kHzのサンプルレートを有し、このオーディオ情報は、16msのオーバラップを有する32msのウィンドウでサンプリングされ、これにより合計N=1536個のサンプルが得られる。rms振幅は、以下のように定義される。
Figure 0004937578
まず、以下の式に基づいて、全体の信号をハミングウィンドウ化する。
Figure 0004937578
この後、全てのフレームについて、FFT係数F(ω)を算出する。次に、各オーディオフレームについて、以下の特徴を算出する。
・合計スペクトルパワー。スペクトルパワーの対数を用いる。
Figure 0004937578
・サブバンドパワー。次の期間を有する4つのサブバンドパワーを用いる。
Figure 0004937578
サブバンドのパワーは、以下のように算出される。
Figure 0004937578
・明るさ。明るさは周波数重心として定義され、以下のように算出される。
Figure 0004937578
・帯域幅。帯域幅Bは、以下のように算出される。
Figure 0004937578
・ピッチ周波数。ピッチ周波数は、以下のようにして測定される。
1.各オーディオフレームについて、パワースペクトルを算出する。
2.パワースペクトルピークを、離散的な演算子{0.25f、0.75f、1.0f、0.75f、0.25f}によって強調する。
3.オーディオウィンドウの高調波を以下のように算出する。
a.50Hzのピッチから1000Hzのピッチに達するまで、櫛形フィルタのフィルタリング周波数を連続的に高める。各ステップにおいて、櫛形フィルタによってフィルタリングされた信号「C」と、雑音「N」との間の差分を取る。
i.櫛形フィルタ値を以下のように算出する。
=2.25*Si−1+1.5*S+2.25*Si+1
ここで、「i」は、ピッチ周波数であり、「S」は、強調された信号である。[i−1,i,i+1]について、S=1のとき、C=6となるかを観測する。
ii.雑音を以下のように算出する。
Figure 0004937578
以下の場合について、S=1のとき、N=6となるかを観測する。
Figure 0004937578
4.これにより、周波数対高調波のグラフが生成される。高調波のピークは、ピッチ周波数を表す。
・FFTパワー係数からメル−周波数ケプストラム係数を算出する。三角バンドパスフィルタバンク(triangular bandpass filter bank)によって係数をフィルタリングする。フィルタバンクは、周波数範囲0〜4000Hzをカバーする一定のメル周波数間隔の19個の三角フィルタから構成される。フィルタバンクからの出力をS{k=1,2,...K}と表す。メル周波数スペクトルは、以下のように算出される。
Figure 0004937578
ここで、n=1,2,3・・・12は、ケプストラムの順序を表す。
上述の構成により、20値の特徴ベクトルが生成され、メディアの全体に亘って、列毎に平均及び標準偏差を算出し、これを結合して40値の特徴ベクトルを生成する。そして、無音のフレームと、メディアアイテム全体におけるフレームの総数との比率を算出し、これを41個目の変数として特徴ベクトルに加える。
エッジ/プレーンフィールド特徴ベクトル
次に、他の基本特徴ベクトルを定義する。この特徴ベクトルを、エッジ/プレーンフィールドヒストグラム(edge/plain field histogram:以下、EPFHという。)特徴ベクトルと呼ぶ。この特徴ベクトルは、以下のような2つの基本的な手順によって生成される。
1.画像内の色値の量子化
2.EPFHの生成
色空間の量子化
処理は、0≦H≦360、0≦S≦1、0≦V≦1として、HSV(Hue Saturation Value:色相・彩度・明度)符号化された画像から開始される。検討される画像がこのフォーマットで提供されていない場合、マッピング処理によって画像をこのフォーマットに変換することは容易(且つ、既知)である。
HSV色空間を視覚化すると、円錐の形状になる。定量化ステップは、この円錐を異なるブロックに分割することを目的とする。各ブロックには、インデクスとして番号を付す。各番号自体は、特別な意味はなく、番号は、単にインデクスとしてのみ機能する。
インデクスは、第1に説明する彩度量子化によって生成された(又は、「戻された」)値である。次に、インデクスは、後述する色相及び明度の量子化について言及する。
彩度は、以下のように4つの部分に量子化される。
Figure 0004937578
最後の3つのカテゴリについては、色相及び明度を以下のように量子化する。
色相は、7つの異なる部分に量子化される。
Figure 0004937578
明度C(Value)は、3つの部分に量子化される。
Figure 0004937578
「無色」として分類された場合、明度値は、以下のように量子化される。
明度A(Value)は、無色の領域においては、4つの部分に量子化される。
Figure 0004937578
EPFHの生成
次に、画像内の各画素毎に、各画素(中心画素)を周囲の画素(8つの画素のグループ)と順次比較する。周囲の画素のいずれかが現在の中心画素とは異なる色インデクス値を有する場合、その中心画素は、「エッジ」画素とみなされ、これ以外の場合、プレーンフィールド画素であるとみなされる。
混乱を避けるために、「中心」という用語は、色プロパティが比較されている画素に対する関係に関して、画素の空間的な(画像)位置を示すものとする。一方、「エッジ」及び「プレーンフィールド」という用語は、空間的に周囲の画素に関して、色空間における現在の中心画素の位置を示す。
画素がエッジ画素として分類される場合、その画素は、「エッジ」ヒストグラムに加えられ、この他の場合、「プレーンフィールド」ヒストグラムに加えられる。
それぞれのヒストグラムのビンは、上述した色インデクスである。
特徴ベクトルのポストプロセッシング
エッジヒストグラム及びプレーンフィールドヒストグラムは、長さが1になるように、それぞれ個別に正規化される。また、画像内のエッジ画素の総画素に対する比率(「エッジ比率」)も算出する。
最終的な特徴ベクトルは、正規化されたエッジヒストグラム、正規化されたプレーンフィールドヒストグラム及びエッジ比率の結合を含む。
ベンチマーク特徴ベクトル
主な目的は、個々の基本特徴ベクトルがジャンルと如何に高い相関性を有するかを調べることである。
各特徴ベクトル検査について、以下の表に示すように、列が予想される分類を示し、行が実際の分類を示す混同マトリクス(confusion matrix)を算出する。
各特徴ベクトル演算について、特徴ベクトル精度の尺度として、組織化精度(organisation accuracy)を算出する。また、特徴ベクトルがどれくらいの一般性を有するかに関する尺度として、組織化精度内における標準偏差も算出する。標準偏差が高く、組織化精度も高い場合、これは、特徴ベクトルが幾つかの種類のデータを分類するのに非常に優れており、他の種類のデータの分類には適していないことを意味する。
ここでは、以下の手法で実験を行った。
平均標準偏差正規化法によって、特徴ベクトルを列毎に正規化した。その後、これらの特徴ベクトルを評価した。
Figure 0004937578
確実な結果を得るために、各特徴ベクトルを100回検査した。この検査の結果を以下の形式で表2に示す。
列1:特徴ベクトルの名称
列2:平均組織化精度は、100個の混同マトリクスからの組織化精度OAの平均である(このパラメータは、分類がどれ程優れいているかを示す)。これは、百分率で表現される。
列3:組織化精度の標準偏差は、100個の混同マトリクスからの組織化精度の標準偏差である(このパラメータは、分類がどれ程安定しているかを示す)。
列4:標準偏差精度は、100個の混同マトリクスからの標準偏差の平均である(このパラメータは、分類がどれ程一般性を有するかを示す)。
列5: 標準偏差精度の標準偏差は、100個の混同マトリクスからの標準偏差の標準偏差である(このパラメータは、分類がどれ程安定しているかを示す)。
列6:検算された全ての特徴ベクトルから平均組織化精度の平均を算出し、この平均を平均組織化精度から減算する。これにより、各特徴ベクトルの成功の度合いが良好に示される。
Figure 0004937578
結果
TV及びDVマテリアルに関するそれぞれの結果を以下の2つの表として示す。第1の表は、検査内で用いられたデータを示し、第2の表は、前章に示した結果を示している。
TV
TV検査データは、表3に示すジャンルからの697個の5分のクリップからなる。表4は、総合的な結果を示している。
Figure 0004937578
Figure 0004937578
Figure 0004937578
ディスカッション
この技術の目的は、縮退された特徴ベクトルで用いる基本特徴ベクトルを選択することである。この実験では、以下のような、4つの主な種類の基本特徴ベクトルクラスがある。
・色ベースの特徴ベクトル
・FFTベースの特徴ベクトル
・オーディオベースの特徴ベクトル
・顔ベースの特徴ベクトル
縮退された特徴ベクトルは、この実験では検査しなかったデータ集合にも機能するように多角的(diversified)で安定している必要があると同時に、平均特徴ベクトルより良好に機能することが理想的である。したがって、縮退された特徴ベクトルは、全ての主な基本特徴ベクトルクラスからのデータを含む必要がある。
・色ベースの特徴ベクトル
TVマテリアル及びDVマテリアルからの結果を総合すると、この目的に適した色モデルはRGBであることがわかる。なお、RGBの平均値だけを用いた特徴ベクトルよりも2倍の長さになるが、RGBの組合せヒストグラムを用いた方が僅かに優れているだけであっても、ここではRGBの組合せヒストグラムを使用する。RGBの組合せヒストグラムを用いる理由は、組合せヒストグラムが平均値だけより遙かに広範囲に亘る情報を提供し、後述するホテリング変換(Hotelling transform)により、特徴ベクトルが著しく短くなるからである。
・FFTベースの特徴ベクトル
拡張されたFFTの平均及び標準偏差は、TV及びDVマテリアルの両方について良好に機能する。なお、これらの組合せは、平均及び標準偏差自身程は良好に機能しない。なお、「色ベースの特徴ベクトル」の場合と同様の理由から、ここでは組合せベクトルを用いる。
・オーディオベースの特徴ベクトル
オーディオの特徴ベクトルは、全てのマテリアルについて良好に機能し、良い選択である。
・顔ベースの特徴ベクトル
TVマテリアルについて、2つの異なる種類の顔特徴ベクトルである「顔特徴」及び「顔統計」を検査した。「顔統計」は、「顔特徴」より僅かに良好であり、演算も比較的簡単であった。DVマテリアルについては、「顔特徴」を検査していないが、TVマテリアルからの結果から、基本特徴ベクトル「顔統計」を用いることを判断した。
特徴ベクトルにおける冗長性の調査
特徴ベクトルのコンパクト性は、特徴ベクトルの非常に重要な側面である。この実験の主な目的は、特徴ベクトルをより少ない変数で表現できるかを調査することである。
ベクトルの最も重要な部分を得る一手法として、所謂ホテリング変換を用いる手法がある。ホテリング変換は、特徴ベクトルの統計的特性に基づいている。20変数のベクトルの変換により、分散が最も大きいトップの/第1の変数(したがって、より重要度が高い変数と考えられる)を有する20変数のベクトルが得られる。これは、この変換により、特徴ベクトル内の最も重要な特徴がベクトルの始めに移行することを意味する。
実験は、以下の手法で行った。
1.平均標準偏差正規化法によって、列毎に特徴ベクトル集合を正規化した。
2.集合内の全ての特徴ベクトルをホテリング変換によって変換した。
3.以下のような評価ループを開始し、特徴ベクトルに残る変数が1つだけになるまでこの評価ループを継続的に実行した。
a.ベクトル内に残る最後(最下位)の変数を除外又は削除する。
b.特徴ベクトルを10回評価し、平均組織化精度をグラフにする。
この結果を図10〜図14に示す。ここで、横軸は、ベクトル内の変数の数を表し、縦軸は、平均組織化精度を表す(また、図13では、縦軸の10及び40の目盛位置を基準として、それぞれ組織化精度の1次導関数及び2次導関数も示している)。ここでは、代表的な結果のみを示している。
これらの結果は、組織化精度への貢献度が低いために削除することができる幾つかの変数があることを示している。この実施形態では、以下を結合することによって縮退された特徴ベクトルを形成する。
・41変数のオーディオベクトルの最初の7個の変数
・120変数のRGB組合せベクトルの最初の7個の変数
・200変数の拡張されたFFT組合せベクトルの最初の10個の変数
・6変数の顔統計ベクトルの全ての6個の変数
これらの切り捨て点を分析的に導出するために、各グラフの「折点(knee)」を導出し、その折点以降の全ての特徴データを削除することが有用である。これは、傾斜が実質的に水平であり、非常に緩やかに変化しているグラフの右側の領域(例えば、図10の25〜40の変数に対応する領域)におけるグラフの平均傾斜を導出し、及び傾斜が急なグラフの左側の領域(例えば、図10の1〜6の変数に対応する領域)におけるグラフの平均傾斜を導出することによって行うことができる。これらの2つの傾斜が交差する点が折点を示しているとみなすことができる。所定の少数の更なる変数(例えば、追加的な2つの変数)を安全域として任意に加えてもよい。
これに代えてグラフの左側から始めて、変数の数に関して次に高い変数までの差異が、組織化精度における閾値差異より低くなる点を検出してもよい。
正規化法のベンチマーキング
SOM(後述)は、トレーニング及び特徴ベクトルの組織化のためにユークリッド距離を用いる。結合された特徴ベクトルの如何なる部分も、他の如何なる部分より大きな影響を有さないようにするために、「基本特徴ベクトル」の各値が同じ値範囲内になるように各値を正規化することが望ましい。正規化については、以下のような3つの主な手法がある。
1.各基本特徴ベクトルは、等しく結果に貢献するべきであり、したがって、各特徴ベクトルを、それ自身の長さによって正規化することが有用である(所謂ベクトル正規化処理)。(なお、結合の後にベクトル正規化を行った場合、ベクトル正規化は、縮退された特徴ベクトルに対して行われる。)
2.基本特徴ベクトルの各変数は、等しく貢献し、したがって、平均標準偏差正規化又は1次変換によって特徴ベクトルを列毎に正規化する。
3.上の2つ手法の組合せ(例えば、列の正規化の後にそれ自身の長さの正規化を行う。)
実際には、下の表に示すように、8つの有意義な正規化の組合せがある。以下の表では、ALT1が生の特徴ベクトルである。なお、表において、「vector」、「mean」及び「linear」は、それぞれ、ベクトル正規化、平均標準偏差正規化及び線形正規化を表している。
Figure 0004937578
以下では、この実験で行った、完全な基本特徴ベクトル、ホテリング変換、縮退された特徴ベクトルの切り捨ての結合、ホテリング変換及び基本特徴ベクトルの切り捨て/丸込みの逆処理及びこれらの結合の場合について説明する。
最適な正規化法を見出すために、上で定義した特徴ベクトルを、正規化し、結合する。そして、各特徴ベクトルを100回を分類し、結果の平均を、TVマテリアルについては表8に、DVマテリアルについては、表9に示す。
Figure 0004937578
Figure 0004937578
ディスカッション
結合の前後のベクトル正規化は、いずれも、結果をより劣化させているだけであることは明らかである。線形正規化は、DVマテリアルについては、結果を改善しているが、TVマテリアルについては、結果を劣化させており、したがって、異なるデータ集合間で不安定であることがわかる。一方、平均標準偏差正規化は、TVマテリアル及びDVマテリアルの両方について良好に機能し、したがって、好適な正規化法であると言える。
結合後の縮退された特徴ベクトルにおける冗長性の調査
前章では、幾つかの異なる方法及び処理を用いて縮退された特徴ベクトルを生成した。今までのところ、最良と考えられる手法は、基本特徴ベクトルを用いて、これらを結合し、平均標準偏差正規化法によってこれらを正規化する手法である。
ここで、基本特徴ベクトルを縮退された特徴ベクトルに結合した場合、冗長データが生成されるか否かを調査する。換言すれば、ここでは、基本特徴ベクトルのいずれかが同じデータを含んでいるか否か、同じデータを含んでいるとすれば、これを除去することができるか否かを検討する。
ここでは、上述した特徴ベクトル内の冗長性の調査と同じ手法で検査を行った。
実験結果は、縮退された特徴ベクトルの長さを半分にした場合、組織化精度が約5〜7%低下することを示し、この低下は、この場合、過大な損失であると考えられる。
この実施形態において用いられる好適な縮退された特徴ベクトルの定義を以下に示す。
縮退された特徴ベクトルサブパーツの作成

基本的な色特徴ベクトルは、メディアアイテム全体に対する60ビンRGBヒストグラム(1色あたり20ビン)の平均及び標準偏差からなる。これにより、120変数の特徴ベクトルが得られる。
色ヒストグラムをホテリング変換によって変換し、最初の7個の変数が維持されるように丸める。
形状
各映画フレームを、双線形補間によって、720×576から64×64にサイズ変更する(これにより、エイリアシング問題が生じる)。ここでは、64×64の画像をFFTによって変換し、以下のように、10個の最低周波数のパワーに1を加算した値の対数を保存した。
D(u,v)=10*log(1+|F(u,v)|)
これにより、100値の長いベクトルが生成される。これらのベクトルは、各フレームについて生成され、メディアアイテム全体に亘る平均及び標準偏差を特徴ベクトルとして用いた。これは、200値の長さの特徴ベクトルが得られることを意味する。
形状特徴ベクトルをホテリング変換で変換し、(最初の10個の変数が維持されるように)丸めた。
オーディオ
上述のようにオーディオ特徴ベクトルを作成し、これにより、41値の特徴ベクトルを得た。

上述のように、顔特徴ベクトルを作成し、これにより、それは6値の特徴ベクトルを得た。
結合及び正規化
サブ特徴ベクトルを平均標準偏差正規化によって正規化し、結合した。これにより、以下のような実証的な組織化精度を有する30値の長さの特徴ベクトルが得られた。
Figure 0004937578
Figure 0004937578
Figure 0004937578
SOMに関する包括的説明
本明細書及び参考文献の任意の部分におけるSOMに関する説明も参照される。
自己組織化マップ(SOM)は、n次元ベクトルを二次元マップにマッピングする一種のニューラルネットワークである。
マップは、N×Mノードからなり、各ノードは、コードブックベクトルm NMを表す。システムが初期化されると、コードブックベクトルは、ランダム値に設定される。
ベクトル集合X={x}についてマップをトレーニングするために、まず、例えば、ユークリッド距離等の距離尺度を用いて、xを全てのコードブックベクトルm NMと比較する。そして、勝利ノード及び勝利ノードの周囲のノードを以下の式に基づいて変更する。
Figure 0004937578
ここで、h(n,m)は、バブル関数等の他の関数を表していてもよい。
ホテリング変換に関する包括的説明
ホテリング変換は、主要成分、固有ベクトル及び離散カーネン−レーベ変換としても知られている。ホテリング変換は、特徴ベクトル内の冗長性を低減するための非常に有用な手法である。
例えば、以下のようなベクトルの母集団について検討する。
Figure 0004937578
平均ベクトルをm=E(x)とする。
そして、共分散行列をC=E((x−m)(x−m)とする。
固有値を選択し、固有ベクトルをマッチングし、固有値の値の降順に対応する順序で固有ベクトルを並べ替えると、行列Aが得られる。
A=eig(C
そして、ホテリング変換は、以下の式で記述することができる。
y=A・(x−m
ここで、xはyに変換される。yベクトルの第1の次元は、分散が最も大きく、第2の次元は、次に分散が大きく、以下同様に、次元が高くなるにつれて分散が小さくなる。これは、固有値のサイズに関して固有ベクトルを組織化したためである。
ベクトル正規化に関する包括的説明
ベクトル正規化とは、ベクトルをそれ自身のノルムで除算する標準の代数的演算である。これにより、長さが1のベクトルが得られる。
Figure 0004937578
列1次変換正規化に関する包括的説明
各列について、最小及び最大を見出し、これらを新たな最小及び最大に変換する。
Figure 0004937578
平均及び標準偏差正規化に関する包括的説明
平均及び標準偏差正規化は、一種の列正規化である。列毎に平均及び標準偏差を取る。そして、各値を平均によって変換し、その列の標準偏差で除算する。
Figure 0004937578
変形例の検討
ホテリング変換によってベクトル集合を変換し、ベクトルによって短くし、ベクトルを結合した場合と、ベクトルを結合し、ホテリング変換によって変換し、最終的な特徴ベクトルを短くした場合とを比較する実験を行い、このような手法に何らかの利点があるかを調べた。
メソッド
この実験では、結合前に短縮された特徴ベクトルと、結合後に短縮された特徴ベクトルの2つの種類の特徴ベクトルを互いに比較した。これらの特徴ベクトルは、以下のようにして導出した。
結合前に短縮された特徴ベクトル
各基本特徴ベクトルをホテリング変換によって変換し、(上述のように)その冗長性「折点」で切り捨て、平均標準偏差正規化によって正規化した。そして、全ての基本特徴ベクトルを結合し、1つの大きい特徴ベクトルを形成した。
結合後に短縮された特徴ベクトル
各基本特徴ベクトルを平均標準偏差正規化によって正規化し、結合して1つの大きい特徴ベクトルを形成した。そして、大きい特徴ベクトルをホテリング変換によって変換し、結合前に短縮された特徴ベクトルと同じ長さに切り捨てた。
そして、組織化精度を10回算出した。各特徴ベクトルの平均を以下の表に示す。
Figure 0004937578
この結果から、先に基本特徴ベクトルをホテリング変換し、短縮した後、これらを結合する手法の方が、先に基本特徴ベクトルを結合し、縮退された特徴ベクトルをホテリング変換した後、縮退された特徴ベクトルを切り捨てる手法に比べて有利であることがわかる。
上述のように、情報アイテムの集合に対して、「縮減された」特徴ベクトルを一旦生成し、したがって、情報アイテムの集合の情報空間を定義した後、ステップ150において、意味論的なマップを生成するために、特徴ベクトルを2次元SOMに射影する。以下、図3を参照して、コホネン(Kohonen)の自己組織化マップを用い、特徴ベクトルをクラスタ化することによって、2次元にマッピングする処理を説明する。
コホネンの自己組織化マップは、各文書に対して生成された特徴ベクトルをクラスタ化し、組織化するために使用される。
自己組織化マップは、入力ノード170と、2次元プレーン185として示されるノードの2次元アレー又はグリッド内の出力ノード180とを含む。自己組織化マップをトレーニングするために使用される特徴ベクトルの数と同じ数の入力ノード170が存在する。自己組織化マップ上の各出力ノード180は、重み付けされたコネクション(weighted connection)190(1つのコネクションにつき1つの重み)によって入力ノード170に関連付けられている。
最初は、これらの重みのそれぞれは、ランダムな値に設定され、繰返し処理によって、「トレーニング」される。自己組織化マップは、このマップの入力ノード170に各特徴ベクトルを入力することによってトレーニングされる。入力ベクトルと各出力ノードの重みとの間のユークリッド距離を算出することにより、「最も近い」出力ノードが算出される。
最も近い出力ノードは、「勝者(winner)」と呼ばれ、このノードの重みは、このノードが入力ベクトルにより近づくように重みの値を僅かに変更することによって、トレーニングされる。勝者のノードに加えて、勝者のノードの近くのノードもトレーニングされ、入力ベクトルに若干近づけられる。
単一のノードを重み付けするだけではなく、マップ上のノードの領域を重み付けするこの処理によって、マップを一旦トレーニングすると、入力空間のトポロジの大部分をノードの2次元マップ内に保存することができる。
マップを一旦トレーニングすると、各文書をマップに表示し、どの出力ノードが、その文書の入力特徴ベクトルに最も近いかを見ることができる。重みが特徴ベクトルと等しいことは希であり、特徴ベクトルとこの特徴ベクトルに最も近いノードとの間のユークリッド距離は、「量子化誤差」として知られる。
各文書の特徴ベクトルをマップに表示することにより、この特徴ベクトルがどこに存在し、各文書に対する(x,y)座標で表されるマップ上の位置を見ることができる。これらの(x,y)座標で表されるマップ上の位置は、文書IDとともにルックアップテーブルに入れておくことにより、文書間の関係を視覚化するために使用することができる。
更に、ステップ160において、ディザ成分(dither component)を加算する。ディザ成分については、図4を用いて後に説明する。
上述の手法では、2つの同一の又は実質的に同一の情報アイテムが、SOMのノードアレー内の同じノードにマッピングされてしまうことがある。これは、データを取り扱う上では問題にならないが、表示画面(後に説明する)上にデータを視覚化して表示する際には問題となる。特に、データを表示画面上に視覚化して表示する場合、複数の非常に似ているアイテムを特定のノードにおいて単一のアイテム上で区別できることが、有用であると認められた。したがって、各情報アイテムがマッピングされるノード位置にディザ成分を加算する。ディザ成分は、ノード間隔の最大±1/2をランダムに加算するものである。例えば、図4に示すように、マッピング処理により出力ノード200を選択する情報アイテムには、ディザ成分が加算され、この情報アイテムは、実際には、図4に点線枠で示す領域210内の任意のノード位置にマッピングされる。
したがって、情報アイテムは、図4の面上において、SOM処理の「出力ノード」とは異なるノード位置にマッピングされると考えることもできる。
変形例として、上述したSOMマッピング処理において、遙かに高密度な「出力ノード」を用いてもよい。この場合、絶対的に同一の情報アイテムは区別されないが、殆ど同じだが完全に同一ではないような情報アイテムを、近接して配置されているが異なる出力ノードにマッピングすることができる。
図5は、SOMにソートされたデータを、検索操作において使用するためにグラフィカルに表示した表示装置60の画面を示している。この画面には、検索文字列入力枠250と、結果リスト260と、SOM表示領域270とが表示されている。
実際の操作では、ユーザは、検索文字列入力枠250にキーワード検索文字列を入力する。次にユーザは、キーボード70の入力ボタンを押圧操作し、又はマウス80を用いて画面上の検索開始ボタンを選択することにより検索を開始する。検索文字列入力枠250に入力されたキーワードは、標準的なキーワード検索技術を用いて、データベース内の情報アイテムと比較される。この検索の結果は、結果リスト260内の各エントリ280として表示される。また、それぞれの結果は、SOM表示領域270のノード上に、点として表示される。
SOM表現を作成するために用いたソート処理により、互いに類似する情報アイテムがSOM内でグループ化されているため、文字列の検索結果は、例えばクラスタ290のように、クラスタ内に集中する傾向がある。ここで、SOM表示領域270内の各点は、結果リスト260内の1つの結果に関連したSOMの各エントリに対応しており、SOM表示領域270内の各点が表示されている位置は、ノードアレー内におけるこれらのノードのアレー位置に対応している。
「ヒット」(結果リスト内の結果)の数を少なくする手法を図6を用いて説明する。ユーザは、マウス80を用いて、興味があるノードに対応した一組の表示点の周囲を選択枠300によって囲む。結果リスト260内には、選択枠300内の点に対応する結果のみが表示される。これらの結果が、ユーザの求めるものと違うことが判明した場合、ユーザは、新たな選択枠で他の表示点の集合を囲む。
なお、結果リスト260は、検索文字列入力枠250に入力されたキーワードによる検索条件を満たし、且つ、表示点が選択枠300内にある結果に対応したエントリを表示している。選択枠300は、ノードアレー内に配置されたノードに対応する他の表示点を囲むこともできるが、これらのノードが検索条件を満たしていない場合、これらのノードは表示されず、したがって、結果リスト260内の結果にも含まれない。
図7は、結果リスト260内のエントリのノード位置を検出する手法を示している。グラフィカルユーザインタフェースの分野、特に、所謂「ウィンドウズ(登録商標):Windows(登録商標)」オペレーティングシステムを用いるコンピュータにおいて標準的な手法を用いて、ユーザは、結果リスト内の1つ以上のエントリを「選択」することができる。この具体例では、この選択は、該当する結果に関連した「チェックボックス」310をマウスでクリックすることによって行われる。なお、この選択は、クリックによって全部の結果を強調表示させ、又は該当する結果をダブルクリックする等、他の手法により実行してもよい。結果を選択すると、ノードアレー内の各ノードを表す対応した表示点は、外観が異なる形式で表示される。これは、結果領域260内において選択された結果330に対応した2つの表示点320として示されている。
外観の変更は、表示点のサイズを大きくし、同じ色を濃くし、色を変更し、又はこれらの異なる属性を組み合わせることによっても実現することができる。
如何なる時点においても、SOMに新たな情報アイテムを追加することができる。この処理は、上述したステップ(すなわちステップ110〜ステップ140)を実行し、これにより得られた縮退された特徴ベクトルを「前にトレーニングされている」SOMモデル、すなわちマップの自己組織化処理によって得られたSOMモデルの組に適用することによって行われる。したがって、新たに追加された情報アイテムに対しては、マップは、通常、「再トレーニング」されない。これに代えて、変更されていない全てのSOMモデルによって、ステップ150及びステップ160を実行する。新たな情報アイテムが追加される毎にSOMを再トレーニングすると、演算コストが高くなり、また、ユーザは、マップ内においてよくアクセスする情報アイテムの相対的位置に慣れてくるので、再トレーニングは、ユーザを困惑させる場合もある。
なお、主成分検出処理(principal component detection process)によって、元のマッピングを準備する段階で保存された、どの特徴データを残し、どの特徴データを削除するかを定義する情報は、新たにマッピングされたアイテムに関して、対応する縮退された特徴ベクトルを生成するために有用である。同様の処理は、オーディオ/ビデオマテリアルのプロパティに基づく検索クエリにも適用される(例えば、「これに類似する更なるマテリアルを検出する」)。ここでクエリ(又は、データの組との比較)に関連する縮退された特徴ベクトルは、組全体について定義された重要度が高い特徴データの組を用いて生成される。
しかしながら、再トレーニング処理を行う方が望ましい場合もある。例えば、最初にSOMが生成された後に、新たな用語(例えば、ニュース又は新しい技術分野における新たな用語)が辞書に追加されたとすると、これらの新たな用語は、出力ノードの既存の集合には、うまくマッピングできない場合がある。これは、新たに入力された情報アイテムの既存のSOMへのマッピングの際に検出される所謂「量子化誤差」の増加として検出される。この具体例では、量子化誤差を誤差量の閾値と比較する。量子化誤差が閾値を超えている場合、(a)SOMに元から含まれる情報アイテム及びSOMの生成後に加えられたあらゆる情報アイテムを用いて、SOMを自動的に再トレーニングし、又は(b)適切なときに再トレーニング処理を開始するようにユーザを促す。再トレーニングは、少なくとも閾値数を上回る誤差が検出され、又はこのような数が閾値期間内で検出された場合等の状況のみに限定して行ってもよい。
図8は、ビデオ取得及び/又は処理装置(video acquisition and/or processing apparatus)の具体例として、ビデオカメラ500の構成を示す図である。ビデオカメラ500は、撮像装置510と、撮像装置510に取り付けられたレンズ520と、データ/信号プロセッサ530と、テープ状記録媒体540と、ディスク状又はランダムアクセス記録媒体550と、ユーザ操作子560と、表示装置570と、表示装置570に取り付けられた接眼レンズ580とを備える。周知のビデオカメラ又は他の代替物におけるこの他の特徴(例えば、異なる記録媒体又は異なる表示画面構成)は、当業者にとって明らかである。実際の使用時には、捕捉されたビデオマテリアルに関連するメタデータがディスク状又はランダムアクセス記録媒体550に保存され、この保存されたデータに関連するSOMが表示装置570に表示され、ユーザ操作子560を用いて、上述のように制御される。
図9は、携帯可能なデータ表示装置の具体例として、携帯情報端末(personal digital assistant:以下、PDAという。)600の構成を示す図である。PDA600は、表示領域620及びユーザ操作子として機能するタッチセンサ領域630を有する表示画面610と、データ処理部及びデータ記録部(図示せず)とを備える。ここでも、当業者は、変形例を容易に想到することができる。PDA600は、図1を用いて説明した情報蓄積及び検索システムと同様に使用することができる。
情報保存及び検索システムの構成を示す図である。 自己組織化マップ(SOM)の作成の手順を説明するフローチャートである。 SOMの構造を示す図である。 ディザ処理を説明する図である。 SOMによって表現された情報にアクセスするためのユーザインタフェースを提供する表示画面を示す図である。 SOMによって表現された情報にアクセスするためのユーザインタフェースを提供する表示画面を示す図である。 SOMによって表現された情報にアクセスするためのユーザインタフェースを提供する表示画面を示す図である。 ビデオ取得及び/又は処理装置の具体例として、ビデオカメラの構成を示す図である。 携帯型データ処理装置の具体例として、携帯情報端末の構成を示す図である。 重要度が低い変数が削除された特徴ベクトルの実証的な結果を示すグラフ図である。 重要度が低い変数が削除された特徴ベクトルの実証的な結果を示すグラフ図である。 重要度が低い変数が削除された特徴ベクトルの実証的な結果を示すグラフ図である。 重要度が低い変数が削除された特徴ベクトルの実証的な結果を示すグラフ図である。 重要度が低い変数が削除された特徴ベクトルの実証的な結果を示すグラフ図である。

Claims (22)

  1. 情報アイテムの特徴データ間相互の類似性に基づき、上記特徴データが類似する情報アイテムがノード配列内の近接する位置にマッピングされるように、該情報アイテムを該ノード配列内の各ノードにマッピングする情報処理方法において、
    (a)プロセッサが、情報アイテムのグループの各情報アイテムについて、該情報アイテムのプロパティの集合を抽象的表現として示す特徴データをそれぞれ生成し、当該生成された特徴データから、所定の統計手法を用いて、重要度が高いプロパティ及び重要度が低いプロパティを検出し、当該検出された重要度が高いプロパティを有する複数の特徴データから、それぞれ縮退された複数の特徴ベクトルを生成し、当該生成された複数の特徴ベクトルを結合し、当該情報アイテムについて1つの縮退された特徴ベクトルを生成するステップと、
    (b)上記プロセッサが、上記生成された縮退された特徴ベクトルを、上記ノード配列内のノードにマッピングするステップと
    を有する情報処理方法。
  2. 上記情報アイテムは、オーディオ及び/又はビデオマテリアルアイテムを含み、上記プロパティは、マテリアルアイテムのオーディオ及び/又はビデオプロパティを含むことを特徴とする請求項1記載の情報処理方法。
  3. 上記検出された重要度が低いプロパティを示すデータを保存するステップを更に有する請求項1又は2記載の情報処理方法。
  4. ノードに新たにマッピングされる情報アイテムに関して、情報アイテムの現在のグループに関連するマッピングを用いるステップと、
    少なくとも、上記情報アイテムの現在のグループに関して上記縮退された特徴ベクトルに用いられた情報アイテムのプロパティを表す特徴データを検出するステップと、
    検出された特徴データを関連付け、新たにマッピングされる情報アイテムに対応する縮退された特徴ベクトルを形成するステップとを有する請求項3記載の情報処理方法。
  5. 新たにマッピングされた情報アイテムと、該情報アイテムがマッピングされるノードとの間のマッピング誤差に基づいて、誤差量を導出するステップと、
    上記誤差量が閾値誤差を上回っているか否かを判定するステップと、
    上記誤差量が閾値誤差量を上回っている場合、上記新たにマッピングされた情報アイテムを含む情報アイテムの集合体の再マッピングを開始するステップとを更に有する請求項4記載の情報処理方法。
  6. 上記誤差量は、上記新たにマッピングされたノードに対応する上記縮退された特徴ベクトルと、上記情報アイテムが新たにマッピングされたノードとの間のユークリッド距離に依存することを特徴とする請求項5記載の情報処理方法。
  7. 所定数の新たにマッピングされた情報アイテムに関連する誤差量が閾値誤差量を上回った場合のみ再マッピングを開始するステップを更に有する請求項5又は6記載の情報処理方法。
  8. 所定数の新たにマッピングされた情報アイテムに関連する誤差量が閾値誤差量を超え、及びこれらの情報アイテムが、全体として、閾値期間内にマッピングされた場合のみ再マッピングを開始するステップを更に有する請求項7記載の情報処理方法。
  9. 上記再マッピング動作は、上記重要度が高い及び重要度が低いプロパティを検出するステップを繰り返すステップを含むことを特徴とする請求項5乃至8いずれか1項記載の情報処理方法。
  10. 上記情報アイテムのグループから生成された縮退された特徴ベクトルについて実行されたマッピングを用いてノードに新たにマッピングされる検索クエリに関して、
    上記検索クエリの一部として、少なくとも、上記縮退された特徴ベクトルの生成に用いられた、上記情報アイテムの上記重要度が高いプロパティを有する特徴データを記憶するステップと、
    上記記憶された特徴データを用いて、上記新たにマッピングされる検索クエリに対応する縮退された特徴ベクトルを生成するステップとを有することを特徴とする請求項3乃至9いずれか1項記載の情報処理方法。
  11. 上記重要度が高い及び重要度が低いプロパティを検出するステップは、主成分解析法を用いることを特徴とする請求項1乃至10いずれか1項記載の情報処理方法。
  12. 上記重要度が高い及び重要度が低いプロパティを検出するステップは、ホテリング変換技術を用いることを特徴とする請求項11記載の情報処理方法。
  13. 上記重要度が高い及び重要度が低いプロパティを検出するステップは、個々のプロパティ又はプロパティのサブグループに関して実行されることを特徴とする請求項1乃至12いずれか1項記載の情報処理方法。
  14. 上記一組のプロパティは、色相統計的分布、明度統計的分布、明度統計的分布、色成分統計的分布、画像形状、顔検出統計、オーディオのパワー、オーディオサブバンドのパワー、オーディオの明るさ、オーディオの帯域幅、オーディオのピッチ、オーディオのメル周波数プロパティから選択された1つ以上のプロパティを含むことを特徴とする請求項1乃至13いずれか1項記載の情報処理方法。
  15. 重要度が低いプロパティに関連する特徴データを削除するステップを更に有する請求項1乃至14いずれか1項記載の情報処理方法。
  16. どのプロパティの重要度が高いか、又は重要度が低いかを判定するために、
    (1)上記ノード配列内のノードに既知の望ましいマッピングが行われた所定の情報アイテムの検査グループについて、該情報アイテムのプロパティの集合のそれぞれを表す特徴データを検出するステップと、
    (2)上記情報アイテムの検査グループについて検出された上記特徴データの集合体について、該特徴データ内又は該特徴データのサブカテゴリ内で重要度の順序を検出し、
    nを少なくとも2として、上記特徴データの集合体において重要度が高い順に上位n個の最も重要なプロパティを有する特徴データを結合して、各情報アイテムについて1つの縮退された特徴ベクトルを生成し、
    上記生成された縮退された特徴ベクトルを、上記ノード配列内のノードにマッピングし、
    上記n個の特徴データから生成された縮退された特徴ベクトルにより実行されたマッピングと、上記既知の望ましいマッピングとの間の差異の度合いを検出するステップと
    を更に有する請求項1乃至15いずれか1項記載の情報処理方法。
  17. nにおける上記差異の度合いと、n+1における上記差異の度合いとの差分が、上記差異の度合いに関する閾値を下回るnの値を検出することによって、上記重要度が高い特徴データと、上記重要度が低い特徴データとの間の境界を検出するステップを含むことを特徴とする請求項16記載の情報処理方法。
  18. コンピュータに、請求項1乃至17いずれか1項記載の情報処理方法における各ステップを実行させるためのプログラム。
  19. 請求項18記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
  20. 情報アイテムの特徴データ間相互の類似性に基づき、上記特徴データが類似する情報アイテムがノード配列内の近接する位置にマッピングされるように、該情報アイテムを該ノード配列内の各ノードにマッピングする情報処理装置において、
    情報アイテムのグループの各情報アイテムについて、該情報アイテムのプロパティの集合を抽象的表現として示す特徴データをそれぞれ生成し、当該生成された特徴データから、所定の統計手法を用いて、重要度が高いプロパティ及び重要度が低いプロパティを検出する検出手段と、
    上記検出された重要度が高いプロパティを有する複数の特徴データから、それぞれ縮退された複数の特徴ベクトルを生成し、当該生成された複数の特徴ベクトルを結合し、当該情報アイテムについて1つの縮退された特徴ベクトルを生成する生成手段と、
    上記生成された縮退された特徴ベクトルを、上記ノード配列内のノードにマッピングするマッピング手段と
    を備える情報処理装置。
  21. 請求項20記載の情報処理装置を含む携帯型データ処理装置。
  22. 請求項20記載の情報処理装置を含むビデオ取得処理装置。
JP2005356537A 2004-12-09 2005-12-09 情報処理方法 Expired - Fee Related JP4937578B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0427041A GB2421094A (en) 2004-12-09 2004-12-09 Generating reduced feature vectors for information retrieval
GB0427041.9 2004-12-09

Publications (3)

Publication Number Publication Date
JP2006236311A JP2006236311A (ja) 2006-09-07
JP2006236311A5 JP2006236311A5 (ja) 2008-12-25
JP4937578B2 true JP4937578B2 (ja) 2012-05-23

Family

ID=34073470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005356537A Expired - Fee Related JP4937578B2 (ja) 2004-12-09 2005-12-09 情報処理方法

Country Status (5)

Country Link
US (1) US8311100B2 (ja)
EP (1) EP1669897A3 (ja)
JP (1) JP4937578B2 (ja)
CN (1) CN1786966A (ja)
GB (1) GB2421094A (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004068414A1 (ja) * 2003-01-27 2004-08-12 Fujitsu Limited 注目物体の出現位置表示装置
US20070185857A1 (en) * 2006-01-23 2007-08-09 International Business Machines Corporation System and method for extracting salient keywords for videos
GB2444535A (en) 2006-12-06 2008-06-11 Sony Uk Ltd Generating textual metadata for an information item in a database from metadata associated with similar information items
EP2524324B1 (fr) 2010-01-11 2019-04-24 InterDigital Madison Patent Holdings Procede de navigation parmi des identificateurs places dans des zones et recepteur mettant en oeuvre le procede
CN107169526B (zh) * 2012-11-09 2020-10-16 加州理工学院 自动特征分析、比较和异常检测的方法
US9843623B2 (en) 2013-05-28 2017-12-12 Qualcomm Incorporated Systems and methods for selecting media items
CN105791906A (zh) * 2014-12-15 2016-07-20 深圳Tcl数字技术有限公司 信息推送的方法和系统
US10650068B2 (en) 2017-01-09 2020-05-12 Google Llc Search engine
JP6856567B2 (ja) * 2018-02-28 2021-04-07 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
GB2578574B (en) * 2018-10-30 2021-03-10 Advanced Risc Mach Ltd Circuitry and method
CN112786050B (zh) * 2019-11-07 2024-02-02 王皓 一种语音识别的方法、装置及设备
US11507770B2 (en) * 2020-05-01 2022-11-22 EMC IP Holding Company LLC Precomputed similarity index of files in data protection systems with neural network
CN113627176B (zh) * 2021-08-17 2024-04-19 北京计算机技术及应用研究所 一种利用主元分析计算汉语词向量的方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4959870A (en) * 1987-05-26 1990-09-25 Ricoh Company, Ltd. Character recognition apparatus having means for compressing feature data
JPH0469780A (ja) * 1990-07-10 1992-03-04 N T T Data Tsushin Kk 次元圧縮方法
US6466926B1 (en) * 1996-03-06 2002-10-15 Hewlett-Packard Company Method for optimizing a recognition dictionary to distinguish between patterns that are difficult to distinguish
US6038337A (en) * 1996-03-29 2000-03-14 Nec Research Institute, Inc. Method and apparatus for object recognition
US5999893A (en) * 1997-05-02 1999-12-07 The United States Of America As Represented By The Secretary Of The Navy Classification system and method using combined information testing
JPH1139325A (ja) * 1997-07-22 1999-02-12 Matsushita Electric Ind Co Ltd 類似検索方法及び類似検索システム
US6774917B1 (en) * 1999-03-11 2004-08-10 Fuji Xerox Co., Ltd. Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video
US6397200B1 (en) * 1999-03-18 2002-05-28 The United States Of America As Represented By The Secretary Of The Navy Data reduction system for improving classifier performance
US6789070B1 (en) * 2000-06-14 2004-09-07 The United States Of America As Represented By The Secretary Of The Navy Automatic feature selection system for data containing missing values
US7123783B2 (en) * 2002-01-18 2006-10-17 Arizona State University Face classification using curvature-based multi-scale morphology
CA2493105A1 (en) * 2002-07-19 2004-01-29 British Telecommunications Public Limited Company Method and system for classification of semantic content of audio/video data
GB2395806A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
GB2395805A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval

Also Published As

Publication number Publication date
US20060143230A1 (en) 2006-06-29
US8311100B2 (en) 2012-11-13
CN1786966A (zh) 2006-06-14
GB0427041D0 (en) 2005-01-12
EP1669897A3 (en) 2006-11-08
EP1669897A2 (en) 2006-06-14
JP2006236311A (ja) 2006-09-07
GB2421094A (en) 2006-06-14

Similar Documents

Publication Publication Date Title
JP4937578B2 (ja) 情報処理方法
JP4540970B2 (ja) 情報検索装置及びその方法
US7493340B2 (en) Image retrieval based on relevance feedback
US7809185B2 (en) Extracting dominant colors from images using classification techniques
JP4569955B2 (ja) 情報格納及び検索方法
JP5518301B2 (ja) 情報処理装置
US8117183B2 (en) Accurate content-based indexing and retrieval system
US20040107221A1 (en) Information storage and retrieval
JP2008276768A (ja) 情報検索装置及び方法
WO2000048397A1 (fr) Procede de traitement de signal et dispositif de traitement video/audio
US7627820B2 (en) Information storage and retrieval
KR20030029410A (ko) 웹 기반 영상 데이터 검색 시스템 및 그 방법
JP2006127484A (ja) 情報処理方法
Wang et al. Relevance feedback technique for content-based image retrieval using neural network learning
CN101589387B (zh) 信息处理
US20040130569A1 (en) Information storage and retrieval
Aparna Retrieval of digital images based on multi-feature similarity using genetic algorithm

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080418

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081112

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110816

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111017

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120222

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees