JP5518301B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP5518301B2
JP5518301B2 JP2008125328A JP2008125328A JP5518301B2 JP 5518301 B2 JP5518301 B2 JP 5518301B2 JP 2008125328 A JP2008125328 A JP 2008125328A JP 2008125328 A JP2008125328 A JP 2008125328A JP 5518301 B2 JP5518301 B2 JP 5518301B2
Authority
JP
Japan
Prior art keywords
metadata
information processing
information
processing apparatus
information item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008125328A
Other languages
English (en)
Other versions
JP2008282407A (ja
Inventor
ピエール ローズ ニコラス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Europe BV United Kingdom Branch
Original Assignee
Sony United Kingdom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony United Kingdom Ltd filed Critical Sony United Kingdom Ltd
Publication of JP2008282407A publication Critical patent/JP2008282407A/ja
Application granted granted Critical
Publication of JP5518301B2 publication Critical patent/JP5518301B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置に関する。
情報資源管理システムから、音声アイテム及び/又は映像アイテム等のメディアコンテンツアイテムを識別及び検索することに関する問題は、長期にわたるものである。デジタル音声ファイル/映像ファイルは、関連するテキストメタデータを持たないことが多く、ファイル名さえも、単に識別コードであることがあり、これでは利用者にとって意味がない。
対象アイテムの映像及び/又は音声統計値を識別アイテムすることによってユーザがコンテンツリポジトリを検索し、リポジトリから類似のコンテンツアイテムを検索できるようにすることを意図したシステムが提案されている。こうした統計値は、コンテンツの音声特性及び映像特性から繰り返し可能な方法で得られるため、「グランドトルース」メタデータと呼ばれることが多い。検索は、各利用可能なコンテンツアイテムについて、(グランドトルースメタデータの重要な側面(significant aspects)の少なくとも1つのセットに基づいて)特徴ベクトルを定義し、ベクトル空間においての距離がほぼ一致するものを検出することによって実行され得る。このタイプの検索は、情報のサブセットを返すことができ、ユーザはその情報から、自分の要求に見合うコンテンツを客観的に判断することができる。ユーザが関連するヒットを客観的に選択することができ、また、さらなる類似のコンテンツアイテム又はヒットを探すために、リポジトリに戻ってそれらの特徴ベクトルを横断検索することができることが提案されている。これは、「強化類似探索」検索と定義される。
いくつかの情報資源管理システムのリポジトリは、関連するテキストメタデータを有するコンテンツアイテムを含むことがあるが、同じリポジトリ内の他のアイテムは関連するメタデータを持たない。新たなコンテンツアイテムは、関連するテキストメタデータを伴って、又は伴わずに入力処理され得る。グランドトルースメタデータによる検索は、利用可能なコンテンツアイテムの視覚的説明を生成して、どの種類のコンテンツがリポジトリに格納されているかをユーザが理解可能になるように用いられ得る。ユーザは、この視覚化説明から複数の候補アイテムを選択し、要求するコンテンツアイテムを探すために、これらの選択された候補アイテムに対してキーワード検索を実行することができる。テキストメタデータを有しないアイテムは、視覚化検索によってしか、関連すると識別することができないことは明らかである。新たなコンテンツアイテムを、関連するテキストメタデータを伴うことなくリポジトリに入力処理するとき、その新たなコンテンツアイテムについての特徴ベクトルをアセットマネジメントシステムにおいて取得及び検索して、類似のコンテンツアイテムを識別することが提案されている。例えば、ベクトル空間において、その新たなアイテムに最も一致するアイテムを識別することができ、その一致するアイテムが関連するテキストメタデータを有する場合、そのメタデータを新たなコンテンツアイテムに自動的に割り当てることができる。したがって、その新たなコンテンツアイテムは、利用者がそのコンテンツアイテムを検討して手動でメタデータを割り当てる煩雑な処理を行う必要なく、テキストメタデータ検索によって識別することができる。
当然のことながら、これにはいくつかの欠点がある。新たなコンテンツアイテムに割り当てられるメタデータは、完全に正確なわけではないことが多い。例えば、リポジトリが、トラック上のレーシングカーが写った複数の場面を含んでおり、各レーシングカーは、それがF1のレーシングカーだということを定義するメタデータを有しているとする(A)。また、道路の端に停められたバイクが写った複数の場面であって、その場面をバイクと定義するメタデータを有する場面(B)があるとする。レーストラック上のスーパーバイクレースが写った新たな場面(C)が入力処理される場合、自動化システムは、レーストラックの存在のために、(A)が(B)よりも比較的(C)に類似していると判断する可能性がある。このような場合、「バイク」でなく「F1のレーシングカー」というメタデータが(C)に誤って割り当てられてしまうであろう。このようなことが起こるリスクは、ベクトル空間における閾値距離内で類似のアイテムが識別されるときにだけメタデータが割り当てられることを確実にすることによって、減少させることができる。或いは、システムが例えば20個の最も近いアイテムを識別し、それらのメタデータを処理して、個々の単語又はフレーズについて検索語頻度を識別し、例えば、上位3つの単語/語句をその新たに入力処理されたコンテンツアイテムに割り当てることができる。
特開2003−67397号公報
しかしながら、これは、データベース管理にとってかなりリスクの高い方式であり、多くのアイテムが誤ってラベリングされる恐れがある。さらに、これらの誤ってラベリングされたアイテム自体が用いられて、新たに入力処理されるアイテムが誤って自動的にデータ投入される場合、データベースが目的に沿わないものになってしまう。
本発明の目的は、上記問題を軽減又は緩和することである。
[発明の概要]
本発明の実施形態は、関連するメタデータを有する情報アイテム群を参照することにより、現在の情報アイテムについてメタデータ(例えば、テキストメタデータ)を生成する情報処理装置を提供する。前記メタデータは、そのメタデータに関する信頼度を表す、対応する指示データを有する。前記情報処理装置は、前記現在の情報アイテムの1つ又は複数の所定の特性を検出する検出部と、前記情報アイテム群から、前記現在の情報アイテムの特性に最も類似した1つ又は複数の特性を有する情報アイテムのサブセットを検出する検出部と、前記現在の情報アイテムを、前記情報アイテムのサブセットのうちの1つ又は複数からのメタデータと関連付けて、当該メタデータに、前記現在の情報アイテムと前記メタデータとの関連において低い信頼度を表す指示データを割り当てるように構成された関連付け論理回路と、情報アイテム及びそれに関連するメタデータに関するユーザと前記情報処理装置との対話を検出し、当該ユーザの対話に応じて、前記メタデータに関連する指示データを変更する検出部とを有する。
本発明の実施形態によれば、上記の問題を鑑みて、こうした自動的なメタデータラベリングが実行され、データベース構造内に、メタデータを入力する(好ましくは自動的に、又は手動でもよい)ことができるフィールドが画定される。このフィールドは、メタデータの正確性における相対的な信頼度を示す。この信頼度は、例えば1〜10の尺度であってよい。ここで1は正確性が不確かであることを示し、10は正確性において信頼度が高いことを示す。或いは、信頼性あり又は信頼性なしの単純な2状態のフラグであってもよい。このようなフラグは、利用者がメタデータの正確性を一旦確認すると、変更することができる。
したがって、本発明の実施形態は、(例えば、新たに入力処理されるアイテムに対する)メタデータの自動割り当てを依然として用いることができるが、誤りである可能性がある(有用なメタデータと見分けがつかない)メタデータでデータベースがいっぱいになる危険性を低減する技術を提供する。
種々のさらなる本発明の態様及び特徴は、添付の特許請求の範囲において規定される。
本発明の上記の及び他の目的、特徴及び利点が、以下の例示的な実施形態の詳細な説明から明らかになる。詳細な説明は、添付の図面と併せて読まれるべきである。
図1は、汎用コンピュータ10に基づく情報格納及び検索システムの概略図である。汎用コンピュータ10は、プログラム及びデータのためのディスクストレージ30を有するプロセッサユニット20と、イーサネット(登録商標)ネットワーク又はインターネット等のネットワーク50に接続されたネットワークインタフェースカード40と、陰極線管装置60等の表示装置と、キーボード70と、マウス80等のユーザ入力装置とを有する。システムは、プログラム制御下で動作する。プログラムはディスクストレージ30に格納されている。プログラムは、例えばネットワーク50によって、又はリムーバブルディスク(図示せず)に格納、又はディスクストレージ30に事前インストールされる。
本実施形態は、多様な種類の情報アイテムに適用可能である。適切な種類の情報を非限定的にリストアップすると、当該情報は、特許、映像素材、電子メール、プレゼンテーション、インターネットコンテンツ、放送コンテンツ、ビジネス報告書、音声素材、図形若しくはクリップアート、写真等、又はこれらのうちのいずれかの組み合わせ若しくは混合を含む。本明細書においては、音声情報アイテム/映像情報アイテム、又は少なくとも音声コンテンツ及び/又は映像コンテンツ等を有する情報アイテムについて言及する。例えば、1つの音声素材及び/又は映像素材等の放送コンテンツは、その素材をテキストタームで定義する、関連する「メタデータ」を有し得る。
以下の詳細な例は、音声データ及び/又は映像データの情報アイテム群に言及し、このような情報アイテムの所定の特性の発見について説明する。もちろん、他の種類の情報アイテムを代わりに(又は共に)取り扱うこともできる。例えば、情報アイテムが静止写真である場合、この写真の画像特性を用いて特徴ベクトルを形成することができる。特徴ベクトルは、テキストで形成された情報アイテム等から(例えば、それらのテキスト内容、単語数、珍しい単語の分布等に基づいて)形成することができる。
情報アイテムは、既知の方法でディスクストレージ30にロードされる。好ましくは、それらはデータベース構造の一部として格納される。これによりアイテムの検索及びインデキシングが容易になるが、これは必須ではない。情報及びアイテムがこのように格納されると、或る処理を用いてアイテムにテキストメタデータが付加される。こうした処理の一例を以下に説明する。
インデキシングされた情報データは、ローカルディスクドライブ30に格納しなくてもよいことが理解されるであろう。データは、ネットワーク50を介してシステム10に接続されたリモートドライブに格納することができる。或いは、情報は分散的な方法で格納されてもよい。例えば、情報はインターネットの各種サイトにおいて格納されてもよい。異なるインターネットサイト又はネットワークサイトにおいて情報が格納される場合、第2のレベルの情報ストレージを用いて、リモート情報への「リンク」(例えば、URL)を、例えばそのリンクに関連する概要、要約、又はメタデータと共に、ローカルに格納することができる。したがって、リモートに保持された情報は、ユーザが関連リンクを(例えば、以下で説明する結果リスト260から)選択しない限り、アクセスされる必要がない。以下は技術的な説明の目的であるが、リモートに保持された情報、又は要約/概要/メタデータ、又はリンク/URLは、「情報アイテム」と見なすことができる。
言い換えれば、「情報アイテム」の形式的な定義は、特徴ベクトルが取得及び処理されるアイテムである(以下を参照されたい)。
さらなる例において、情報アイテムは、研究チーム又は法律事務所等のネットワーク化された作業グループにわたって格納することができる。ハイブリッド手法においては、情報アイテムは、ローカルに格納されたいくつかの情報アイテム及び/又はローカルエリアネットワークにわたって格納されたいくつかの情報アイテム及び/又はワイドエリアネットワークにわたって格納されたいくつかの情報アイテムを含み得る。
図1のシステム10は、インデキシングされた情報アイテムを用いることが可能なシステムの一例に過ぎないことも理解されるであろう。図6を参照して、別の例が以下に説明される。概して、実際には、ディスプレイを有する任意の装置を、動作の情報アクセス段階に用いることができる。
本実施形態における処理は、特定の数の情報アイテムに限定されない。
図2は、本実施形態の動作を示す概略的なフローチャートである。図2において言及される動作及びストレージ条件を、図1を参照して説明された装置に対して実行できることが理解されるであろう。
音声素材/映像素材を有する情報アイテム100は、ステップ110、120、130、140、150及び160によって処理される。これにより、特徴ベクトル及びテキストメタデータ記憶部170に格納されるテキストメタデータ(例えば、タイトル、キーワード及び/又はフリーテキスト記述)が生成され、テキストによる検索を行う別個のステップ180を実行することができる。特徴ベクトル及びテキストメタデータ記憶部170は、別個の記憶部であるか、又は各情報アイテムに関連するそれぞれのデータベースエントリから形成され得る。
ここで、テキストメタデータは、含み得るメタデータの種類の一例として用いられる。メタデータは、代わりに(又はそれに加えて)、インターネット又はネットワークハイパーリンク(例えば、情報アイテム群へのリンク)、情報アイテムの音声特性及び/又は映像特性を表す、分析的に生成された音声データ及び/又は映像データ、又は他のタイプのメタデータ、のうちの1つ又は複数を表す。
テキストメタデータは、そのメタデータに付随する信頼度を表す、関連する指示データを有する。指示データ、並びにその設定方法及び変更方法が、以下で詳細に説明される。差し当たり、指示データを情報アイテムのメタデータすべてに付加することができること(すなわち、メタデータをグループとして見なすこと)、又は、別個の指示データをメタデータのサブセクションに付加することができること、例えば、各フレーズ又は単語のグループ毎に付加することができることに留意すれば十分である。指示データは、メタデータにおける種々のレベルの信頼度を示す、少なくとも2つの状態を有するが、より多くの状態を有することが好ましい。最低でも、指示データは「低」又は「高」の信頼度を示すことができる。当然のことながら、信頼度の絶対的な測度は存在せず、信頼度を測定するいかなる単位も存在しない。指示データは、主として客観的な量の相対的な測度であるが、(以下に見られるように)自動的な手段によって設定及び修正することができる。
ステップ110〜160は、テキストメタデータを初めて生成される、すなわち、現時点でテキストメタデータを保持していない情報アイテムに特に関係している。しかしながら、この技術を、情報アイテムに関連するテキストメタデータを更新又は補完するために適用してもよい。この場合、ステップ110におけるA/V特性の検出(下記を参照されたい)及びステップ120における特徴ベクトルの生成(下記を参照されたい)は、既に実行されていると考えられる。
ステップ110を参照すると、情報アイテム100の音声及び/又は映像(A/V)特性が検出される。ステップ120において、特徴ベクトル(実際には、下記の用語を用いると「縮小特徴ベクトル」)が生成され、特徴ベクトル及びテキストメタデータ記憶部170に格納される。特徴ベクトルを比較するという目的(下記を参照されたい)のためには、特徴ベクトルが、依然として情報アイテムの有用な表現を提供する一方で、扱いやすい長さ、又は値の数を有していることが重要である。特徴ベクトルのための絶対量は存在しない。以下に説明する実施形態では、30値の特徴ベクトルが用いられる。おそらく、3値では少なすぎ、1000値では、特徴ベクトルを比較するために必要とされる処理が多くなりすぎる。しかし、当業者は、利用可能な処理資源に応じて、適切な数の値を選択することができる。
図3を参照して、ステップ110及び120が以下に詳細に説明される。
ステップ130において、現在の情報アイテム100についての特徴ベクトルが、他の情報アイテムに関連する、格納された特徴ベクトルと比較される。この比較は、q次元空間(ここで、qは、各特徴ベクトルにおける値の数である)におけるベクトル間のユークリッド距離を検出する既知の技法による。n個の最も近い(ユークリッド距離が最も小さい)特徴ベクトルがこのテストによって選択される。例えば、nは20であり得る。
ステップ140において、このn個の最も近い情報アイテムに関連するテキストメタデータからの選択がなされる。
ステップ150において、この選択による単語及び/又はフレーズが、現在の情報アイテムに関連するメタデータとして付加される。具体的には、現在の情報アイテムは、この選択からの所定数の最頻出の単語及び/又はフレーズか、又は閾値以上の発生頻度を有する単語及び/又はフレーズか、又はこれらの組み合わせを伴って自動的にデータ投入される。この自動的にデータ投入された(現在の情報アイテムについての)メタデータに関連付けられた指示データは、低い信頼度を表すレベル、好ましくは、最も低い信頼度を表すレベルに自動的に設定される。図4を参照して、ステップ140及び150に関連する処理を以下で詳細に説明する。
最後に、ステップ160において、現在の情報アイテムに付加するために(ユーザによって、又は自動的に)選択されたテキストメタデータが、その情報アイテムについて、特徴ベクトル及びテキストメタデータ記憶部に格納される。
ステップ180は、テキストメタデータによって情報アイテムを検索する別個のプロセスを概略的に示す。このステップは、ステップ110〜160を実行した装置と同じ装置によって実行してもよく、又は、少なくとも特徴ベクトル及びテキストメタデータ記憶部170に対するアクセスを有する、異なる装置によって実行してもよいことは当然理解されるであろう。検索処理は、以下の図5を参照して別途説明される。
図3は、図2のステップ110及び120に対応する、いわゆる「特徴抽出」処理を示す概略的なフローチャートである。特徴抽出は、生データを抽象的表現に変換する処理である。これらの抽象的表現はその後、パターン分類、パターンクラスタリング、及びパターン認識等の処理に用いられ得る。この処理では、いわゆる「特徴ベクトル」が生成される。この特徴ベクトルは、アイテムの様々な音声特性及び映像特性の抽象的表現である。
図3の基本的なステップは、音声素材/映像素材を含む情報アイテムのグループのうち、情報アイテム100に対して以下のように実行される。
今度は、各情報アイテムの音声特性及び/又は映像特性がステップ210において検出される。ステップ220及び230において、より重要な特性データ及びあまり重要でない特性データの検出処理が実行され、その後、あまり重要でない特性データが廃棄される。残存した(廃棄されなかった)特性データは、ステップ240において連結されて、「縮小」特徴ベクトルが生成される。情報アイテムの収集のために、「縮小」特徴ベクトルが生成されると、それらを図2のステップ130において用いることができる。
任意選択的に、さらに、縮小処理(例えば、p値の特徴ベクトルをp×qの乱数行列で行列乗算してq値の特徴ベクトルを生成することを含む、ランダムベクトルマッピングの既知の技法による)を実行してもよい。しかしながら、このようなさらなるステップは、本発明の実施形態では重要ではない。本発明の実施形態では、30値の特徴ベクトルが、以下に説明するプロセスによって生成される。当然ながら、ランダムベクトルマッピングをステップ220、230、及び240の代わりに用いて、扱いやすいサイズの特徴ベクトルを生成してもよいことを、当業者は理解するであろう。
ステップ220〜240は、データが連結後に廃棄されるように、別の順序で実行されてもよい(又は実際に、廃棄処理が連結の前及び/又は後に起こり得る)。
これより、ステップ210〜240を以下に詳細に説明する。
この技法の目的は、メディアアイテムのジャンルを出来るだけ少ない変数で(又は少なくとも数を減らされた変数で)表す特徴ベクトルを、(音声及び映像から)自動的に抽出することである。以下、この特徴ベクトルを「縮小特徴ベクトル」と呼ぶ。
この縮小特徴ベクトルは、いくつかの「基本的特徴ベクトル」の組み合わせから成る。基本的特徴ベクトルは、色、形状等の特定の種類の特徴を包含している。ステップ210によって表される第1の段階は、情報アイテムのそれぞれの特性を表す、いわゆる「基本的特徴ベクトル」を検出することである。
[基本的特徴ベクトルの形成]
本実施形態においては、5種類の基本的特徴ベクトルが用いられる。これらは、色、形状、音声、顔、及びエッジ/プレーンに基づく特徴ベクトルである。実際には、以下に説明する縮小特徴ベクトルは、エッジ/プレーンデータを参照しないが、この技法は、可能な特徴データのさらなるデータ源を例示するために含まれる。また、以下に記述する順列は単に例示であり、他のベクトル順列を用いることができることも理解されるべきである。
[色]
いくつかの色モデルを用いることができる。いくつかの例を以下に説明する。
各色モデルについて、メディアアイテムにおけるフレーム毎に20ビンのヒストグラムが計算され、そのヒストグラムの各カラムについての平均及び標準偏差が算出される。この平均及び標準偏差ベクトルは、メディアアイテムを表す基本的特徴ベクトルとして用いられる。平均と標準偏差との連結も、基本的特徴ベクトルとして用いられる。これは以後、以下のリストにおいて「組み合わせ」と呼ばれる。それらから計算される色モデル及び特徴ベクトルは以下の通りである。
・HUEヒストグラム
・平均
・標準偏差
・組み合わせ(平均と標準偏差ベクトルとの連結)
・輝度(明度)ヒストグラム
・平均
・標準偏差
・組み合わせ(平均と標準偏差ベクトルとの連結)
・レッドヒストグラム
・平均
・標準偏差
・組み合わせ(平均と標準偏差ベクトルとの連結)
・グリーンヒストグラム
・平均
・標準偏差
・組み合わせ(平均と標準偏差ベクトルとの連結)
・ブルーヒストグラム
・平均
・標準偏差
・組み合わせ(平均と標準偏差ベクトルとの連結)
・RGBヒストグラム(60ビン、3つの異なるヒストグラムの組み合わせ)
・平均
・標準偏差
・組み合わせ(平均と標準偏差ベクトルとの連結)
[形状]
2つの異なるタイプの形状記述子が説明される:これらの違いは、下記高速フーリエ変換(Fast Fourier Transform:FFT)の後のステップ(下記ステップ4)の違いである。概して、形状記述子は、以下のように抽出される。
1.各フレームが、例えば双一次補間により、64×64の画像にサイズ変更される。
2.サイズ変更されたフレームから、高速フーリエ変換(FFT)が実行される。
3.各方向における最初の10個の周波数(frequency)値(最低周波数)が処理され(下記を参照されたい)、100値の長い特徴ベクトルに結合される。
4.ベクトルにおける各カラムについての平均及び標準偏差が、メディアアイテム全体について算出され、これにより後処理方法につき3つの特徴ベクトルが得られる。
i.平均
ii.標準偏差
iii.組み合わせ(平均と標準偏差ベクトルとの連結)
[顔]
2つの異なるタイプの顔に基づく特徴ベクトルが説明される。一方は「顔特徴」と呼ばれ、他方は「顔統計値」と呼ばれる。
顔統計値の基本的特徴ベクトルは以下のように生成される。
1.各フレームについて、以下の3つの変数を計算する。
・顔総数、すなわちいくつの顔がフレーム内にあるか
・フレーム内のすべての顔についての平均顔サイズ
・フレーム内のすべての顔についての平均x(水平)位置
2.次に、メディアアイテム内のすべてのフレームに対し、3つの変数すべてについて平均及び標準偏差が計算される。
3.顔総数、サイズ及びx位置についての平均及び標準偏差が、6変数(6次元)特徴ベクトルを形成する。
顔特徴の基本的特徴ベクトルは以下のように生成される。
1.フレーム内のすべての顔を、顔サイズ及び顔のx位置に応じて6つの異なるクラスに分類する顔分類器が用いられる
顔分類器は、以下のように動作する
a.顔サイズが、(例えば、幅において)21ピクセルよりも大きい場合、サブクラスAとして分類され、21ピクセルよりも小さい場合、サブクラスBとして分類される。
b.サブクラスA及びBの両方は、顔のx位置が74未満(例えば、左からのピクセル)であるか、74〜114であるか、又は114より大きいかに応じて、3つの異なるサブクラスに分割される。
2.各メディアアイテムは7ビンのヒストグラムを有し、ここで第1のビンは顔を有しないフレームを表し、他のビンは6つの異なる顔のクラスを表す。解析される各フレームについて、各顔が検出される毎に、その分類が属しているビンが1だけ増分される。
3.ヒストグラムは、メディアアイテムを表す、7ビンの基本的特徴ベクトルを形成する。
[音声]
利用可能な音声が、48kHzのサンプリングレートを有すると仮定すると、音声は、16msのオーバーラップを伴いながら32msの時間窓でサンプリングされ、全部でN=1536のサンプルが得られる。rms振幅は以下のように定義される。
Figure 0005518301
また、フレームは、
Figure 0005518301
の場合、無音と定義される。ここで、jは音声フレームであり、
Figure 0005518301
は、メディアアイテム全体にわたる平均rms振幅である。
まず、信号全体が、
Figure 0005518301
でハミング窓にされ、その後、FFT係数F(ω)がすべてのフレームについて計算される。その後、各音声フレームについて以下の特徴が計算される。
[総パワースペクトル]
パワースペクトルの対数が用いられる。
Figure 0005518301
ここで、|F(ω)|は、周波数ωにおけるパワーを表し、ω=24kHzであり、これはサンプリング周波数の半分である。
[サブバンドパワー]
以下の間隔を有する4つのサブバンドパワーが用いられる。
Figure 0005518301
サブバンドのパワーは、以下のように計算される。
Figure 0005518301
ここで、Hは、その間隔における最大周波数を表し、Lは、その間隔における最低周波数を表す。
[明度]
明度は、重心周波数として定義され、以下のように計算される。
Figure 0005518301
[帯域幅]
帯域幅Bは、以下のように計算される。
Figure 0005518301
[ピッチ周波数]
ピッチ周波数は、以下のように確定される。
1.各音声フレームについて、スペクトルパワーが計算される
2.スペクトルパワーのピークが、離散演算子:{0.25f,0.75f,1.0f,0.75f,0.25f}で強調される。
3.音声窓の高調波が以下のように計算される。
a.50Hzのピッチで開始するくし形フィルタが、1000kHzのピッチに達するまで連続的に増加される。各ステップについて、くし形フィルタ信号「C」とノイズ「N」との差分がとられる。
i.くし形フィルタ値が以下のように計算される。
=2.25i−1+1.5+2.25i+1
ここで、「i」はピッチ周波数であり、「S」は強調された信号である。[i−1,i,i+1]について、S=1である場合、C=6となる。
ii.ノイズが以下のように計算される。
Figure 0005518301
Figure 0005518301
について、S=1の場合、N=6となる。
4.これにより、周波数vs高調波の図が形成される。高調波のピークは、ピッチ周波数を与える。
メル周波数ケプストラム係数が、FFTパワー係数から計算される。三角バンドパスフィルタバンクは、係数をフィルタリングする。フィルタバンクは、0〜4000Hzの周波数範囲をカバーする一定のメル周波数間隔を有する19の三角フィルタから成る。S{k=1,2,...K}は、フィルタバンクからの出力を表す。メル周波数スペクトルは、以下のように計算される。
Figure 0005518301
ここで、n=1,2,3..12は、ケプストラムの順序である。
上述した特徴は、20値の特徴ベクトルを形成し、メディアアイテム全体にわたって、平均及び標準偏差がカラム毎に計算され、40値の特徴ベクトルに連結される。メディアアイテム全体についてのフレームの総数に対する無音のフレームの比を求めることにより、41の変数が特徴ベクトルに追加される。
[エッジ/プレーンフィールド特徴ベクトル]
これより、別の基本的特徴ベクトルが定義される。これはいわゆるエッジ/プレーンフィールドヒストグラム(Edge/Plain Field Histogram:EPFH)特徴ベクトルである。これは、2つの基本的なステップによって生成される。
1.画像における色値の量子化
2.EPFHの形成
[色空間の量子化]
処理は、HSV(Hue Saturation Value:色相、彩度、輝度)符号化された画像から始まる。ここで0≦H≦360であり、0≦S≦1であり、0≦V≦1である。検討中の画像がこの形式で提供されていない場合、簡単な(且つ既知の)マッピング動作により、画像がこの形式に変換される。
HSV色空間が視覚化される場合、それは円錐形となる。量子化ステップは、この円錐を異なるブロックに分割することを目的としている。各ブロックは番号でインデキシングされる。この番号自体は関連性がなく、この番号の唯一の機能は、インデックスの役割を果たすことである。
このインデックスは、最初に実行される彩度量子化によって生成される(又は「返された」)値である。これは、以下に述べる色相及び輝度の量子化において参照される。
彩度は量子化されて4つの部分になる。
0.00<彩度≦0.03 →無彩色 輝度Aを返す
0.03<彩度≦0.33 →低彩色 7輝度C+色相−1を返す
0.33<彩度≦0.66 →中彩色 (3+輝度C)7+色相−1を返す
0.66<彩度≦1 →高彩色 (6+輝度C)7+色相−1を返す
このうち最後の3つのカテゴリーの場合、色相及び輝度は以下のように量子化される。
色相は量子化されて7つの非均一な部分になる。
330<色相≦22 1を返す //レッド
22<色相≦45 2を返す //オレンジ
45<色相≦70 3を返す //イエロー
70<色相≦155 4を返す //グリーン
155<色相≦186 5を返す //シアン
186<色相≦278 6を返す //ブルー
278<色相≦330 7を返す //パープル
輝度C(明度)は量子化されて3つの部分になる。
0.00<彩度≦0.33 低輝度 0を返す
0.33<彩度≦0.66 中輝度 1を返す
0.66<彩度≦1 高輝度 2を返す
「無彩色」として分類された場合、輝度値が量子化される。
輝度A(明度)は、無彩色領域において、量子化されて4つの部分になる。
0.00<輝度≦0.25 →白 63を返す
0.25<輝度≦0.50 →薄灰色 64を返す
0.50<輝度≦0.75 →濃灰色 65を返す
0.75<輝度≦1 →黒 66を返す
[FPFHの形成]
次に、画像におけるピクセルについて反復処理が行われる。各ピクセル(中心ピクセル)は、その周囲のピクセル(すなわち、8ピクセルから成るグループ)と比較される。周囲のピクセルのうちのいずれか1つが、現在の中心ピクセルと異なる色インデックス値を有する場合、中心ピクセルは「エッジ」ピクセルと見なされ、そうでなければプレーンフィールドピクセルと見なされる。
混乱を避けるために、「中心」という用語は、色特性を比較されているピクセルに対する、ピクセルの空間(画像)位置を指す。「エッジ」及び「プレーンフィールド」の各用語は、色空間において空間的に周囲にあるピクセルに対する、現在の中心ピクセルの位置を指す。
ピクセルがエッジピクセルとして分類される場合、そのピクセルは「エッジ」ヒストグラムに追加される。そうでなければ、そのピクセルは「プレーンフィールド」ヒストグラムに追加される。
各ヒストグラムにおけるビンは、上述したカラーインデックスである。
[特徴ベクトルの後処理]
エッジヒストグラム及びプレーンフィールドヒストグラムはいずれも、長さが1に等しくなるように個々に正規化される。画像中の総ピクセルに対するエッジピクセルの比も計算される(「エッジ比」)。
最後の特徴ベクトルは、正規化されたエッジヒストグラムと、正規化されたプレーンフィールドヒストグラムと、エッジ比との連結を有する。
[縮小特徴ベクトルの下位部分の形成]
[色]
基本的な色特徴ベクトルは、メディアアイテム全体にわたる、60ビンのRGBヒストグラム(1色につき20ビン)の平均及び標準偏差から成る。これにより、120の変数から成る特徴ベクトルが得られる。
色ヒストグラムは、ホテリング変換で変換され、最初の7つの変数が保持されるように切り捨てられる。
ホテリング変換は、特徴ベクトルの統計的特性に基づく。20の変数ベクトルの変換により、先頭の/最初の変数の分散が最も大きい(すなわち、それらはより重要な変数であると考えることができる)、20の変数ベクトルが得られる。これは、この変換により、特徴ベクトル中の最も重要な特徴がベクトルの最初に移動されることを意味する。
[形状]
各フレームは、双一次補間により、その開始サイズ(例えば、720×576ピクセル)から64×64にサイズ変更される。64×64の画像は、FFT処理によって変換され、10個の最低周波数に1を足したもののパワーの対数が保存される。
D(u,v)=10log(1+|F(u,v)|)
これにより、100値の長いベクトルが形成される。これらのベクトルは各フレームについて生成され、メディアアイテム全体にわたる平均及び標準偏差が特徴ベクトルとして用いられる。すなわち、ここでは200値の長い特徴ベクトルが用いられる。
形状特徴ベクトルは、ホテリング変換により変換され、最初の10個の変数が保持されるように切り捨てられる。
[音声]
音声特徴は、上述したように形成され、41値の特徴ベクトルを形成する。(ホテリング変換により検出された)7個の最も重要な値は保持される。
[顔]
顔特徴ベクトルは、上述したように形成され、6値の特徴ベクトルを形成する。
[連結及び正規化]
下位特徴ベクトルは、平均標準偏差正規化により正規化され、連結されて30値の特徴ベクトルを形成する。
図4は、図2のステップ140及び150に対応するプロセスを概略的に示す。ここでは、n個の(特徴ベクトルに関して)最も近い情報アイテムがステップ130において識別され、これらの情報アイテムのうちの少なくともいくつかに関連するテキストメタデータ300が、特徴ベクトル及びテキストメタデータ記憶部170に格納されているものとする。
本例では、テキストメタデータ300は、情報アイテムのタイトル、いくつかのキーワード、いくつかのフリーテキスト記述、及び指示データ(メタデータ全体か、又はその各部分に対応する)として配置されている。当然、このテキストメタデータの厳密な配置は必須ではなく、実際には、テキストメタデータ内の指示データのいくつかの単位は別として、テキストメタデータは全く分類されなくてもよいことが理解されるであろう。
ステップ310において、n個の最も近い情報アイテム(又は少なくともいくらかのテキストメタデータを有する情報アイテム)に対応するテキストメタデータが、ソート処理のために、照合されて1組のセットにされる。以下、本明細書では、照合されたテキストメタデータのセットを1つのドキュメントと見なすが、これは単に説明及び理解を容易にするためである。
ステップ320において、すべての「ストップワード」が文書から除外される。ストップワードは、事前に作成されたリスト中の非常に一般的な単語であり、例えば「a」、「the」、「however」、「about」、及び「and」等(及びそれらに相当する日本語の単語)である。これらの単語は十分に一般的であるので、利用者にとって、情報アイテムに特有の示唆として、又は自動的に生成されたテキストメタデータとして有用であるとは考えられない。
ストップワードの検出にはもう1つの目的がある。その目的とは、ステップ330において「フレーズ」を区切ることである。言い換えれば、フレーズは、2つのストップワードに挟まれた複数の単語(又は、より長いフレーズの場合、こうした複数の単語のうちの最初の所定数の単語、例えば最初の3つの単語)と考えられる。本システムでは、フレーズは、その発生頻度を評価し、テキストメタデータに含めるための候補アイテムを提案するための複数の単語として扱われる。
ストップワードの除外及びフレーズの検出後、残った単語は、ステップ340において「語幹化」される。語幹化とは、単語の変形から、共通の語幹を見つけることを含む。例えば、「投げる人(thrower)」、「投げる(throws)」「投げている(throwing)」という単語は、「投げ(throw)」という共通の語幹を有する。
ステップ350において、単語及びフレーズは、発生頻度によってソートされ、最も発生頻度の高い単語又はフレーズが識別される。このような単語が語幹化されている場合、その単語のうち、語幹化処理前に最も発生頻度が高かった形が、ユーザに提示される形として用いられる。
ステップ360において、複数の最も発生頻度の高い単語及びフレーズが、現在の情報アイテムについて格納される単語及びフレーズのセット370に追加される。
図4に示す例示的なセット370は、タイトル、キーワード及びフリーテキストのメタデータフィールドに関して複数の異なるサブリストを有する。ステップ310〜360の分析は、データ300におけるこれらの3つのフィールドに対して別々に実行され得る。又は、リストは同じ選択に基づいてもよいが、おそらくタイトルリスト及びキーワードリストにおける入力はより少ない。又は代替案として、1つの候補リストが提供されてもよい。
ステップ380において、セット370に関連付けられた指示データが初期化される。一実施形態では、利用可能な値の範囲内で最も低い信頼度を表す値に初期化される。別の実施形態では、値のサブ範囲(すなわち、最も低い信頼度を表す値と、次に低い信頼度を表す1つ又は複数の他の値)が利用可能である。ここで、セット370について初期化される値の選択は、ソースメタデータに関連付けられた信頼度に応じて実施される。すなわち、セット370アイテムにおけるメタデータ(又はそのメタデータのアイテム)が、以前には高い信頼度を表す指示データと関連付けられていた場合(すなわち、メタデータが、現在の情報アイテムの特徴ベクトルに近い特徴ベクトルを有する情報アイテムと関連付けられていた場合)、現在の情報アイテムに関するそのメタデータの指示データは、設定可能な最低レベルよりも少し高い信頼度にまで初期化され得る。
したがって、最も簡単な形式では、指示データは、情報アイテムに(又は情報アイテムのサブグループにさえ)対応するメタデータ全体と関連付けられる。例えば、以下のようになる。
Figure 0005518301
より発展した形では、指示データは、1つの情報アイテムについてのメタデータのサブセットと関連付けられ得る。例えば、以下のようになる。
Figure 0005518301
上述のように、ステップ150又は360/370において、対応するメタデータが1つ又は複数の最も近い情報アイテムにわたってコピーされるとき、指示データは低い値に初期化されることが好ましい。その理由は、たとえそのメタデータが「最も近い」情報アイテムを正確に記述するとしても、最も近い情報アイテムと現在の情報アイテムとが共通して有するものは、それらの音声特性及び映像特性の分析的測定値のみであるため、そのメタデータは現在の情報アイテムの記述としてはかなり不正確である可能性があるからである。
したがって、メタデータが正確であることが分かった場合に、ユーザがメタデータの信頼度を向上させるための機構が提供される。同様の機構を、メタデータがひどく不正確である場合に、ユーザが信頼度を低下させるか、又はそのメタデータを削除するために適用することができる。
図5は、信頼度の変動処理を行うための機構の一例を概略的に示す。この例は、いわゆる強化検索に関する。この一例は、上述した強化類似検索である。
ステップ500において、ユーザは検索クエリを入力して、情報アイテム群の中から検索する。これは、テキストクエリの形をとることができる。このテキストクエリは、情報アイテムに関連するテキストメタデータと比較される。又は、クエリは、ユーザが選択した情報アイテムに類似する情報アイテムのセットを(システムから)ユーザが要求することによって初期化される特徴ベクトルクエリであってもよい。ステップ510において、結果のセットが返される。
ユーザは、これらの結果を検討する。ユーザは、例えば(マウス80等のユーザコントロールを用いて)結果を表す画面のアイコンをクリックすることにより、結果をクエリに関連するものとして選択することができる。これは、「類似検索」のためのさらなる(又は最初の)選択であり得る。言い換えれば、ユーザは別の目的のためにシステムと対話することができ、こうした対話は後続の処理において検出され、用いられる。
現在の情報アイテム(Current Information Item:CII)(図2に関連して言及した現在の情報アイテムではなく、図5の処理に関連する現在の情報アイテム)について、ユーザがステップ520においてCIIを関連するとして選択した場合、制御はステップ550に移動する。ユーザがCIIを関連するとして選択しない場合(又はCIIを関連しないとして積極的に選択した場合)、制御はステップ530に移動する。
ステップ530及び550を参照すると、CIIと関連付けられた信頼度を修正することができる。このような修正は、CIIに関連付けられたメタデータ全体と関連付けられた1つの信頼度に関して実行され得る。又は、CIIのメタデータの局面又はサブセットにそれぞれ関連付けられた複数の信頼度が存在する場合、修正は、(a)類似検索を開始した情報アイテムのメタデータと同じであるか若しくは非常に類似したメタデータ、又は(b)現在の検索を引き起こしたテキスト検索クエリと同じであるか若しくは非常に類似したメタデータ、と関連付けられた1つ又は複数の信頼度だけに適用されることが好ましい。
ステップ530において、信頼度が閾値レベル(例えば、8/10)以上であるかどうかを見るために、テストがなされる。閾値レベル以上である場合、何の動作もとられない。閾値レベル以上ではない場合、信頼度は減少され、処理(この場合、信頼度の修正に関する処理)は終了する。
「減少」及び「増加」のような用語は、説明を容易にするために、より低い数値がより低い信頼度を表す構成の文脈において用いられることに留意されたい。正確な慣用例(すなわち、低い数値及び高い数値が指し示すもの)は重要ではなく、より一般的に、減少は「低い信頼度を表す数値又はデータ符号に向かって移動すること」を意味し、「増加」については逆のことが言えることを、当業者は理解するであろう。
ステップ540の結果、信頼度が現時点でゼロである場合、又は、ステップ540以前の信頼度が既に設定可能な最低の値であった場合、オプションのステップとして、それぞれのメタデータが自動的に削除されるステップを実行することができる。
ここで、ステップ550に移ると、信頼度が許容可能な最大のレベル未満であるかどうかを検出するために、テストが実行される。答えがyesである場合、ステップ560において、信頼度が増加される。答えがnoである場合、処理は終了する。
したがって、図5を要約すると、システムは、メタデータ(又はメタデータのサブセット)の信頼度に関連するユーザ入力(例えば、検索クエリに関連するものとしてアイテムを選択する)を検出し、そのユーザ入力は情報アイテムと関連付けられる。こうした検出に応じて、システムはそのメタデータに関連付けられた信頼度を自動的に修正する。
したがって、様々な可能性があり、その可能性のうちのいくつかは既に説明されており、またいくつかは、1〜10の例示的な信頼度尺度を参照してこれより説明される。これらの可能性は組み合わせられるか、又は個々に取り扱われ得る。
(1)情報アイテムリポジトリが(上述したタイプの)強化類似検索等を許可する場合、検証されたメタデータか、又は少なくとも閾値信頼度レベルを有するメタデータを有するアイテムと共にアイテムが選択される度に、信頼度が1だけ増加される。
(2)信頼度は、ユーザが2つのアイテムは類似していないと示した場合、減少され得る。
(3)信頼度フラグが高い信頼度(例えば、レベル8以上)に達したとき、このレベルよりも下になることが防止され得る。
(4)レベル10は、検証された状態を示すものとして確保され得るため、例えば、データベース管理者又は他の利用者は、レベル9に達しているケースを識別するための検索を規則的に実行し、そのメタデータが正確であるかどうかを手動でチェックすることができ、メタデータが正確である場合、それらのアイテムに、検証された状態(レベル10)を割り当てることができる。
(5)信頼度が所定の閾値未満である情報アイテムは、新たに入力処理されるアイテムのメタデータフィールドにデータ投入するために用いることができない。
(6)手動で入力された(例えば、ハンドタイプされた)メタデータは、自動的に所定の信頼度、例えばレベル7を割り当てられる。
(7)信頼度は、単独の検索基準か、又はいくつかの検索基準のうちの1つであり得る。したがって、(例えば)検索クエリに合致する、少なくともある程度の信頼度を有するメタデータを有する情報アイテムだけが、検索結果として返される。
こうしたシステムは、コンテンツアイテムの場合はピアツーピアネットワークにおいて、又は共有コミュニティスタイルの映像クリップデータベース(例えば、ユーザがコンテンツアイテムをアップロードでき、コンテンツアイテムに関するメタデータを自由に追加又は変更できるもの)において、並びに商用の情報資源管理データベースにおいて採用され得る。このメタデータは、メタデータが信頼できるか否かに基づいて、推薦を受け取るかどうかをユーザが選択し、ユーザが以前に気付かなかった新たなコンテンツの発見を支援することができる、コンテンツ推薦システムにおいて用いることができる。メタデータを検証しようとするいくつかの(経済的又はその他の)誘因があり得る。ピアレビューされたメタデータのセキュリティのために、メタデータに実行された変更の追跡可能性が必要とされるであろう。
最後に、図6は、携帯型データ処理装置の一例として、個人情報端末(Personal Digital Assistant:PDA)600を概略的に示す。PDA600は、表示エリア620と、ユーザコントロールを提供するタッチセンサエリア630を有する表示スクリーン610を、データ処理部及びデータ記憶部(図示せず)と共に有する。ここでも、当業者は当該技術分野における代替の構成に気付くであろう。PDAは、図1のシステムの代わりに、又は図1のシステムと組み合わせて、上述したように用いられることができ、例えば無線リンク(図示せず)を介して、図1のシステムに格納された情報アイテム及び/又はメタデータにアクセスし得る。
本発明の実施形態は、既知の等価な装置の既存の部分を適合することにより実装され得ることが理解されるであろう。本発明の実施形態は、フロッピー(登録商標)ディスク、光ディスク、ハードディスク、PROM、RAM、フラッシュメモリ又はこれら若しくは他の記憶媒体の任意の組み合わせ等のデータ担体に格納されることができ、又は、イーサネット(登録商標)、無線ネットワーク、インターネット、又はこれら若しくは他のネットワークの任意の組み合わせ等のネットワーク上でデータ信号を介して伝送されることもでき、又は、ASIC(Application specific integrated circuit:特定用途専用集積回路)若しくはFPGA(Field Programmable Gate Array:フィールドプログラマブルゲートアレイ)若しくは既知の等価の装置を適合させるのに適した他の構成可能な回路等のハードウェアにおいて実現される、プロセッサにより実施可能な命令を有するコンピュータプログラム製品の形でも実装し得る。
同様に、図1に大まかに示す装置は、上記の説明に従って動作するとき、本発明の実施形態を実行するために、処理論理回路、ストレージ等を提供することが理解されるであろう。
また、情報アイテムは、それらに関連付けられたメタデータ及びそのメタデータに関連する信頼度を示す指示データと共に格納又は伝送され得ることも理解されるであろう。情報アイテムは、メタデータ及び指示データと照合されて、図5に示すように検索動作が可能なデータベースを形成し得る。
本発明の例示的な実施形態を、本明細書において添付の図面を参照して詳細に説明したが、本発明はそれらの厳密な実施形態に限定されるべきではなく、当業者によって、添付の特許請求の範囲において規定される本発明の範囲及び精神から逸脱することなく、様々な変更及び修正が実行され得ることが理解されるべきである。
[付録]
[ホテリング変換に関する一般的注釈]
ホテリング変換は、主成分、固有ベクトル及び離散カルーネン−レーベ変換としても知られている。ホテリング変換は、特徴ベクトル内の冗長性を縮小するための非常に有用な方法である。
ベクトルの集団を考える。
Figure 0005518301
ここで、平均ベクトルは
=E(x)
であり、共分散行列は
=E((x−m)(x−m
である。
固有値及び一致する固有ベクトルをとり、それらの固有ベクトルを、固有値の降順に一致する順序にした場合、行列Aが得られる。
A=eig(C
ホテリング変換はその後、以下の式で記述される。
y=A・(x−m
ここで、xはyに変換される。yベクトルにおける第1の次元は、最も分散が大きく、第2の次元は2番目に分散が大きい、等である。これは、我々が、固有値のサイズに関して固有ベクトルを編成したことに起因する。
[ベクトル正規化に関する一般的注釈]
ベクトル正規化は、ベクトルをそのベクトル自体のノルムによって分割する標準的な代数的手法である。これにより、長さ1のベクトルが得られる。
Figure 0005518301
[カラム一次変換正規化に関する一般的注釈]
各カラムについて、min及びmaxを発見し、それを新たなmin及びmaxに変換する。
Figure 0005518301
[平均及び標準偏差の正規化に関する一般的注釈]
平均及び標準偏差の正規化は、一種のカラム正規化である。平均及び標準偏差は、カラム毎にとられる。各値はその後、そのカラムの平均によって変換され、そのカラムの標準偏差によって分割される。
Figure 0005518301
本発明の実施形態に係る情報格納及び検索システムを概略的に示す図である。 本発明の実施形態の全体的な動作を示す概略的なフローチャートである。 縮小特徴ベクトルの生成を示す概略的なフローチャートである。 自動的に挿入されるメタデータの生成を示す概略的なフローチャートである。 メタデータに関連する信頼度の自動的な修正を示す概略的なフローチャートである。 本発明の実施形態に係る個人情報端末(PDA)を概略的に示す図である。

Claims (19)

  1. 関連するメタデータを有する情報アイテム群を参照することにより、現在の情報アイテムについてメタデータを生成する情報処理装置であって、
    前記メタデータは、当該メタデータに関する信頼度を表す、対応する指示データを有し、
    前記情報処理装置は、
    前記現在の情報アイテムの1つ又は複数の所定の特性を検出する特性検出部と、
    前記情報アイテム群から、前記現在の情報アイテムの前記1つ又は複数の所定の特性に最も近い前記1つ又は複数の所定の特性を有する情報アイテムのサブセットを検出するサブセット検出部と、
    前記現在の情報アイテムを、前記情報アイテムのサブセットのうちの1つ又は複数からのメタデータと関連付けて、前記現在の情報アイテムと関連付けられた前記メタデータに、当該メタデータと当該現在の情報アイテムとに関して低い信頼度を表す指示データを割り当てるように構成された関連付け論理回路と、
    情報アイテム及びそれに関連するメタデータに関するユーザと前記情報処理装置との対話を検出し、当該ユーザの対話に応じて、メタデータに関連付けられた前記指示データを変更する対話検出部と
    を具備する情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記メタデータは、テキストメタデータを有する
    情報処理装置。
  3. 請求項1に記載の情報処理装置であって、
    前記メタデータは、インターネット又はネットワークのハイパーリンクを表すデータを有する
    情報処理装置。
  4. 請求項1に記載の情報処理装置であって、
    前記情報アイテムは音声及び/又は映像データを含み、
    前記特性検出部は、前記音声及び/又は映像データの1つ又は複数の特性を検出するように動作可能である
    情報処理装置。
  5. 請求項4に記載の情報処理装置であって、
    前記1つ又は複数の所定の特性は、
    色相統計分布、
    輝度統計分布、
    明度統計分布、
    色成分統計分布、
    画像の形状、
    顔検出統計値、
    音声パワー、
    音声サブバンドパワー、
    音声明度、
    音声帯域幅、
    音声ピッチ、及び
    音声メル周波数特性
    から選択される1つ又は複数の特性を含む
    情報処理装置。
  6. 請求項4に記載の情報処理装置であって、
    前記1つ又は複数の所定の特性を示す特徴データ値を有する特徴ベクトルを生成する特徴ベクトル生成部をさらに具備し、
    前記サブセット検出部は、前記現在の情報アイテムの前記特徴ベクトルからユークリッド距離が最も短い特徴ベクトルを有する情報アイテムを検出するように動作可能である
    情報処理装置。
  7. 請求項6に記載の情報処理装置であって、
    前記情報アイテムのあまり重要でない特性に関する特徴データを廃棄するように構成された論理回路をさらに具備する
    情報処理装置。
  8. 請求項6に記載の情報処理装置であって、
    特徴ベクトルを、前記情報アイテム群のうちの少なくともいくつかについて格納するための特徴ベクトル記憶部をさらに具備する
    情報処理装置。
  9. 請求項4に記載の情報処理装置であって、
    前記メタデータは、前記情報アイテムの音声特性及び/又は映像特性を示す
    情報処理装置。
  10. 請求項1に記載の情報処理装置であって、
    前記関連付け論理回路は、最も低い信頼度を表す指示データを、新たに関連付けられたメタデータに割り当てるように動作可能である
    情報処理装置。
  11. 請求項1に記載の情報処理装置であって、
    前記関連付け論理回路は、前記メタデータが前記サブセット内の情報アイテムと関連付けられたときに、当該新たに関連付けられたメタデータに、前記メタデータの前記信頼度に応じた信頼度を表す指示データを割り当てるように動作可能である
    情報処理装置。
  12. 請求項1に記載の情報処理装置であって、
    前記対話検出部は、現在の情報アイテムが検索クエリに関連するか否かについてのユーザ入力を検出するように動作可能である
    情報処理装置。
  13. 請求項1に記載の情報処理装置であって、
    前記対話検出部は、前記指示データが前記信頼度の少なくとも閾値レベルを表す場合、前記指示データによって表される前記信頼度を低下させないように構成される
    情報処理装置。
  14. 請求項1に記載の情報処理装置であって、
    前記ユーザが現在の情報アイテムに関連するメタデータを特に承認したかどうかを検出し、承認した場合、所定の信頼度を表すための、前記メタデータに関連する前記指示データを設定する承認検出部をさらに具備する
    情報処理装置。
  15. 請求項1に記載の情報処理装置であって、
    前記情報アイテム群内で、検索基準である前記指示データを検索するように構成された検索論理回路をさらに具備する
    情報処理装置。
  16. 請求項1に記載の情報処理装置であって、
    前記対話検出部は、設定可能な最低の信頼度を表すように変更された指示データを有するメタデータを削除するように構成される
    情報処理装置。
  17. 関連するメタデータを有する情報アイテム群を参照することにより、現在の情報アイテムについてメタデータを生成する情報処理方法であって、
    前記メタデータは、当該メタデータに関する信頼度を表す対応する指示データを有し、
    前記情報処理方法は、
    前記現在の情報アイテムの1つ又は複数の所定の特性を検出し、
    前記情報アイテム群から、前記現在の情報アイテムの特性に最も類似した1つ又は複数の所定の特性を有する情報アイテムのサブセットを検出し、
    前記現在の情報アイテムを、1つ又は複数の前記情報アイテムのサブセットからのメタデータと関連付けて、前記現在の情報アイテムと関連付けられた前記メタデータに、当該メタデータと当該現在の情報アイテムとに関して低い信頼度を表す指示データを割り当て、
    情報アイテム及びそれに関連付けられたメタデータに関するユーザの対話を検出し、当該対話に応じて、前記メタデータと関連付けられた前記指示データを変更する
    情報処理方法。
  18. 請求項17に記載の情報処理方法を実行するためのプログラム。
  19. 請求項18に記載のプログラムが記録された記録媒体。
JP2008125328A 2007-05-11 2008-05-12 情報処理装置 Active JP5518301B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0709145A GB2449125A (en) 2007-05-11 2007-05-11 Metadata with degree of trust indication
GB0709145.7 2007-05-11

Publications (2)

Publication Number Publication Date
JP2008282407A JP2008282407A (ja) 2008-11-20
JP5518301B2 true JP5518301B2 (ja) 2014-06-11

Family

ID=38219287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008125328A Active JP5518301B2 (ja) 2007-05-11 2008-05-12 情報処理装置

Country Status (5)

Country Link
US (1) US8117528B2 (ja)
EP (2) EP2015203B1 (ja)
JP (1) JP5518301B2 (ja)
CN (1) CN101308514B (ja)
GB (1) GB2449125A (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102009031872A1 (de) * 2009-07-06 2011-01-13 Siemens Aktiengesellschaft Verfahren und Vorrichtung zur automatischen Suche nach Dokumenten in einem Datenspeicher
US9081856B1 (en) 2011-09-15 2015-07-14 Amazon Technologies, Inc. Pre-fetching of video resources for a network page
GB2495978A (en) * 2011-10-28 2013-05-01 Maurizio Pilu Smartphone application
US20130283143A1 (en) * 2012-04-24 2013-10-24 Eric David Petajan System for Annotating Media Content for Automatic Content Understanding
US9367745B2 (en) 2012-04-24 2016-06-14 Liveclips Llc System for annotating media content for automatic content understanding
US9547549B2 (en) * 2013-01-16 2017-01-17 Microsoft Technology Licensing, Llc Handling file system corruption
US9842142B2 (en) * 2013-03-15 2017-12-12 Ebay Inc. Self-guided verification of an item
US10349093B2 (en) * 2014-03-10 2019-07-09 Cisco Technology, Inc. System and method for deriving timeline metadata for video content
CN107291884A (zh) * 2017-06-20 2017-10-24 郑州云海信息技术有限公司 一种数据关系构建方法和装置
JP2023110106A (ja) * 2020-06-05 2023-08-09 言語研究開発合同会社 言語学習支援装置、プログラム及び情報処理方法
CN113420077B (zh) * 2021-06-10 2024-01-30 浙江大华技术股份有限公司 一种数据处理方法、装置、设备及介质
US11960618B2 (en) * 2021-09-01 2024-04-16 International Business Machines Corporation Access rights based search results

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5911139A (en) * 1996-03-29 1999-06-08 Virage, Inc. Visual image database search engine which allows for different schema
US6363380B1 (en) * 1998-01-13 2002-03-26 U.S. Philips Corporation Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser
US6564206B1 (en) * 1998-10-05 2003-05-13 Canon Kabushiki Kaisha Information search apparatus and method, and storage medium
GB2391678B (en) * 1999-07-05 2004-05-05 Mitsubishi Electric Inf Tech Method and apparatus for representing and searching for an object in an image
JP3738631B2 (ja) * 1999-09-27 2006-01-25 三菱電機株式会社 画像検索システムおよび画像検索方法
US20040125124A1 (en) * 2000-07-24 2004-07-01 Hyeokman Kim Techniques for constructing and browsing a hierarchical video structure
US6804684B2 (en) * 2001-05-07 2004-10-12 Eastman Kodak Company Method for associating semantic information with multiple images in an image database environment
US7143354B2 (en) * 2001-06-04 2006-11-28 Sharp Laboratories Of America, Inc. Summarization of baseball video content
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
JP3903783B2 (ja) * 2001-12-14 2007-04-11 日本電気株式会社 顔メタデータ生成方法および装置、並びに顔類似度算出方法および装置
US20030123737A1 (en) * 2001-12-27 2003-07-03 Aleksandra Mojsilovic Perceptual method for browsing, searching, querying and visualizing collections of digital images
JP2004054768A (ja) * 2002-07-23 2004-02-19 Nippon Telegr & Teleph Corp <Ntt> コンテンツ提供方法とシステム、コンテンツ利用者の端末とコンテンツ提供者の端末、およびプログラムと記録媒体
US7392477B2 (en) * 2003-07-18 2008-06-24 Microsoft Corporation Resolving metadata matched to media content
KR100754387B1 (ko) * 2004-12-06 2007-08-31 삼성전자주식회사 그래픽 컨텐츠 제작장치와 방법 및 컴퓨터 프로그램을저장하는 컴퓨터로 읽을 수 있는 기록매체
US7660468B2 (en) * 2005-05-09 2010-02-09 Like.Com System and method for enabling image searching using manual enrichment, classification, and/or segmentation
US7809192B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for recognizing objects from images and identifying relevancy amongst images and information
US7512580B2 (en) * 2005-08-04 2009-03-31 Sap Ag Confidence indicators for automated suggestions
US7761399B2 (en) * 2005-08-19 2010-07-20 Evree Llc Recommendation networks for ranking recommendations using trust rating for user-defined topics and recommendation rating for recommendation sources
US7469257B2 (en) * 2005-09-08 2008-12-23 Microsoft Corporation Generating and monitoring a multimedia database
US7644373B2 (en) * 2006-01-23 2010-01-05 Microsoft Corporation User interface for viewing clusters of images
JP5170961B2 (ja) * 2006-02-01 2013-03-27 ソニー株式会社 画像処理システム、画像処理装置および方法、プログラム、並びに記録媒体
US7421455B2 (en) * 2006-02-27 2008-09-02 Microsoft Corporation Video search and services
US7668405B2 (en) * 2006-04-07 2010-02-23 Eastman Kodak Company Forming connections between image collections
US20070255755A1 (en) * 2006-05-01 2007-11-01 Yahoo! Inc. Video search engine using joint categorization of video clips and queries based on multiple modalities

Also Published As

Publication number Publication date
CN101308514B (zh) 2013-06-19
EP2015203A1 (en) 2009-01-14
US20080282184A1 (en) 2008-11-13
GB2449125A (en) 2008-11-12
EP2963569A2 (en) 2016-01-06
EP2963569A3 (en) 2016-04-06
GB0709145D0 (en) 2007-06-20
EP2963569B1 (en) 2019-11-27
EP2015203B1 (en) 2016-10-12
CN101308514A (zh) 2008-11-19
US8117528B2 (en) 2012-02-14
JP2008282407A (ja) 2008-11-20

Similar Documents

Publication Publication Date Title
JP5518301B2 (ja) 情報処理装置
US8719884B2 (en) Video identification and search
JP4937578B2 (ja) 情報処理方法
US6819797B1 (en) Method and apparatus for classifying and querying temporal and spatial information in video
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CA2814401C (en) Vector transformation for indexing, similarity search and classification
US6522782B2 (en) Image and text searching techniques
US20140201180A1 (en) Intelligent Supplemental Search Engine Optimization
CN114297439B (zh) 一种短视频标签确定方法、系统、装置及存储介质
US20070236712A1 (en) Image classification based on a mixture of elliptical color models
WO2020155750A1 (zh) 基于人工智能的语料收集方法、装置、设备及存储介质
US20020078043A1 (en) Image searching techniques
KR100471927B1 (ko) 웹 기반 영상 데이터 검색 시스템 및 그 방법
US8788503B1 (en) Content identification
KR100706389B1 (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
US20120321201A1 (en) Using near-duplicate video frames to analyze, classify, track, and visualize evolution and fitness of videos
US6522780B1 (en) Indexing of images and/or text
KR101472451B1 (ko) 디지털 콘텐츠 관리 시스템 및 방법
CN101589387B (zh) 信息处理
Sung et al. Classification of movie posters to movie genres
Zhang et al. Automatic preview frame selection for online videos
CN117453971A (zh) 一种向量化数据检索管理方法和装置
Makode et al. Knowledge discovery using various multimedia data mining technique
CN116012871A (zh) 对象识别方法、装置、计算机设备、存储介质和产品
Gaddampalli Characterization of Common Videos with Signatures Extracted from Frame Transition Profiles

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121017

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140402

R150 Certificate of patent or registration of utility model

Ref document number: 5518301

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250