JP6141981B2 - 閲覧者の反応推定及びビジュアル・キュー検出によるビデオ・インデクシング - Google Patents

閲覧者の反応推定及びビジュアル・キュー検出によるビデオ・インデクシング Download PDF

Info

Publication number
JP6141981B2
JP6141981B2 JP2015526771A JP2015526771A JP6141981B2 JP 6141981 B2 JP6141981 B2 JP 6141981B2 JP 2015526771 A JP2015526771 A JP 2015526771A JP 2015526771 A JP2015526771 A JP 2015526771A JP 6141981 B2 JP6141981 B2 JP 6141981B2
Authority
JP
Japan
Prior art keywords
video
emotional
user
indexing
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015526771A
Other languages
English (en)
Other versions
JP2015527668A (ja
Inventor
イエズゲル,ラナン
スタンヒル,デイヴィッド
Original Assignee
インテル コーポレイション
インテル コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インテル コーポレイション, インテル コーポレイション filed Critical インテル コーポレイション
Publication of JP2015527668A publication Critical patent/JP2015527668A/ja
Application granted granted Critical
Publication of JP6141981B2 publication Critical patent/JP6141981B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/27Server based end-user applications
    • H04N21/278Content descriptor database or directory service for end-user access
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本開示は、ビデオ・インデクシング・システムに関し、より詳細には、ビジュアル・キュー検出(visual cue detection)に基づく閲覧者の反応推定(viewer reaction estimation)によるビデオ・インデクシング・システムに関する。
分類化、検索、及び取得を含むビデオ・ライブラリの管理のための既存システムは、一般に、ビデオ・コンテンツを説明する単一の一般化された結果を生成するためにビデオ・ストリームを解析するビデオ解析アルゴリズムに依存する。しかしながら、異なる閲覧者は、解析アルゴリズムにより提供される単一の一般化された結果によってキャプチャすることができないビデオに対する変化する反応又は個別の反応を有する場合がある。
いくつかのシステムは、ユーザ・フィードバックを求めることにより、閲覧者の個別のエクスペリエンスを考慮に入れることを試みる場合がある。しかしながら、そのようなシステムは、しばしば、ユーザの間違い及び/又は評価システムの誤解に起因して、間違いを犯す傾向がある。このフィードバックはまた、通常、ビデオ・ストリーム・プレゼンテーションを通したユーザの反応の連続的なサンプリングを要求する非実際性に起因する、ビデオ全体を包含する単一の評価に制限される。さらに、このようなシステムは、ユーザ・エクスペリエンスの質を落とし得る特別な努力であって、したがって、一般には望ましくない特別な努力がユーザによりなされることを要する。
以下の詳細な説明が進み、図面を参照すると、特許請求される主題の実施形態の機能及び利点が明らかになるであろう。図面において、同様の数字は同様の部分を示す。
本開示と整合する1つの例示的な実施形態のトップ・レベル・システム図。 本開示と整合する1つの例示的な実施形態のブロック図。 本開示の例示的な実施形態と整合する、特徴空間における感情マニホールドのプロット。 本開示の例示的な実施形態と整合する、推定された感情のプロット。 本開示と整合する別の例示的な実施形態のブロック図。 本開示と整合する例示的な実施形態の動作のフローチャート。
例示的な実施形態を参照しながら以下の詳細な説明が進むが、その実施形態の多くの変形形態、修正形態、及び変更形態が当業者に明らかになるであろう。
一般に、本開示は、検出されたビジュアル・キューに基づいてビデオに対する閲覧者の感情反応(emotional reaction)を推定し、感情及びビデオのフレームに関するそのような感情のタイミングについての情報を含むメタデータによりビデオをインデクシングするための方法及びシステムを提供する。インデクシング・システムは、このような感情事象(emotional event)に基づくビデオの要約、分割、及び検索のために使用することができる。いくつかの実施形態において、インデクシング・システムは、ビデオのジャンルを識別し、ビデオ・ライブラリ内の、同様のジャンルの他のビデオ、又はユーザから同様の感情反応を引き起こすと予想され得る他のビデオを検索するために使用することができる。このシステムはまた、他のビデオの閲覧に応じて、検出された感情反応に基づいてユーザの好みを学習することができ、そのような学習した好みに基づいてビデオ・レコメンデーションを行うことができる。データベースは、各ユーザに関する学習した好みを含む、複数のユーザに関するユーザ・プロファイルに加えて、インデクシングされたビデオのライブラリへのリンクも記憶することができ、これにより、ビデオ・レコメンデーションが可能となり、他のユーザの感情反応を含めることによる改善された検索動作が可能となる。これは、クラウド・ソーシング(crowd-sourcing)と呼ばれ得る。
図1は、本開示と整合する1つの例示的な実施形態のトップ・レベル・システム図100を示している。ビデオ・プレゼンテーション102はユーザ104により閲覧される。いくつかの実施形態において、ビデオ・プレゼンテーションは、ストリーミング・ビデオ又は任意の適切なタイプのメディア・プレゼンテーションであり得る。感情推定モジュール106は、ビデオを閲覧しているときのユーザ104を観察し、ユーザの感情反応を推定することができるビジュアル・キュー(例えば、顔の特徴、頭の位置/向き、注視点(gaze point)、及び目の動きパターン等)を検出するよう構成され得る。これについては、以下でより詳細に説明する。感情ベースのビデオ処理モジュール108は、推定されたユーザの感情反応及びビデオのフレームに関する関連タイミング情報を含むメタデータによりビデオをインデクシングするよう構成され得る。感情ベースのビデオ処理モジュール108は、ビデオを要約し、分割し、且つ/あるいは検索するとともに、以下でより詳細に説明するように、インデクシングに基づくさらなる動作を実行するよう構成され得る。
図2は、本開示と整合する1つの例示的な実施形態のブロック図200を示している。ビジュアル・キュー検出モジュール202、感情マニホールド学習/更新モジュール208、感情マニホールド206、及び感情マニホールドベースの推定モジュール204を含む感情推定モジュール106が示されている。
ユーザ104がビデオ・プレゼンテーション102を閲覧するとき、ユーザは、一連の感情状態(emotional state)を経験し得る。感情状態の例は、幸せ、悲しみ、怒り、恐れ、嫌悪、驚き、及び軽蔑を含み得る。これらの感情状態に応じて、ユーザ104は、顔の特徴(例えば、顔のランドマークの位置、顔のテクスチャ)、頭の位置及び向き、目の注視及び動きパターン、又は、感情状態に関連し得る任意の他の検出可能なビジュアル・キューを含むビジュアル・キューを示し得る。全ての感情状態がビジュアル・キューから検出され得るわけではなく、いくつかの独特な感情状態は、ビジュアル・キューを共有し得るのに対し、いくつかのビジュアル・キューは、共通の定義又は名前を有する感情状態に対応することができない(例えば、悲しみと怒りとの間の状態や幸せ及び驚きの両方を含む状態といった複数の感情の合成、又は複数の感情間の感情状態)。したがって、このシステムは、ビジュアル・キューから一意に識別することができる、感情状態のサブセットを表す擬似感情(pseudo emotion)を推定するよう構成され得る。
ビジュアル・キューがビジュアル・キュー検出モジュール202により検出されると、ビジュアル・キューは特徴空間にマッピングされる。特徴空間の一例が図3に示されており、図3は3次元特徴空間302を示している。この特徴空間の3つの軸は、例えば、眉の端部の位置、唇の端部の位置、及び頭の傾きを表し得る。任意の所与の時間における(又は、ある時間間隔における)閲覧者の外観に対応する任意の所与の時間における検出された特徴が、特徴空間における座標、この場合、3次元座標により表され得る。座標のクラスタ306、308、310が識別され得、擬似感情のマニホールド206、304に存在することが分かる。これらのクラスタは、ビデオ・プレゼンテーション102中の特定の時間における閲覧ユーザ104の異なる感情状態に対応し得る。マニホールド206、304は、モジュール208を構成することができる学習プロセスを通して生成及び/又は更新することができる。いくつかの実施形態において、モジュール208は、サポート・ベクタ・マシン(SVM)分類部又は任意の他の適切な推定部若しくは分類部であり得る。
この例では単純さのため3次元空間として表される特徴空間302内の点により表される閲覧者の外観は、例えば、感情状態の特性を表す2次元感情空間又はマニホールド206、304といったより低い次元の空間に投影され得る。いくつかの実施形態において、閲覧者の外観は、2次元感情状態特性空間(two dimensional emotional state property space)に投影され得る。この空間では、2次元は、例えば、バレンス(valence)及びアラウザル(arousal)を表す。バレンスは、感情の陽性(positivity)又は陰性(negativity)の程度の尺度(例えば、感情がどれだけ快いものであるか)であるのに対し、アラウザルは、感情の強度(intensity)の尺度である。支配的/服従的(dominant/submissive)や緊張/緩和(strain/relaxation)の尺度を含む他の特性も使用されてよい。感情マニホールドベースの推定モジュール204は、特徴空間302から特性空間(例えば、より低い次元のマニホールド206、304)への検出された特徴のマッピングに基づいて、所与の時間におけるユーザ104の感情状態(又は、擬似感情状態)を推定するよう構成され得る。これが図4に示されており、図4は、ビデオ・フレーム数又はフレーム・タイムスタンプに関連し得る、時間経過に伴う推定された感情タイプ402のプロットを示している。
図5は、本開示と整合する別の例示的な実施形態のブロック図500を示している。感情ベースのビデオ処理モジュール108が示されており、感情ベースのビデオ処理モジュール108は、ディスクリプタ生成モジュール502、インデクシング・モジュール504、ビデオ・データベース506、ユーザ・データベース518、ユーザ・プロファイル生成/更新モジュール520、要約モジュール508、分割モジュール510、ビデオ内検索モジュール512、ビデオ間検索モジュール514、及びレコメンデーション生成モジュール522を含む。
感情推定モジュール106により生成された推定された感情が、ディスクリプタ生成モジュール502により受信される。ディスクリプタ生成モジュール502は、推定された感情をディスクリプタに変換するよう構成され得る。ディスクリプタは、例えば、ジャンル分類、支配的感情のアイデンティフィケーション(identification)、感情のクライマックス及びアンチ・クライマックスの期間の測定、及び/又は感情ピーク(emotional peak)間の時間間隔の測定を含み得る。インデクシング・モジュール504は、メタデータの形態であり得るディスクリプタ情報をビデオに統合することにより、ビデオをインデクシングするよう、あるいはビデオをタグ付けするよう構成され得る。インデクシングは、ビデオ中の様々な時間における閲覧者の感情状態についての情報の効率的な取得を可能にし得る。ビデオ・データベース506は、そのようなインデクシングされたビデオの1以上を含むよう作成及び保持され得、そのようなビデオの他のユーザ/閲覧者の反応から生成されたインデクシング情報を含み得る。
要約モジュール508は、例えば、ビデオ・データベース506からのビデオといったビデオのセグメントを抽出するよう構成され得る。そのビデオのセグメントは、感情強度閾値(emotional intensity threshold)を超える感情事象の増大した密度(density)に関連付けられる。密度は、ビデオ・インデクシング又はビデオに関連するメタデータから判定され得る。そのような抽出されたセグメントは、ユーザに合わせて調整され得るビデオの要約を提供するために、結合され得る。要約の長さは、強度閾値の設定に基づいて調整され得る。
分割モジュール510は、ビデオを複数のセグメントに分割するよう構成され得る。この分割は、感情事象の比較的低い密度に関連する時間に生じる。再度、密度は、ビデオ・インデクシングから判定され得、したがって、分割は、ユーザに合わせて調整され得る。
ビデオ内検索モジュール512は、ユーザからの問合せに応答して、ビデオ内のセグメント又はショート・クリップを検索するよう構成され得る。例えば、ユーザは、「面白い(funny)」セグメントを要求することがあり、ビデオ内検索モジュール512は、ユーモアに関連する感情反応に関連付けられたビデオ・フレームを識別するビデオ・インデクスに基づいて、そのようなセグメントを抽出することができる。ビデオ間検索モジュール514も同様に動作し得るが、ビデオ間検索モジュール514は、ユーザ問合せに応答して、例えば、ビデオ・データベース506からのビデオといった他のビデオを検索するよう構成され得る。例えば、「面白い」に対する要求は、ユーモアに関連する比較的大きな数の感情事象を有するビデオの検索をもたらし得る。
レコメンデーション生成モジュール522は、例えば、ビデオ・データベース506から、ユーザの好みに合わせて個別化されているビデオを薦めるよう構成され得る。レコメンデーションは、ユーザの学習された好みに基づき得る。ユーザの学習された好みは、ビデオ・データベース506及びユーザ・データベース518に記録された他のビデオの閲覧に応じて検出された感情反応に基づき得る。レコメンデーション・プロセスを向上させるために、ユーザの感情反応は、他のユーザの感情反応と比較され得る。
ユーザ・プロファイル生成/更新モジュール520は、感情推定モジュール106により生成された推定された感情に基づくユーザ・プロファイルを生成及び保持するよう構成され得る。ユーザ・プロファイルは、そのユーザに関する感情状態の学習されたマニホールド206を含み得る。いくつかの実施形態において、ユーザ・プロファイルは、そのユーザに関する学習された好みに関連する任意の他の情報に加えて、ビデオ・データベース506内のインデクシングされたビデオへのリンク又は参照も含み得る。いくつかの実施形態において、ユーザ・プロファイルは、文化的背景に関する情報、ユーザの性別及び/若しくは年齢に関する情報、又は以下で説明するクラウド・ソーシングの目的上有用であり得る、ユーザを複数のカテゴリにグループ化するために使用することができる任意の他の情報をさらに含み得る。例えば、さらなるビデオが閲覧され、ビジュアル・キューが検出され感情状態に関連付けられるとき等の感情状態のマニホールド206が更新されるときに、ユーザ・プロファイルは更新され得る。ユーザ・プロファイルは、他のユーザのプロファイルとともに、ユーザ・データベース518に記憶され得る。複数のユーザのプロファイルが、複数のユーザから生成されたインデクス情報を含む、ビデオ・データベース506からのインデクシングされたビデオとともに、要約モジュール508、分割モジュール510、検索モジュール512、514、及びレコメンデーション生成モジュール522に提供され得るか、あるいはこれらのモジュールに利用可能になり得る。複数のユーザ又はユーザのグループから取得されたそのような情報を提供することによって、要約、分割、検索、及びレコメンデーションの動作は、他のユーザの感情反応を含めることにより(例えば、クラウド・ソーシングにより)、向上され得る。例えば、ユーザ要求に応じて実行されるビデオ検索は、そのユーザの以前に記録された他のビデオに対する感情反応に基づき得るものであってもよいし、同様のプロファイルを有する他のユーザの感情反応に基づき得るものであってもよい。いくつかの実施形態において、複数のユーザからのデータの利用可能性は、生じ得る誤りを平均化する、あるいは除去するために使用することができる。
いくつかの実施形態において、ビデオ解析システム516は、例えば、ユーザの感情反応を考慮に入れない解析といった、ビデオ・ストリームのさらなる一般化された解析を提供するよう構成され得る。このような自動的な解析結果が、モジュール504により実行されるインデクシング動作に組み込まれ得、そのビデオに関するメタデータに組み込まれ得る。そのメタデータが、処理モジュール508、510、512、514、及び522のいずれかにより利用されるよう使用され得る。
図6は、本開示と整合する例示的な実施形態の動作600のフローチャートを示している。動作610において、ビデオの閲覧に応じてユーザにより生成されたビジュアル・キューが検出される。ビデオはビデオ・ストリームであり得る。動作620において、ビジュアル・キューが、ユーザ(又は、全ての人間若しくは人間のサブ・グループを考慮に入れた一般空間)に関連付けられた感情マニホールド(又は、何らかの機能/特性空間)にマッピングされる。動作630において、ユーザの感情事象が、マッピングに基づいて推定される。動作640において、ビデオが、メタデータによりインデクシングされる。メタデータは、推定された感情事象及び推定された感情事象に関連付けられたタイミング・データを含む。タイミング・データは、ビデオ・ストリームに関連付けられたフレーム数に関連してもよいし、ビデオの開始に対する経過時間又は任意の他の適切な基準時間に対する経過時間に関連してもよい。したがって、タイミング・データはタイムスタンプであり得る。その後、インデクシングされたビデオを使用して、要約動作、分割動作、検索動作、及びレコメンデーション動作を円滑にすることができる。
本明細書で説明した方法の実施形態は、1以上のプロセッサにより実行されたときにその方法を実行する命令を個別に又は組み合わせて記憶した1以上の記憶媒体を含むシステムにおいて実施され得る。ここで、プロセッサは、例えば、システムCPU(例えば、コア・プロセッサ)及び/又はプログラマブル回路を含み得る。したがって、本明細書で説明した方法に従った動作は、複数の異なる物理的位置における処理構造等の複数の物理デバイスにわたって分散させてもよいことが意図されている。また、方法動作は、当業者により理解されるように、個別に又は下位組合せをもって実行されてもよいことが意図されている。したがって、フローチャートの動作の全てが実行される必要はなく、本開示は、当業者により理解されるように、そのような動作の全ての下位組合せが可能であることを明確に意図している。
記憶媒体は、任意のタイプの有体の媒体を含み得る。そのような有体の媒体は、例えば、フロッピ・ディスク、光ディスク、CD−ROM、CD−RW、DVD、及び光磁気ディスクを含む任意のタイプのディスク、ROM、ダイナミックRAM及びスタティックRAM等のRAM、EPROM、EEPROM、フラッシュ・メモリ等の半導体デバイス、磁気カード若しくは光カード、又は電子的命令を記憶するのに適した任意のタイプの媒体である。
本明細書における任意の実施形態で使用される「回路」は、例えば、ハード・ワイヤードの回路、プログラマブル回路、状態マシン回路、及び/又はプログラマブル回路により実行される命令を記憶するファームウェアを単一で又は任意の組合せで含み得る。アプリケーションは、ホスト・プロセッサ又は他のプログラマブル回路等のプログラマブル回路上で実行され得るコード又は命令として具現化され得る。本明細書における任意の実施形態で使用される「モジュール」は、回路として具現化され得る。回路は、集積回路チップ等の集積回路として具現化され得る。
したがって、本開示は、検出されたビジュアル・キューに基づいて、ビデオに対する閲覧者の感情反応を推定し、感情及びビデオのフレームに関するそのような感情のタイミングについての情報を含むメタデータにより、ビデオをインデクシングするためのシステム、方法、及びコンピュータ読み取り可能記憶媒体を提供する。
システムは、ユーザにより生成されたビジュアル・キューを検出するよう構成されているビジュアル・キュー検出モジュールを含み得る。ビジュアル・キューは、ユーザがビデオを閲覧したことに応じて生成される。この例のシステムはまた、ビジュアル・キューをユーザに関連付けられた感情空間にマッピングし、マッピングに基づいてユーザの感情事象を推定するよう構成されている感情推定モジュールを含み得る。この例のシステムは、メタデータによりビデオをインデクシングするよう構成されているビデオ・インデクシング・モジュールをさらに含み得る。メタデータは、推定された感情事象及び推定された感情事象に関連付けられたタイミング・データを含む。
別の例示的なシステムは前述のコンポーネントを含み、ビデオ・インデクシング・モジュールは、さらに、感情事象に関連付けられたビデオ・フレーム・タイムスタンプを識別するよう構成されており、この識別はタイミング・データに基づく。
別の例示的なシステムは前述のコンポーネントを含み、ビデオのフレームを抽出するよう構成されているビデオ要約モジュールをさらに含む。この抽出は、閾値を超える、抽出されたフレームにおける感情事象の密度に基づき、密度は、インデクシングから判定される。
別の例示的なシステムは前述のコンポーネントを含み、フレームの位置でビデオを分割するよう構成されているビデオ分割モジュールをさらに含む。この分割は、閾値以下に属する、フレームにおける感情事象の密度に基づき、密度は、インデクシングから判定される。
別の例示的なシステムは前述のコンポーネントを含み、要求された感情事象に関連するビデオ内のフレームを検索するよう構成されているビデオ内検索モジュールをさらに含む。この検索はインデクシングに基づく。
別の例示的なシステムは前述のコンポーネントを含み、ユーザ・プロファイルのデータベースを作成及び保持するよう構成されているユーザ・プロファイル生成モジュールをさらに含む。ユーザ・プロファイルは、ユーザ及び1以上の他のユーザに関連付けられた感情空間を含む。
別の例示的なシステムは前述のコンポーネントを含み、ユーザ及び1以上の他のユーザに関連付けられたメタデータを含むインデクシングされたビデオを記憶するよう構成されているインデクシングされたビデオ・データベースをさらに含む。
別の例示的なシステムは前述のコンポーネントを含み、ユーザから要求された感情事象に関連するビデオを検索するよう構成されているビデオ間検索モジュールをさらに含む。この検索はインデクシングされたビデオ・データベースに基づく。
別の側面に従うと、方法が提供される。方法は、ユーザにより生成されたビジュアル・キューを検出するステップを含み得る。ビジュアル・キューは、ユーザがビデオを閲覧したことに応じて生成される。この例の方法はまた、ビジュアル・キューをユーザに関連付けられた感情空間にマッピングするステップを含み得る。この例の方法は、マッピングに基づいてユーザの感情事象を推定するステップをさらに含み得る。この例の方法は、メタデータによりビデオをインデクシングするステップをさらに含み得る。メタデータは、推定された感情事象及び推定された感情事象に関連付けられたタイミング・データを含む。
別の例示的な方法は前述の動作を含み、感情事象に関連付けられたビデオ・フレーム・タイムスタンプを識別するステップをさらに含む。この識別はタイミング・データに基づく。
別の例示的な方法は前述の動作を含み、ビデオの要約を生成するために、ビデオのフレームを抽出するステップをさらに含む。この抽出は、閾値を超える、フレームにおける感情事象の密度に基づき、密度は、インデクシングから判定される。
別の例示的な方法は前述の動作を含み、フレームの位置でビデオを分割するステップをさらに含む。この分割は、閾値以下に属する、フレームにおける感情事象の密度に基づき、密度は、インデクシングから判定される。
別の例示的な方法は前述の動作を含み、要求された感情事象に関連するビデオ内のフレームを検索するステップをさらに含む。この検索はインデクシングに基づく。
別の例示的な方法は前述の動作を含み、感情事象の頻度、期間、及びタイプに基づいてビデオのジャンルを推定するステップをさらに含む。
別の例示的な方法は前述の動作を含み、ユーザ・プロファイルのデータベースを保持する保持ステップであって、ユーザ・プロファイルは、ユーザ及び1以上の他のユーザに関連付けられた感情空間を含む、保持ステップと、ユーザ及び1以上の他のユーザに関連付けられたメタデータを含むインデクシングされたビデオのデータベースを保持するステップと、をさらに含む。
別の例示的な方法は前述の動作を含み、ユーザから要求された感情事象に関連するビデオを検索するステップをさらに含む。この検索はインデクシングされたビデオのデータベースに基づく。
別の例示的な方法は前述の動作を含み、ユーザに関連付けられた感情空間と、ユーザ・プロファイルのデータベースにおける他のユーザに関連付けられた感情空間と、インデクシングされたビデオのデータベースにおけるメタデータとの比較に基づいて、ユーザにビデオを薦めるステップをさらに含む。
別の側面に従うと、プロセッサにより実行されたときにプロセッサに上記の例において説明した方法の動作を実行させる命令を記憶した少なくとも1つのコンピュータ読み取り可能記憶媒体が提供される。
本明細書で使用した語及び表現は、限定ではなく説明の用途として用いられ、そのような語及び表現の使用において、図示し説明した特徴(又は、その一部分)の均等物を除外する意図はなく、様々な修正が、特許請求の範囲内で可能なことが認識されよう。したがって、特許請求の範囲は、そのような均等物全てを包含するよう意図される。様々な特徴、態様、及び実施形態を本明細書で説明した。特徴、態様、及び実施形態は、当業者により理解されるように、互いとの組合せ、並びに変形及び変更を受け入れることが可能である。したがって、本開示は、そのような組合せ、変形、及び変更を包含するものとみなされるべきである。

Claims (17)

  1. ビデオ・インデクシングのためのシステムであって、
    ユーザにより生成されたビジュアル・キューを検出するよう構成されているビジュアル・キュー検出モジュールであって、前記ビジュアル・キューは、前記ユーザがビデオを閲覧したことに応じて生成される、ビジュアル・キュー検出モジュールと、
    前記ビジュアル・キューを、少なくとも2つの次元を有する感情空間にマッピングするよう構成されている感情推定モジュールであって、前記少なくとも2つの次元の各々は、異なる感情状態特性を表し、前記感情空間は、前記ユーザに関連付けられており、前記感情推定モジュールは、前記マッピングにおける前記ビジュアル・キューの少なくとも1つのグループの存在に基づいて前記ユーザの感情事象を推定し、前記ビジュアル・キューの異なるグループの各々は、推定された異なる感情事象を表す、感情推定モジュールと、
    メタデータにより前記ビデオをインデクシングするよう構成されているビデオ・インデクシング・モジュールであって、前記メタデータは、前記の推定された感情事象及び前記の推定された感情事象に関連付けられたタイミング・データを含む、ビデオ・インデクシング・モジュールと、
    前記ビデオのフレームを抽出するよう構成されているビデオ要約モジュールであって、前記抽出は、閾値を超える、前記の抽出されるフレームにおける感情事象の密度に基づき、前記密度は、前記インデクシングから判定される、ビデオ要約モジュールと、
    を含む、システム。
  2. 前記ビデオ・インデクシング・モジュールは、さらに、前記感情事象に関連付けられたビデオ・フレーム・タイムスタンプを識別するよう構成されており、前記識別は前記タイミング・データに基づく、請求項1記載のシステム。
  3. フレームの位置で前記ビデオを分割するよう構成されているビデオ分割モジュールであって、前記分割は、閾値以下に属する、前記フレームにおける感情事象の密度に基づき、前記密度は、前記インデクシングから判定される、ビデオ分割モジュール
    をさらに含む、請求項1記載のシステム。
  4. 要求された感情事象に関連する前記ビデオ内のフレームを検索するよう構成されているビデオ内検索モジュールであって、前記検索は前記インデクシングに基づく、ビデオ内検索モジュール
    をさらに含む、請求項1記載のシステム。
  5. ユーザ・プロファイルのデータベースを作成及び保持するよう構成されているユーザ・プロファイル生成モジュールであって、前記ユーザ・プロファイルは、前記ユーザ及び1以上の他のユーザに関連付けられた前記感情空間を含む、ユーザ・プロファイル生成モジュール
    をさらに含む、請求項1記載のシステム。
  6. 前記ユーザ及び1以上の他のユーザに関連付けられたメタデータを含む前記のインデクシングされたビデオを記憶するよう構成されているインデクシングされたビデオ・データベース
    をさらに含む、請求項1記載のシステム。
  7. 前記ユーザから要求された感情事象に関連するビデオを検索するよう構成されているビデオ間検索モジュールであって、前記検索は前記インデクシングされたビデオ・データベースに基づく、ビデオ間検索モジュール
    をさらに含む、請求項記載のシステム。
  8. ビデオ・インデクシングのための方法であって、
    ユーザにより生成されたビジュアル・キューを検出する検出ステップであって、前記ビジュアル・キューは、前記ユーザがビデオを閲覧したことに応じて生成される、検出ステップと、
    前記ビジュアル・キューを、少なくとも2つの次元を有する感情空間にマッピングするマッピング・ステップであって、前記少なくとも2つの次元の各々は、異なる感情状態特性を表し、前記感情空間は、前記ユーザに関連付けられている、マッピング・ステップと、
    前記マッピングにおける前記ビジュアル・キューの少なくとも1つのグループの存在に基づいて前記ユーザの感情事象を推定する推定ステップであって、前記ビジュアル・キューの異なるグループの各々は、推定された異なる感情事象を表す、推定ステップと、
    メタデータにより前記ビデオをインデクシングするインデクシング・ステップであって、前記メタデータは、前記の推定された感情事象及び前記の推定された感情事象に関連付けられたタイミング・データを含む、インデクシング・ステップと、
    前記ビデオの要約を生成するために、前記ビデオのフレームを抽出する抽出ステップであって、前記抽出は、閾値を超える、前記フレームにおける感情事象の密度に基づき、前記密度は、前記インデクシングから判定される、抽出ステップと、
    を含む、方法。
  9. 前記感情事象に関連付けられたビデオ・フレーム・タイムスタンプを識別する識別ステップであって、前記識別は前記タイミング・データに基づく、識別ステップ
    をさらに含む、請求項記載の方法。
  10. フレームの位置で前記ビデオを分割する分割ステップであって、前記分割は、閾値以下に属する、前記フレームにおける感情事象の密度に基づき、前記密度は、前記インデクシングから判定される、分割ステップ
    をさらに含む、請求項記載の方法。
  11. 要求された感情事象に関連する前記ビデオ内のフレームを検索する検索ステップであって、前記検索は前記インデクシングに基づく、検索ステップ
    をさらに含む、請求項記載の方法。
  12. 前記感情事象の頻度、期間、及び/又はタイプに基づいて前記ビデオのジャンルを推定するステップ
    をさらに含む、請求項記載の方法。
  13. ユーザ・プロファイルのデータベースを保持する保持ステップであって、前記ユーザ・プロファイルは、前記ユーザ及び1以上の他のユーザに関連付けられた前記感情空間を含む、保持ステップと、
    前記ユーザ及び前記1以上の他のユーザに関連付けられたメタデータを含む前記のインデクシングされたビデオのデータベースを保持するステップと、
    をさらに含む、請求項記載の方法。
  14. 前記ユーザから要求された感情事象に関連するビデオを検索する検索ステップであって、前記検索は前記のインデクシングされたビデオの前記データベースに基づく、検索ステップ
    をさらに含む、請求項13記載の方法。
  15. 前記ユーザに関連付けられた前記感情空間と、前記ユーザ・プロファイルの前記データベースにおける前記他のユーザに関連付けられた前記感情空間と、前記のインデクシングされたビデオの前記データベースにおける前記メタデータとの比較に基づいて、前記ユーザにビデオを薦めるステップ
    をさらに含む、請求項13記載の方法。
  16. プロセッサにより実行されたとき、前記プロセッサに、請求項乃至15いずれか一項記載の方法を実行させるコンピュータ・プログラム。
  17. 請求項16記載のコンピュータ・プログラムを記憶したコンピュータ読み取り可能記憶媒体。
JP2015526771A 2012-09-25 2013-09-10 閲覧者の反応推定及びビジュアル・キュー検出によるビデオ・インデクシング Expired - Fee Related JP6141981B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/626,161 2012-09-25
US13/626,161 US9247225B2 (en) 2012-09-25 2012-09-25 Video indexing with viewer reaction estimation and visual cue detection
PCT/US2013/058938 WO2014051992A1 (en) 2012-09-25 2013-09-10 Video indexing with viewer reaction estimation and visual cue detection

Publications (2)

Publication Number Publication Date
JP2015527668A JP2015527668A (ja) 2015-09-17
JP6141981B2 true JP6141981B2 (ja) 2017-06-07

Family

ID=50338942

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015526771A Expired - Fee Related JP6141981B2 (ja) 2012-09-25 2013-09-10 閲覧者の反応推定及びビジュアル・キュー検出によるビデオ・インデクシング

Country Status (6)

Country Link
US (1) US9247225B2 (ja)
EP (1) EP2901707A4 (ja)
JP (1) JP6141981B2 (ja)
KR (2) KR20160075872A (ja)
CN (1) CN104541514B (ja)
WO (1) WO2014051992A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140270701A1 (en) * 2013-03-15 2014-09-18 First Principles, Inc. Method on indexing a recordable event from a video recording and searching a database of recordable events on a hard drive of a computer for a recordable event
GB2515481A (en) * 2013-06-24 2014-12-31 British Broadcasting Corp Programme control
US10013892B2 (en) 2013-10-07 2018-07-03 Intel Corporation Adaptive learning environment driven by real-time identification of engagement level
US20160180722A1 (en) * 2014-12-22 2016-06-23 Intel Corporation Systems and methods for self-learning, content-aware affect recognition
US9659218B1 (en) * 2015-04-29 2017-05-23 Google Inc. Predicting video start times for maximizing user engagement
US9652676B1 (en) 2015-12-21 2017-05-16 International Business Machines Corporation Video personalizing system, method, and recording medium
CN107547922B (zh) * 2016-10-28 2019-12-17 腾讯科技(深圳)有限公司 信息处理方法、装置、系统及计算机可读存储介质
US11328159B2 (en) * 2016-11-28 2022-05-10 Microsoft Technology Licensing, Llc Automatically detecting contents expressing emotions from a video and enriching an image index
WO2018191691A1 (en) * 2017-04-14 2018-10-18 Facebook, Inc. Reactive profile portraits
CN110998726B (zh) * 2017-06-29 2021-09-17 杜比国际公司 用于使外部内容适配视频流的方法、系统和计算机可读媒体
US11412968B2 (en) * 2017-09-12 2022-08-16 Get Together, Inc System and method for a digital therapeutic delivery of generalized clinician tips (GCT)
US10511888B2 (en) 2017-09-19 2019-12-17 Sony Corporation Calibration system for audience response capture and analysis of media content
US10636449B2 (en) * 2017-11-06 2020-04-28 International Business Machines Corporation Dynamic generation of videos based on emotion and sentiment recognition
EP3714380A4 (en) 2017-11-24 2021-06-02 Microsoft Technology Licensing, LLC PROVIDING A SUMMARY OF A MULTIMEDIA DOCUMENT IN A SESSION
US10880601B1 (en) * 2018-02-21 2020-12-29 Amazon Technologies, Inc. Dynamically determining audience response to presented content using a video feed
US10832734B2 (en) * 2019-02-25 2020-11-10 International Business Machines Corporation Dynamic audiovisual segment padding for machine learning
CN111050194B (zh) * 2019-12-02 2022-05-17 北京奇艺世纪科技有限公司 视频序列处理方法、视频序列处理装置、电子设备及计算机可读存储介质
US11553255B2 (en) 2021-03-10 2023-01-10 Sony Interactive Entertainment LLC Systems and methods for real time fact checking during stream viewing
US11546669B2 (en) 2021-03-10 2023-01-03 Sony Interactive Entertainment LLC Systems and methods for stream viewing with experts
US11647240B2 (en) * 2021-07-19 2023-05-09 Raters Group Ltd. Apparatus for outputting content
JPWO2023047657A1 (ja) * 2021-09-22 2023-03-30
CN114697761B (zh) * 2022-04-07 2024-02-13 脸萌有限公司 一种处理方法、装置、终端设备及介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6585521B1 (en) * 2001-12-21 2003-07-01 Hewlett-Packard Development Company, L.P. Video indexing based on viewers' behavior and emotion feedback
JP2005080000A (ja) * 2003-09-01 2005-03-24 Toshiba Solutions Corp インデキシング装置、映像再生装置及び方法
GB2429597B (en) 2004-02-06 2009-09-23 Agency Science Tech & Res Automatic video event detection and indexing
EP1738368A1 (en) * 2004-04-15 2007-01-03 Koninklijke Philips Electronics N.V. Method of generating a content item having a specific emotional influence on a user
US20070203426A1 (en) * 2005-10-20 2007-08-30 Kover Arthur J Method and apparatus for obtaining real time emotional response data over a communications network
JP2008244602A (ja) * 2007-03-26 2008-10-09 Univ Of Electro-Communications 放送番組の推薦情報の表示装置
CN101690228B (zh) 2007-06-29 2012-08-08 汤姆森许可贸易公司 视频编索引方法和视频编索引设备
US8750578B2 (en) * 2008-01-29 2014-06-10 DigitalOptics Corporation Europe Limited Detecting facial expressions in digital images
CN102077236A (zh) * 2008-07-03 2011-05-25 松下电器产业株式会社 印象度提取装置和印象度提取方法
AU2011265090A1 (en) * 2010-06-07 2012-11-29 Affectiva,Inc. Mental state analysis using web services
WO2012027595A2 (en) 2010-08-27 2012-03-01 Intel Corporation Techniques for object based operations
CN101968853B (zh) * 2010-10-15 2013-06-05 吉林大学 基于改进的免疫算法优化支持向量机参数的表情识别方法
US8640021B2 (en) 2010-11-12 2014-01-28 Microsoft Corporation Audience-based presentation and customization of content
US20120324491A1 (en) * 2011-06-17 2012-12-20 Microsoft Corporation Video highlight identification based on environmental sensing

Also Published As

Publication number Publication date
EP2901707A1 (en) 2015-08-05
US9247225B2 (en) 2016-01-26
JP2015527668A (ja) 2015-09-17
KR20150027271A (ko) 2015-03-11
CN104541514B (zh) 2018-03-30
US20140086554A1 (en) 2014-03-27
WO2014051992A1 (en) 2014-04-03
EP2901707A4 (en) 2016-06-22
KR20160075872A (ko) 2016-06-29
CN104541514A (zh) 2015-04-22

Similar Documents

Publication Publication Date Title
JP6141981B2 (ja) 閲覧者の反応推定及びビジュアル・キュー検出によるビデオ・インデクシング
CN105100894B (zh) 面部自动标注方法及系统
US11074477B2 (en) Multi-dimensional realization of visual content of an image collection
US8804999B2 (en) Video recommendation system and method thereof
US10140575B2 (en) Sports formation retrieval
US10691743B2 (en) Multi-dimensional realization of visual content of an image collection
EP3367676B1 (en) Video content analysis for automatic demographics recognition of users and videos
US9087242B2 (en) Video synthesis using video volumes
US9471675B2 (en) Automatic face discovery and recognition for video content analysis
US20130148898A1 (en) Clustering objects detected in video
TW202007178A (zh) 用戶特徵的生成方法、裝置、設備及儲存介質
US9122912B1 (en) Sharing photos in a social network system
EP2639745A1 (en) Object identification in images or image sequences
Zhang et al. Context-based person identification framework for smart video surveillance
US9740695B2 (en) Method for enriching a multimedia content, and corresponding device
KR101111046B1 (ko) 객체 검출 정보를 이용한 유사 동영상 검색 시스템 및 방법
CN104850600B (zh) 一种用于搜索包含人脸的图片的方法和装置
Li et al. A Multimodal Approach for Video Geocoding.
Cao Photo Set Refinement and Tag Segmentation in Georeferencing Flickr Photos.
EP2665018A1 (en) Object identification in images or image sequences
Chen et al. Improving automatic name-face association using celebrity images on the web
Rasmus et al. Improving face recognition with genealogical and contextual data
Tang et al. Music recommendation with collaborative filtering for mobile services
Tkalčič et al. Exploiting implicit affective labeling for image recommendations
Sedmidubsky et al. Face-Based people searching in videos

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170508

R150 Certificate of patent or registration of utility model

Ref document number: 6141981

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees