JP5471749B2 - コンテンツ検索装置および方法、並びにプログラム - Google Patents

コンテンツ検索装置および方法、並びにプログラム Download PDF

Info

Publication number
JP5471749B2
JP5471749B2 JP2010090610A JP2010090610A JP5471749B2 JP 5471749 B2 JP5471749 B2 JP 5471749B2 JP 2010090610 A JP2010090610 A JP 2010090610A JP 2010090610 A JP2010090610 A JP 2010090610A JP 5471749 B2 JP5471749 B2 JP 5471749B2
Authority
JP
Japan
Prior art keywords
content
image
search
displayed
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010090610A
Other languages
English (en)
Other versions
JP2011223327A (ja
Inventor
和政 田中
健司 田中
義博 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010090610A priority Critical patent/JP5471749B2/ja
Priority to US13/639,012 priority patent/US8971633B2/en
Priority to KR1020127025735A priority patent/KR20130045251A/ko
Priority to EP11765644.7A priority patent/EP2560379A4/en
Priority to PCT/JP2011/058022 priority patent/WO2011125744A1/ja
Priority to CN2011800173185A priority patent/CN102822827A/zh
Publication of JP2011223327A publication Critical patent/JP2011223327A/ja
Application granted granted Critical
Publication of JP5471749B2 publication Critical patent/JP5471749B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
    • H04N21/8153Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics comprising still images, e.g. texture, background image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
    • H04N7/17309Transmission or handling of upstream communications
    • H04N7/17318Direct or substantially direct transmission and handling of requests

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本発明は、コンテンツ検索装置および方法、並びにプログラムに関し、特に、複数の画像のそれぞれについての検索結果を表示させて動画のコンテンツの内容をより簡単に把握することができるようにするコンテンツ検索装置および方法、並びにプログラムに関する。
近年、映像(動画)コンテンツに対する解析、検索の技術が提案されている。このような解析結果や検索結果を表示する際には、数値や画像などをそのまま表示するだけでなく、例えば、コンテンツをタイムライン表示するなど、視覚的に分かりやすい表示方式が工夫されている。
すなわち、動画のコンテンツの内容を全て確認するためには、コンテンツを再生する必要があるので、所定の再生時間が必要となる。このような時間をかけずに、コンテンツの内容を容易に把握できるようにすることが好ましい。
従来技術では、タイムラインの表示として音声信号や画素の輝度値の変化などの波形の画像を表示する例が知られている。
また、コンテンツを構成する各シーンの最初のフレームの画像、最後のフレームの画像などを表示する方式や、画像のダイジェストシーンをマルチ画面で見ることができるようにする技術も提案されている(例えば、特許文献1参照)。
さらに、通常の画像の記録と同時に、通常の動画の駒落とししたインデックス用動画を記録し、ユーザがインデックス表示された画像のいずれかを選択すると、例えば、選択された動画についてインデックス用動画の再生が行われるようにすることも提案されている(例えば、特許文献2参照)。
特開平7−67073号公報 特開2001−238154号公報
しかしながら、従来の技術では、ユーザが所望の画像が含まれているシーンを簡単に見つけたり、ユーザが所望の特徴的なシーンを容易に探したりすることができないという問題があった。
例えば、個々の画像を検索すべき画像としてコンテンツを検索することはできても、複数の画像が順次表示される部分や、コンテンツの中で所望の画像が表示される時間的割合を他の画像が表示される時間的割合と比較することなどはできなかった。
また、例えば、各シーンの先頭フレームの画像などを表示する方式では、時間的に長いコンテンツの場合に表示が煩雑となり、このような表示によってユーザがコンテンツの内容を容易に理解できるようになるとは考えにくい。
さらに、インデックス画像をマルチ画面に表示する方式やインデックス動画を再生させる方式などの場合、映像コンテンツのどの部分(時間的な位置)にどのような画像が存在しているかを把握することは困難である。
本発明はこのような状況に鑑みてなされたものであり、複数の画像のそれぞれについての検索結果を表示させて動画のコンテンツの内容をより簡単に把握することができるようにするものである。
本発明の一側面は、静止画である検索画像の入力を複数受け付ける検索画像入力手段と、予め定められた方式で前記複数の検索画像の画像特徴量をそれぞれ抽出する画像特徴量抽出手段と、動画のコンテンツについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記複数の検索画像のそれぞれの画像特徴量との類似度を算出する類似度算出手段と、前記算出された類似度を予め定められた閾値と比較することにより、前記複数の検索画像のそれぞれに類似する前記静止画のフレームを特定する特定手段と、前記特定された前記フレームと、前記コンテンツから予め抽出されたメタデータに基づいて、前記コンテンツごとに、前記複数の検索画像のそれぞれに類似する前記静止画のフレームの時間的位置を表す情報と、前記コンテンツとを同一の時間軸上に表示してタイムライン表示させるための表示データを生成するタイムライン表示手段とを備えるコンテンツ検索装置である。
前記タイムライン表示手段は、前記複数の検索画像の一覧を表示する検索画像表示部と、前記コンテンツをタイムライン表示するタイムライン表示部とを有する画面を表示させるための表示データを生成し、前記検索画像表示部において、前記複数の検索画像のそれぞれが異なる色の表示枠に囲まれて表示され、前記タイムライン表示部において、前記複数の検索画像のそれぞれに類似する前記静止画のフレームの時間的位置を表す情報が、それぞれ前記表示枠の色と同じ色のカラーバーとして表示されるようにすることができる。
前記タイムライン表示手段は、複数のコンテンツのそれぞれを同一画面上の前記タイムライン表示部に前記タイムライン表示させ、前記複数のコンテンツのそれぞれにおいて、前記複数の検索画像のそれぞれに類似する前記静止画のフレームの時間的位置を表す情報が、それぞれ前記表示枠の色と同じ色のカラーバーとして表示されるようにすることができる。
前記タイムライン表示手段は、前記タイムライン表示されたコンテンツの再生が指令された場合、前記コンテンツを再生して得られる動画を表示する動画表示部をさらに有する画面を表示させるための表示データを生成するようにすることができる。
前記タイムライン表示手段は、前記メタデータに含まれる前記コンテンツのシーンチェンジ点の情報に基づいて、前記コンテンツを構成するシーンを特定し、前記シーンの時間的長さに対応させて前記シーンのそれぞれを表示する図形を、画面の水平または垂直方向を時間軸として表示することで前記コンテンツをタイムライン表示させるようにすることができる。
前記タイムライン表示手段は、前記シーンを表示する図形を、予め定められた方式により特定された前記シーンの代表色で表示して前記コンテンツをタイムライン表示させるようにすることができる。
本発明の一側面は、検索画像入力手段が、静止画である検索画像の入力を複数受け付け、画像特徴量抽出手段が、予め定められた方式で前記複数の検索画像の画像特徴量をそれぞれ抽出し、類似度算出手段が、動画のコンテンツについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記複数の検索画像のそれぞれの画像特徴量との類似度を算出し、特定手段が、前記算出された類似度を予め定められた閾値と比較することにより、前記複数の検索画像のそれぞれに類似する前記静止画のフレームを特定し、タイムライン表示手段が、前記特定された前記フレームと、前記コンテンツから予め抽出されたメタデータに基づいて、前記コンテンツごとに、前記複数の検索画像のそれぞれに類似する前記静止画のフレームの時間的位置を表す情報と、前記コンテンツとを同一の時間軸上に表示してタイムライン表示させるための表示データを生成するステップを含むコンテンツ検索方法である。
本発明の一側面は、コンピュータを、静止画である検索画像の入力を複数受け付ける検索画像入力手段と、予め定められた方式で前記複数の検索画像の画像特徴量をそれぞれ抽出する画像特徴量抽出手段と、動画のコンテンツについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記複数の検索画像のそれぞれの画像特徴量との類似度を算出する類似度算出手段と、前記算出された類似度を予め定められた閾値と比較することにより、前記複数の検索画像のそれぞれに類似する前記静止画のフレームを特定する特定手段と、前記特定された前記フレームと、前記コンテンツから予め抽出されたメタデータに基づいて、前記コンテンツごとに、前記複数の検索画像のそれぞれに類似する前記静止画のフレームの時間的位置を表す情報と、前記コンテンツとを同一の時間軸上に表示してタイムライン表示させるための表示データを生成するタイムライン表示手段とを備えるコンテンツ検索装置として機能させるプログラムである。
本発明の一側面においては、静止画である検索画像の入力が複数受け付けられ、予め定められた方式で前記複数の検索画像の画像特徴量がそれぞれ抽出され、動画のコンテンツについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記複数の検索画像のそれぞれの画像特徴量との類似度が算出され、前記算出された類似度を予め定められた閾値と比較することにより、前記複数の検索画像のそれぞれに類似する前記静止画のフレームが特定され、前記特定された前記フレームと、前記コンテンツから予め抽出されたメタデータに基づいて、前記コンテンツごとに、前記複数の検索画像のそれぞれに類似する前記静止画のフレームの時間的位置を表す情報と、前記コンテンツとを同一の時間軸上に表示してタイムライン表示させるための表示データが生成される。
本発明によれば、動画のコンテンツの内容をより簡単に把握することができる。
本発明の一実施の形態に係るコンテンツ処理装置の構成例を示すブロック図である。 図1の出力部から出力される表示データに基づいて表示される画面の例を示す図である。 図2に示される画面においてコンテンツが再生されたときの画面の例を示す図である。 図3に示される状態からさらに時間が経過したときの画面の例を示す図である。 コンテンツ表示処理の例を説明するフローチャートである。 図2乃至図4の画面において、検索が行われる場合の例を示す図である。 図6に示される画面において検索結果が表示された画面の例を示す図である。 複数のコンテンツを検索する場合の画面の例を示す図である。 図8に示される画面において検索結果が表示された画面の例を示す図である。 図9に示される画面においてコンテンツが再生されたときの画面の例を示す図である。 検索結果表示処理を説明するフローチャートである。 検索結果が表示された画面の別の例を示す図である。 パーソナルコンピュータの構成例を示すブロック図である。
以下、図面を参照して、本発明の実施の形態について説明する。
図1は、本発明の一実施の形態に係るコンテンツ処理装置の構成例を示すブロック図である。
このコンテンツ処理装置10は、入力された動画のコンテンツをタイムライン表示するとともに、必要に応じてそのコンテンツの中から所定の画像を検索して検索結果をタイムライン表示するものとされる。
同図に示されるように、コンテンツ処理装置10には、コンテンツ入力部21、メタデータ抽出部22、画像特徴量抽出部23、メタデータデータベース24、および画像特徴量データベース25が設けられている。また、コンテンツ処理装置10には、検索画像入力部26、検索部27、および出力部28が設けられている。
コンテンツ入力部21は、コンテンツのデータの入力を受け付ける。上述したように、コンテンツは、動画のコンテンツであり、必要に応じて音声やキャプションなども含まれている。これらのコンテンツは、例えば、放送される番組の一部として編集されたコンテンツなどとされる。
メタデータ抽出部22は、コンテンツ入力部21から供給されたコンテンツのデータを解析し、コンテンツからメタデータを抽出するようになされている。ここで、メタデータは、例えば、コンテンツのシーンチェンジ点に関する情報、後述するタイムライン表示する際に必要となる時刻に関する情報、そのコンテンツの代表画像などの情報とされる。
メタデータに含まれるコンテンツの代表画像は、コンテンツを構成する各シーンの中で最も音声信号のレベルが大きくなった場面に対応するフレームの画像(静止画)などとされ、予め定められた方式で代表画像が抽出されているものとする。代表画像のデータ、および代表画像に対応するフレームのフレーム番号などの情報もメタデータ抽出部により抽出される。
メタデータ抽出部により抽出されたメタデータは、例えば、コンテンツの識別情報と対応付けられてメタデータデータベース24に蓄積されるようになされている。
画像特徴量抽出部23は、コンテンツ入力部21から供給されたコンテンツのデータを解析し、コンテンツから画像特徴量を抽出するようになされている。ここで、画像特徴量は、後述する検索部27の処理において検索画像との類似度を得るために用いられる情報とされる。画像特徴量は、例えば、コンテンツを構成する1フレーム分の静止画のそれぞれを予め定められた複数の領域に分割し、それぞれの領域の代表色を記述した情報などとされる。また、画像特徴量は、1フレーム分の静止画像の画素値のヒストグラムの情報などとされるようにしてもよい。
画像特徴量抽出部23が抽出した画像特徴量は、例えば、コンテンツの識別情報およびフレーム番号と対応付けられて画像特徴量データベース25に蓄積されるようになされている。
また、画像特徴量抽出部23は、検索画像入力部26から入力された検索画像からも、同様にして画像特徴量を抽出するようになされている。
検索画像入力部26は、静止画である検索画像の入力を受け付けるようになされている。検索画像は、例えば、ユーザが任意に選択した画像とされ、コンテンツ入力部21から入力されたコンテンツの中から当該検索画像と類似した画像を検索するために入力される。
検索部27は、画像特徴量抽出部23により抽出された検索画像の画像特徴量と、画像特徴量データベース25に記憶されている画像特徴量とを所定の方式で比較する。これにより、検索画像の画像特徴量と、画像特徴量データベース25に記憶されているコンテンツを構成する1フレーム分の静止画のそれぞれの画像特徴量との類似度が数値として算出されるようになされている。
検索部27は、例えば、検索画像の画像特徴量との類似度が所定の閾値以上の値となった画像特徴量を有する静止画を特定し、それらの静止画のフレーム番号などを出力部28に供給する。
出力部28は、メタデータデータベース24からコンテンツのメタデータを読み出し、そのコンテンツについてタイムライン表示するために必要となる表示データを生成するようになされている。
また、出力部28は、メタデータデータベース24からコンテンツのメタデータを読み出し、検索部27から供給された静止画のフレーム番号と、読み出されたメタデータに基づいて、検索結果をタイムライン表示するための表示データを生成する。
なお、出力部28から出力される表示データは、図示せぬディスプレイなどに供給され、後述するような画像として表示される。
次に、コンテンツ処理装置10によるコンテンツのタイムライン表示の例について説明する。
図2は、出力部28から出力される表示データに基づいて図示せぬディスプレイなどに表示される画面の例を示す図である。
図2に示される画面は、動画表示部51を有している。コンテンツ入力部21から入力されたコンテンツの画像は、動画表示部51において動画として表示されるようになされている。
また、図2に示される画面は、代表画像表示部52を有している。代表画像表示部52には、メタデータデータベース24から読み出されたメタデータに含まれる代表画像が静止画として表示される。この例では、9(=3×3)枚の代表画像が示されている。
さらに、図2に示される画面は、タイムライン表示部53を有している。タイムライン表示部53においては、図中水平方向がコンテンツの時間軸に対応するように、コンテンツがタイムライン表示される。すなわち、タイムライン表示部53の左端がコンテンツの開始時刻に対応し、タイムライン表示部53の右端がコンテンツの終了時刻に対応するように、コンテンツが時間軸に対応して表示される。
ここでは、所定のコンテンツを、コンテンツの時間的長さ、コンテンツの内部のシーン、フレームなどの時間的位置を、ユーザが視覚的に認識できるように表示させることをコンテンツのタイムライン表示と称している。なお、コンテンツのタイムライン表示は、何らかの方式でそのコンテンツを表示させるものであるが、例えば、コンテンツが再生されて動画として表示されることなどを意味するものではない。タイムライン表示におけるコンテンツの表示は、例えば、そのコンテンツまたはそのコンテンツの構成部分を象徴する図形、波形、記号などを時間軸に対応させて表示させることを意味している。
タイムライン表示部53には、シーン表示領域71が含まれる。シーン表示領域71には、コンテンツの各シーンが、それぞれのシーンの時間的長さに対応する幅(長さ)の矩形として表示されている。すなわち、シーン表示領域71には、8つの矩形が表示されており、このコンテンツが8つのシーンによって構成されていることが分かる。なお、各シーンの開始点および終了点は、メタデータデータベース24から読み出されたメタデータに含まれるシーンチェンジ点の情報に基づいて特定され、シーン表示領域71の矩形が表示されるようになされている。
シーン表示領域71に示される各矩形は、図中では便宜上全て白色の矩形として表示されているが、例えば、それぞれのシーンの代表色で表示されるものとする。シーンの代表色は、例えば、シーン内に存在する全フレームの画素値の中で最も多い画素値に対応する色などとして特定されるようになされている。なお、それ以外の方式でシーンの代表色が特定されるようにしてもよい。要は、そのシーンの印象に適した色が代表色とされるようにすればよい。
シーン表示領域71の図中上側には、代表画像がそれぞれ表示される。すなわち、代表画像表示部52に表示されている9枚の代表画像が、それぞれコンテンツ内のフレーム番号に対応する位置に表示される。
すなわち、代表画像表示部52の1行1列目に表示されている代表画像は、コンテンツの第1番目のシーンに含まれるフレームの画像であり、シーン表示領域71の上部において、サムネイル72−1として表示されている。なお、サムネイル72−1には、そのフレームの位置を示す点線が、シーン表示領域71の図中最も左側の矩形に向かって付されている。
ここでは、サムネイル72−1の図中左端部と右端部からシーン表示領域71の図中最も左側の矩形の上部中央やや左の1点に向かって点線が引かれることにより、サムネイル72−1のフレームの時間的位置が示されている。すなわち、代表画像表示部52の1行1列目に表示されている代表画像は、時間軸上でシーン表示領域71の図中最も左側の矩形の中央やや左の1点に対応する位置のフレームの画像であることが示されているのである。このようにすることで、ユーザは、代表画像のコンテンツの中での時間的位置を簡単に把握することができる。
なお、各サムネイルの代表画像のフレームの位置を示すことができれば、別の方式で表示されるようにして構わない。要は、コンテンツの中での代表画像の時間的位置を把握できるように、タイムライン表示されたコンテンツにサムネイルを関連付けて表示するようにできればよい。
また、各サムネイルは、代表画像のフレームのデータに基づいて生成させるようにしてもよいし、予め生成されてメタデータに含まれているようにしてもよい。
サムネイル72−2は、代表画像表示部52の2行3列目に表示されている代表画像を表すものであり、コンテンツの第2番目のシーンに含まれるフレームの画像であることが分かる。
サムネイル72−3は、代表画像表示部52の3行3列目に表示されている代表画像を表すものであり、コンテンツの第3番目のシーンに含まれるフレームの画像であることが分かる。
同様に、サムネイル72−4乃至サムネイル72−9が表示されており、シーン表示領域71の上部には、代表画像表示部52に表示されて9枚の代表画像のそれぞれを表すサムネイルが表示されることになる。
なお、サムネイルのそれぞれは、例えば、交互に重ねられて表示されている。例えば、サムネイル72−1は、サムネイル72−2と重ねられて表示されており、画像の一部が隠れている。なお、サムネイルが重ねて表示される場合、例えば、上に重ねて表示されるサムネイルが透明度50%で表示され、下に重ねて表示されるサムネイルが透けて見えるように表示される。
また、図2に示されるボタン81乃至ボタン83は、例えば、GUIの部品として構成される。例えば、ボタン83が操作されることにより、シーン表示領域71の上部にサムネイル72−1乃至サムネイル72−9がそれぞれ表示されるようになされている。すなわち、最初は、サムネイル72−1乃至サムネイル72−9が表示されていない状態で、図2に示される画面が表示され、ボタン83が操作された場合、シーン表示領域71の上部にサムネイル72−1乃至サムネイル72−9がそれぞれ表示される。
ボタン81は、コンテンツを再生して動画表示部51に動画を表示させるためのボタンとされる。ボタン82は、コンテンツの再生を停止するためのボタンとされる。
ボタン81によりコンテンツを再生した場合、タイムライン表示部53において、スライダ91により現時点で再生されているフレームの位置が示されるようになされている。
図3は、図2に示される画面において、ボタン81が操作されてコンテンツが再生され、所定の時間が経過したときの画面の例を示す図である。
スライダ91は、例えば、シーン表示領域71に重畳して表示される赤色の四角形の枠とされ、時間の経過に伴って、図中水平方向の長さが増大するように表示される。スライダ91の右端部が現在のコンテンツの再生位置を表すことになる。図3に示されるように、コンテンツが再生されてから所定の時間が経過したことにより、スライダ91の右端部がシーン表示領域71上で右側に移動している。
図4は、図3に示される状態からさらに時間が経過したときの画面の例を示す図である。同図に示されるように、時間の経過に伴って、スライダ91の右端部がシーン表示領域71上でさらに右側に移動しており、サムネイル72−4に対応する代表画像のフレームの位置と一致している。サムネイル72−4は、代表画像表示部52の2行1列目に表示されている代表画像を表すものであり、図4において動画表示部51に表示されている画像が代表画像表示部52の2行1列目に表示されている代表画像と一致している。
このとき、サムネイル72−4は、他のサムネイルと比較して表示面積が大きくなるように拡大されて表示されるようになされている。また、このとき、サムネイル72−4は、サムネイル72−3およびサムネイル72−5に対して上に重ねて表示され、透明度0%となるようになされている。すなわち、サムネイル72−3およびサムネイル72−5が透けて見えないように表示されることになる。
このように、再生位置(スライダ91の右端部)が代表画像のフレームの位置と一致したとき、その代表画像を表すサムネイルが強調されて表示されるようになされている。なお、ここでは、サムネイルの表示面積が拡大され、透明度0%で上に重ねて表示されることで、そのサムネイルが強調されて表示される例について説明したが、他の方式によりサムネイルの表示の態様が変更されるようにしてもよい。
このように、本発明によれば、コンテンツの内容を分かりやすくタイムライン表示することができる。タイムライン表示部53において、コンテンツの各シーンと、代表画像を表すサムネイルとが時間軸に沿って表示されるようにしたので、ユーザは、当該コンテンツを再生した場合、いつごろどんなシーンが見られるのかを予め把握することが可能となる。
さらに、コンテンツを再生した場合、スライダ91の右端部の位置が移動する際に、タイムライン表示部53の中で各サムネイルが順次強調表示されるようにしたので、例えば、ユーザは、代表画像に着目して当該コンテンツの編集の優劣を評価することができる。
次に、図5のフローチャートを参照して図1のコンテンツ処理装置10によるコンテンツ表示処理の例について説明する。
ステップS21において、コンテンツ入力部21は、コンテンツのデータの入力を受け付ける。
ステップS22において、メタデータ抽出部22は、コンテンツ入力部21から供給されたコンテンツのデータを解析し、コンテンツからメタデータを抽出する。このとき、例えば、コンテンツのシーンチェンジ点に関する情報、タイムライン表示する際に必要となる時刻に関する情報、そのコンテンツの代表画像などの情報がメタデータとして抽出される。
なお、メタデータに含まれるコンテンツの代表画像は、予め定められた方式で代表画像が抽出されているものとする。代表画像のデータ、および代表画像に対応するフレームのフレーム番号などの情報もメタデータ抽出部により抽出される。
ステップS23において、メタデータデータベース24は、ステップS22の処理で抽出されたメタデータを記憶する。
ステップS24において、出力部28は、メタデータデータベース24からコンテンツのメタデータを読み出し、そのコンテンツについてタイムライン表示するために必要となる表示データを生成する。これにより、図2を参照して上述したような画面が表示される。なお、上述したように、最初は、サムネイル72−1乃至サムネイル72−9が表示されていない状態で、図2に示される画面が表示される。
ステップS25において、出力部28は、サムネイルの表示が指令されたか否かを判定し、サムネイルの表示が指令されたと判定されるまで待機する。
例えば、図2のボタン83が操作された場合、ステップS25において、サムネイルの表示が指令されたと判定され、処理は、ステップS26に進む。
ステップS26において、出力部28は、ステップS24で生成された表示データに対応する画面上にサムネイルを表示するために必要となる表示データを生成する。これにより、例えば、シーン表示領域71の上部にサムネイル72−1乃至サムネイル72−9がそれぞれ表示される。
このようにして、コンテンツ表示処理が実行される。
なお、その後、画面上のGUIの操作などに対応して図3や図4に示されるような画面を表示するように、出力部28は、適宜それらの画面を表示する表示データを生成するようになされている。
次に、コンテンツ処理装置10による画像の検索について説明する。
上述したように、検索画像入力部26は、静止画である検索画像の入力を受け付けるようになされている。検索画像は、例えば、ユーザが任意に選択した画像とされ、コンテンツ入力部21から入力されたコンテンツの中から当該検索画像と類似した画像を検索するために入力される。
例えば、図2乃至図4を参照して上述した画面において、検索が行われる場合の例を図6に示す。同図は、図2乃至図4のコンテンツと同じコンテンツから検索画像を検索する場合の例を示している。
図6の画面においては、検索画像表示領域54が設けられており、検索画像表示領域54には、検索画像入力部26を介して入力された検索画像である画像101乃至画像103が表示されている。この例では、代表画像表示部52に表示された9枚の代表画像の中から3枚の代表画像が選択されて検索画像とされている。
すなわち、代表画像表示部52に表示された画像のうち、2行2列目に表示された画像が画像101とされており、代表画像表示部52に表示された画像のうち、1行3列目に表示された画像が画像102とされており、代表画像表示部52に表示された画像のうち、1行1列目に表示された画像が画像103とされている。
この状態でボタン84を操作すると、検索画像表示領域54に表示された画像と類似度の高い画像がコンテンツのなかから検索されるようになされている。
図7は、図6に示される画面においてボタン84が操作されて検索結果が表示された画面の例を示す図である。
図7に示されるように、検索画像表示領域54に表示された画像101乃至画像103の外枠(表示枠)が所定の色で表示されている。なお、図中では、所定の色がハッチングのパターンの違いによって表示されている。例えば、画像101の外枠は青色で表示され、画像102の外枠は緑色で表示され、画像103の外枠は赤色で表示される。
また、図7の例では、画像101乃至画像103のそれぞれに類似する画像のフレームの位置を表すカラーバーが、シーン表示領域71の各シーンに対応する矩形に重畳されて表示されている。なお、図7に示されるカラーバーは、複数のフレーム位置を示すものとされ、図中水平方向に所定の幅を有するバーとされている。すなわち、動画のコンテンツにおいて、静止画を検索した場合、通常、類似度の高い画像が複数連続して検出されるから、類似度の高い画像のフレーム位置を色付けしていくと、カラーバーが表示されることになるのである。
同図において、カラーバー111−1乃至111−4は、画像101と類似度の高い画像のフレームの位置を表しており、画像101の外枠の色と同色(例えば、青色)のカラーバーとされている。また、カラーバー112−1乃至112−3は、画像102と類似度の高い画像のフレームの位置を表しており、画像102の外枠の色と同色(例えば、緑色)のカラーバーとされている。さらに、カラーバー113−1乃至113−3は、画像103と類似度の高い画像のフレームの位置を表しており、画像103の外枠の色と同色(例えば、赤色)のカラーバーとされている。
このようにすることで、ユーザは、目的の画像(検索画像)を表示する部分がコンテンツのどの部分にどの程度の長さで存在するのかを一目で理解することができる。さらに、複数の画像(例えば、画像101乃至画像103)を表示するそれぞれの部分が、コンテンツの中でどのように組み合わせられているのかも一目で理解することができる。
例えば、図7の例の場合、画像101乃至画像103は、それぞれミサイルの画像であり、画像101はミサイル発射前、画像102はミサイル発射時、画像103はミサイル発射後の画像とされている。例えば、ニュース番組などのコンテンツにおいて、ミサイルに関する報道が行われる場合、ミサイルの発射前、発射時、発射後の画像が繰り返し表示されることが多い。
図7に示される検索結果によれば、当該コンテンツには、ミサイルの画像を表示する部分が概ね4か所含まれていることが分かる。
第1か所目は、第1番目のシーンであって、シーン表示領域71の最も左の矩形に対応するシーンである。すなわち、カラーバー111−1、カラーバー112−1、およびカラーバー113−1に対応する部分においてミサイルの発射前、発射時、発射後の画像が表示されているから、この部分でミサイルの画像が表示されていたことが分かる。
第2か所目は、第5番目のシーンであって、シーン表示領域71の左から5番目の矩形に対応するシーンである。すなわち、カラーバー111−2、カラーバー112−2、およびカラーバー113−2に対応する部分においてミサイルの発射前、発射時、発射後の画像が表示されているから、この部分でミサイルの画像が表示されていたことが分かる。
第3か所目は、第7番目のシーンであって、シーン表示領域71の左から7番目の矩形に対応するシーンである。すなわち、カラーバー111−3に対応する部分においてミサイルの発射前の画像が表示されているから、この部分でミサイルの画像が表示されていたことが分かる。
第4か所目は、第8番目のシーンであって、シーン表示領域71の左から8番目の矩形に対応するシーンである。すなわち、カラーバー111−4、カラーバー112−3、およびカラーバー113−3に対応する部分においてミサイルの発射前、発射時、発射後の画像が表示されているから、この部分でミサイルの画像が表示されていたことが分かる。
つまり、当該コンテンツには、ミサイルに関するシーンが4つあることが分かるが、そのうち、第7番目のシーンのみが、他のシーンと異なり、発射前の画像しか表示されないことが分かる。また、第1番目のシーンにおいては、他のシーンと異なり、発射後の画像が長く表示されていることも分かる。
このように、本発明のコンテンツ処理装置10による検索結果を用いれば、ユーザは、一目でコンテンツの内容を理解することができ、例えば、当該コンテンツの編集者の編集技法を評価することもできるようになる。
なお、図6、図7に示される画面においても、上述した場合と同様に、コンテンツを再生して動画表示部51に動画を表示させることが可能である。
ここでは、図2乃至図4の画面と同じ画面において、検索が行われる場合の例について説明したが、画像の検索を行う際には、他の画面が表示されるようにしてもよい。要は、図7の検索画像表示領域54と、タイムライン表示部53を有する画面が表示されるようにすればよい。
図7においては、1つのコンテンツについて画像の検索を行う例について説明したが、複数のコンテンツについて画像が検索されるようにしてもよい。
図8は、複数のコンテンツについて画像が検索されるようにする場合に、図1のコンテンツ処理装置10の出力部28により生成された表示データにより表示される画面の例を示す図である。
なお、複数のコンテンツについて画像が検索されるようにする場合、図1のコンテンツ入力部21により、予め複数のコンテンツの入力が受け付けられており、各コンテンツに対してメタデータの抽出、および画像特徴量の抽出がなされているものとする。また、複数のコンテンツについて画像が検索されるようにする場合、例えば、コンテンツの識別情報に基づいてメタデータデータベース24に記憶されるメタデータと、画像特徴量データベースに記憶される画像特徴量を読み出すことができるものとする。
図8の画面には、動画表示部151、タイムライン表示部153、検索画像表示領域154が設けられている。図8の例では、タイムライン表示部153に7つのコンテンツがタイムライン表示されている。
タイムライン表示部153には、検索の対象となるコンテンツの数に対応するシーン表示領域が含まれる。この例では、タイムライン表示部153に、シーン表示領域171―1乃至シーン表示領域171―7が含まれている。
シーン表示領域171―1乃至シーン表示領域171―7のそれぞれには、各コンテンツの各シーンが、それぞれのシーンの時間的長さに対応する幅(長さ)の矩形として表示されている。例えば、シーン表示領域171−1には、3つの矩形が表示されており、このコンテンツが3つのシーンによって構成されていることが分かる。なお、各シーンの開始点および終了点は、メタデータデータベース24から読み出されたメタデータに含まれるシーンチェンジ点の情報に基づいて特定され、シーン表示領域171―1乃至シーン表示領域171―7の矩形が表示されるようになされている。
シーン表示領域171―1乃至シーン表示領域171―7に示される各矩形は、例えば、そのシーンの代表色で表示される(ただし、図中では便宜上全て白色で表示されている)。シーンの代表色は、例えば、シーン内に存在する全フレームの画素値の中で最も多い画素値に対応する色などとして特定されるようになされている。なお、それ以外の方式でシーンの代表色が特定されるようにしてもよい。要は、そのシーンの印象に適した色が代表色とされるようにすればよい。
また、タイムライン表示部153において、シーン表示領域171―1乃至シーン表示領域171―7の図中左側に、それぞれ静止画表示領域175−1乃至静止画表示領域175−7が設けられている。静止画表示領域175−1乃至静止画表示領域175−7に表示される画像のそれぞれは、例えば、各コンテンツの先頭のフレームの画像、予め定められた代表画像などとされる。また、静止画表示領域175−1乃至静止画表示領域175−7に表示される画像の図中上側に記述された文字列のそれぞれは、例えば、各コンテンツの識別情報を表すものとされる。
動画表示部151には、タイムライン表示部153においてタイムライン表示されたコンテンツのうち、ユーザにより選択されたコンテンツが再生されて得られる動画が表示される。
検索画像表示領域154には、検索画像入力部26によって入力が受け付けられた検索画像が表示されるようになされている。なお、図8の例では、まだ、検索画像は入力されておらず、検索画像表示領域154に検索画像が表示されていない。検索画像は、例えば、ユーザが任意に選択した画像とされ、タイムライン表示部153においてタイムライン表示されたコンテンツの中から当該検索画像と類似した画像を検索するために入力される。
この状態で、検索画像が入力され、GUIの部品として構成されるボタン184を操作すると、検索画像表示領域154に表示された画像と類似度の高い画像がコンテンツのなかから検索されるようになされている。
図9は、図8に示される画面において、画像201乃至画像203が検索画像として入力され、ボタン184が操作されて検索結果が表示された画面の例を示す図である。
図9に示されるように、検索画像表示領域154に表示された画像201乃至画像203の外枠が所定の色で表示されている。なお、図中では、所定の色がハッチングのパターンの違いによって表示されている。
また、図9の例では、画像201乃至画像203のそれぞれに類似する画像のフレームの位置を表すカラーバーが、シーン表示領域171−1乃至シーン表示領域171−7の各シーンに対応する矩形に重畳されて表示されている。なお、図9に示されるカラーバーは、図7を参照して上述した場合と同様に、複数のフレーム位置を示すものとされ、図中水平方向に所定の幅を有するバーとされている。すなわち、動画のコンテンツにおいて、静止画を検索した場合、通常、類似度の高い画像が複数連続して検出されるから、類似度の高い画像のフレーム位置を色付けしていくと、カラーバーが表示されることになるのである。
同図において、カラーバー211は、画像201と類似度の高い画像のフレームの位置を表しており、画像201の外枠の色(例えば、青色)と同色のカラーバーとされている。また、カラーバー212は、画像202と類似度の高い画像のフレームの位置を表しており、画像202の外枠の色(例えば、緑色)と同色のカラーバーとされている。さらに、カラーバー213は、画像203と類似度の高い画像のフレームの位置を表しており、画像203の外枠の色(例えば、赤色)と同色のカラーバーとされている。
なお、図9の例では、シーン表示領域171−1において表示されているカラーバーにのみ符号が付されているが、シーン表示領域171−2乃至シーン表示領域171−7においてもカラーバーが表示されている。すなわち、図9の例の場合、図7を参照して上述した場合と同様の検索結果を、複数のコンテンツ(この例では7つ)のそれぞれについて得ることができるのである。
このようにすることで、ユーザは、目的の画像(検索画像)を表示する部分が複数のコンテンツのどの部分にどの程度の長さで存在するのかを一目で理解することができる。さらに、複数の画像(例えば、画像101乃至画像103)を表示するそれぞれの部分が、複数のコンテンツの中でどのように組み合わせられているのかも一目で理解することができる。そして、それらの検索結果を一画面上に表示させ、例えば、各コンテンツの編集内容を比較することも可能となる。
さらに、上述したように、動画表示部151には、タイムライン表示部153においてタイムライン表示されたコンテンツのうち、ユーザにより選択されたコンテンツが再生されて得られる動画が表示される。図10は、動画表示部151に動画が表示された場合の画面の例を示す図である。図10の例では、ユーザが図示せぬポインティングデバイスなどを用いてシーン表示領域171−3を選択し、ボタン181を操作して当該コンテンツを再生したものとする。
なお、GUIとして構成されるボタン181は、コンテンツを再生して動画表示部151に動画を表示させるためのボタンとされる。ボタン182は、コンテンツの再生を停止するためのボタンとされる。また、同図の例では、シーン表示領域171−3が選択されたことにより、シーン表示領域171−3の周囲がハイライト表示されている。この例では、シーン表示領域171−3の周囲が点線で表記されることにより、ハイライト表示されることが表現されている。
さらに、ボタン181によりコンテンツを再生した場合、タイムライン表示部153において、スライダにより現時点で再生されているフレームの位置が示されるようになされている。同図の例では、シーン表示領域171−3のコンテンツが再生されているので、スライダ191−3が表示されている。
スライダ191−3は、例えば、シーン表示領域171−3に重畳して表示される赤色の四角形の枠とされ、時間の経過に伴って、図中水平方向の長さが増大するように表示される。スライダ191−3の右端部が現在のコンテンツの再生位置を表すことになる。コンテンツが再生されてから所定の時間が経過したことにより、スライダ191−3の右端部がシーン表示領域171−3上で右側に移動している。
なお、図10の例では、シーン表示領域171−3のコンテンツが再生されているので、スライダ191−3が表示されているが、他のコンテンツが再生された場合、そのコンテンツのシーン表示領域上にスライダが表示されることになる。
このように、検索結果を表示させるとともに、コンテンツを再生して動画を表示させることもできる。
次に、図11のフローチャートを参照して、図1のコンテンツ処理装置10による検索結果表示処理の例について説明する。なお、この処理に先だって、コンテンツ入力部21により、予め単数または複数のコンテンツの入力が受け付けられており、各コンテンツに対してメタデータの抽出、および画像特徴量の抽出がなされているものとする。
ステップS51において、検索画像入力部26は、検索画像の入力を受け付ける。ここで、検索画像は、例えば、ユーザが任意に選択した画像(静止画)とされ、コンテンツ入力部21から入力されたコンテンツの中から当該検索画像と類似した画像を検索するために入力される。このとき、例えば、図6の画像101乃至画像103が検索画像として入力される。
ステップS52において、画像特徴量抽出部23は、ステップS51で入力された検索画像を解析する。
ステップS53において、画像特徴量抽出部23は、ステップS51の処理の結果として、検索画像の画像特徴量を抽出する。
ステップS54において、検索部27は、ステップS53の処理で画像特徴量抽出部23により抽出された検索画像の画像特徴量と、画像特徴量データベース25に記憶されている画像特徴量とを所定の方式で比較する。これにより、検索画像の画像特徴量と、画像特徴量データベース25に記憶されているコンテンツを構成する1フレーム分の静止画のそれぞれの画像特徴量との類似度が数値として算出されるようになされている。
ステップS55において、検索部27は、例えば、検索画像の画像特徴量との類似度が所定の閾値以上の値となった画像特徴量を有する静止画のフレームを特定する。
ステップS56において、検索部27は、出力部28に検索結果を通知する。このとき、ステップS55の処理の結果特定された静止画のフレーム番号などが出力部28に供給される。
ステップS57において、出力部28は、メタデータデータベース24からコンテンツのメタデータを読み出し、ステップS56の処理で供給された静止画のフレーム番号と、読み出されたメタデータに基づいて、検索結果をタイムライン表示するための表示データを生成する。これにより、例えば、図7または図9を参照して上述したような画面が表示される。
なお、その後、画面上のGUIの操作などに対応して、出力部28が適宜表示データを生成するようになされている。
このようにして検索結果表示処理が実行される。
上述した検索結果表示処理の結果得られる画面を参照することにより、目的の画像(検索画像)を表示する部分がコンテンツのどの部分にどの程度の長さで存在するのかを一目で理解することができる。それとともに、上述した検索結果表示処理の結果得られる画面を参照することにより、コンテンツの中での所定のイベントの発生を検出することができる。
例えば、複数の検索画像を検索し、それらの検索画像に類似するフレームの検出された順番を識別することにより、コンテンツのどの部分でどのようなイベントが発生したのかをおおよそ認識することが可能となる。
図12は、図7を参照して上述した画面と同様に、あるコンテンツについて検索画像を検索した結果を表示する画面の例を示す図である。この例では、野球中継の番組のコンテンツが検索されてタイムライン表示されている。
図12の例では、検索画像表示領域54に、画像104と画像105が表示されている。この例では、代表画像表示部52に表示された9枚の代表画像の中から2枚の代表画像が選択されて検索画像とされている。
また、検索画像表示領域54に表示された画像104と画像105の外枠が所定の色で表示されている。例えば、画像104の外枠は青色で表示され、画像105の外枠は緑色で表示される。なお、図中では、所定の色がハッチングのパターンの違いによって表示されている。
さらに、同図の例では、画像104と画像105のそれぞれに類似する画像のフレームの位置を表すカラーバーが、シーン表示領域71の各シーンに対応する矩形に重畳されて表示されている。なお、図12に示されるカラーバーのそれぞれは、画像104の外枠の色、または画像105の外枠の色と同色のカラーバーとされる。
図12の例では、画像104はピッチャーが投球する際の画像であり、画像105は外野手が走っている(ボールに飛びついている)画像とされている。従って、シーン表示領域71において、画像104に類似する画像のフレームを表すカラーバーが表示され、その右側に画像105に類似する画像のフレームを表すカラーバーが表示されている部分では、打球が外野に飛んでいたことが分かる。
仮に、画像104と画像105に加えて、例えば、1塁上のランナーの画像106を検索し、画像104、画像105、画像106に類似する画像のカラーバーが順番に連続して出現する部分が見つかれば、その部分ではバッターがシングルヒットを打ったことが分かる。
また仮に、画像104と画像105に加えて、例えば、2塁上のランナーの画像107を検索し、画像104、画像105、画像107に類似する画像のカラーバーが順番に連続して出現する部分が見つかれば、その部分ではバッターがツーベースヒットを打ったことが分かる。
このとき、例えば、シーン表示領域71に表示された各矩形(各シーン)とその上に表示されたサムネイルを参照すれば、より簡単にコンテンツの内容を理解できるようになる。
このように、投球、守備、走塁の際の画像を検索画像として組み合わせすることによって、コンテンツのどの部分でシングルヒットがあり、どの部分でツーベースヒットがあったかを簡単に探すことが可能となる。つまり、複数の検索画像を適切に組み合わせて検索し、それらの検索画像に類似するフレームの検出された時間的位置や検出された順番を識別することにより、コンテンツのどの部分でどのようなイベントが発生したのかを認識することが可能となるのである。
このように本発明によれば、従来の技術では対応できなかったコンテンツの内容の可視化表示が可能となる。よって、動画のコンテンツの内容をより簡単に把握することができる。
また、複数の検索画像を適切に組み合わせて検索し、それらの検索画像に類似するフレームを表示することにより、例えば、放送前の番組のコンテンツを事前に評価することも可能となる。
例えば、番組スポンサーAの商品a、番組スポンサーBの商品b、番組スポンサーCの商品cの画像を必ずコンテンツに含める必要がある場合を考える。このような場合、商品a乃至商品cの画像を検索し、それらの検索画像に類似するフレームのカラーバーの長さを比較することにより、番組スポンサーA乃至番組スポンサーCの偏りを是正することができる。また、番組スポンサーA乃至番組スポンサーCの出資額に差異がある場合などは、商品a乃至商品cの画像を検索し、それらの検索画像に類似するフレームのカラーバーの長さと順番を比較することにより、適切に番組スポンサーの意向をコンテンツに反映させることができる。
このように本発明によれば、従来の技術では対応できなかったコンテンツの内容の比較が可能となる。よって、動画のコンテンツの内容をより簡単に把握することができる。
なお、以上においては、コンテンツ処理装置10による表示画面において、図中水平方向を時間軸に対応させてコンテンツをタイムライン表示するようにしたが、図中垂直方向を時間軸に対応させてコンテンツをタイムライン表示するようにしてもよい。
なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータにネットワークや記録媒体からインストールされる。また、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図13に示されるような汎用のパーソナルコンピュータ700などに、ネットワークや記録媒体からインストールされる。
図13において、CPU(Central Processing Unit)701は、ROM(Read Only Memory)702に記憶されているプログラム、または記憶部708からRAM(Random Access Memory)703にロードされたプログラムに従って各種の処理を実行する。RAM703にはまた、CPU701が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU701、ROM702、およびRAM703は、バス704を介して相互に接続されている。このバス704にはまた、入出力インタフェース705も接続されている。
入出力インタフェース705には、キーボード、マウスなどよりなる入力部706、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部707が接続されている。また、入出力インタフェース705には、ハードディスクなどより構成される記憶部708、モデム、LANカードなどのネットワークインタフェースカードなどより構成される通信部709が接続されている。通信部709は、インターネットを含むネットワークを介しての通信処理を行う。
入出力インタフェース705にはまた、必要に応じてドライブ710が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア711が適宜装着されている。そして、それらのリムーバブルメディアから読み出されたコンピュータプログラムが、必要に応じて記憶部708にインストールされる。
上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア711などからなる記録媒体からインストールされる。
なお、この記録媒体は、図13に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク(フロッピディスク(登録商標)を含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)(登録商標)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア711により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM702や、記憶部708に含まれるハードディスクなどで構成されるものも含む。
なお、本明細書において上述した一連の処理は、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
10 コンテンツ処理装置, 21 コンテンツ入力部, 22 メタデータ抽出部, 23 画像特徴量抽出部, 24 メタデータデータベース, 25 画像特徴量データベース, 26 検索画像入力部, 27 検索部, 28 出力部

Claims (8)

  1. 静止画である検索画像の入力を複数受け付ける検索画像入力手段と、
    予め定められた方式で前記複数の検索画像の画像特徴量をそれぞれ抽出する画像特徴量抽出手段と、
    動画のコンテンツについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記複数の検索画像のそれぞれの画像特徴量との類似度を算出する類似度算出手段と、
    前記算出された類似度を予め定められた閾値と比較することにより、前記複数の検索画像のそれぞれに類似する前記静止画のフレームを特定する特定手段と、
    前記特定された前記フレームと、前記コンテンツから予め抽出されたメタデータに基づいて、前記コンテンツごとに、前記複数の検索画像のそれぞれに類似する前記静止画のフレームの時間的位置を表す情報と、前記コンテンツとを同一の時間軸上に表示してタイムライン表示させるための表示データを生成するタイムライン表示手段と
    を備えるコンテンツ検索装置。
  2. 前記タイムライン表示手段は、
    前記複数の検索画像の一覧を表示する検索画像表示部と、
    前記コンテンツをタイムライン表示するタイムライン表示部とを有する画面を表示させるための表示データを生成し、
    前記検索画像表示部において、前記複数の検索画像のそれぞれが異なる色の表示枠に囲まれて表示され、
    前記タイムライン表示部において、前記複数の検索画像のそれぞれに類似する前記静止画のフレームの時間的位置を表す情報が、それぞれ前記表示枠の色と同じ色のカラーバーとして表示される
    請求項1に記載のコンテンツ検索装置。
  3. 前記タイムライン表示手段は、
    複数のコンテンツのそれぞれを同一画面上の前記タイムライン表示部に前記タイムライン表示させ、
    前記複数のコンテンツのそれぞれにおいて、前記複数の検索画像のそれぞれに類似する前記静止画のフレームの時間的位置を表す情報が、それぞれ前記表示枠の色と同じ色のカラーバーとして表示される
    請求項2に記載のコンテンツ検索装置。
  4. 前記タイムライン表示手段は、
    前記タイムライン表示されたコンテンツの再生が指令された場合、前記コンテンツを再生して得られる動画を表示する動画表示部をさらに有する画面を表示させるための表示データを生成する
    請求項3に記載のコンテンツ検索装置。
  5. 前記タイムライン表示手段は、
    前記メタデータに含まれる前記コンテンツのシーンチェンジ点の情報に基づいて、前記コンテンツを構成するシーンを特定し、
    前記シーンの時間的長さに対応させて前記シーンのそれぞれを表示する図形を、画面の水平または垂直方向を時間軸として表示することで前記コンテンツをタイムライン表示させる
    請求項1に記載のコンテンツ検索装置。
  6. 前記タイムライン表示手段は、
    前記シーンを表示する図形を、予め定められた方式により特定された前記シーンの代表色で表示して前記コンテンツをタイムライン表示させる
    請求項5に記載のコンテンツ検索装置。
  7. 検索画像入力手段が、静止画である検索画像の入力を複数受け付け、
    画像特徴量抽出手段が、予め定められた方式で前記複数の検索画像の画像特徴量をそれぞれ抽出し、
    類似度算出手段が、動画のコンテンツについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記複数の検索画像のそれぞれの画像特徴量との類似度を算出し、
    特定手段が、前記算出された類似度を予め定められた閾値と比較することにより、前記複数の検索画像のそれぞれに類似する前記静止画のフレームを特定し、
    タイムライン表示手段が、前記特定された前記フレームと、前記コンテンツから予め抽出されたメタデータに基づいて、前記コンテンツごとに、前記複数の検索画像のそれぞれに類似する前記静止画のフレームの時間的位置を表す情報と、前記コンテンツとを同一の時間軸上に表示してタイムライン表示させるための表示データを生成するステップ
    を含むコンテンツ検索方法。
  8. コンピュータを、
    静止画である検索画像の入力を複数受け付ける検索画像入力手段と、
    予め定められた方式で前記複数の検索画像の画像特徴量をそれぞれ抽出する画像特徴量抽出手段と、
    動画のコンテンツについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記複数の検索画像のそれぞれの画像特徴量との類似度を算出する類似度算出手段と、
    前記算出された類似度を予め定められた閾値と比較することにより、前記複数の検索画像のそれぞれに類似する前記静止画のフレームを特定する特定手段と、
    前記特定された前記フレームと、前記コンテンツから予め抽出されたメタデータに基づいて、前記コンテンツごとに、前記複数の検索画像のそれぞれに類似する前記静止画のフレームの時間的位置を表す情報と、前記コンテンツとを同一の時間軸上に表示してタイムライン表示させるための表示データを生成するタイムライン表示手段とを備えるコンテンツ検索装置として機能させる
    プログラム。
JP2010090610A 2010-04-09 2010-04-09 コンテンツ検索装置および方法、並びにプログラム Expired - Fee Related JP5471749B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2010090610A JP5471749B2 (ja) 2010-04-09 2010-04-09 コンテンツ検索装置および方法、並びにプログラム
US13/639,012 US8971633B2 (en) 2010-04-09 2011-03-30 Content retrieval to facilitate recognizing content details of a moving image
KR1020127025735A KR20130045251A (ko) 2010-04-09 2011-03-30 콘텐츠 검색 장치 및 방법과 프로그램
EP11765644.7A EP2560379A4 (en) 2010-04-09 2011-03-30 CONTENT DEVICE, PROCESS AND PROGRAM
PCT/JP2011/058022 WO2011125744A1 (ja) 2010-04-09 2011-03-30 コンテンツ検索装置および方法、並びにプログラム
CN2011800173185A CN102822827A (zh) 2010-04-09 2011-03-30 内容检索的装置和方法及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010090610A JP5471749B2 (ja) 2010-04-09 2010-04-09 コンテンツ検索装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2011223327A JP2011223327A (ja) 2011-11-04
JP5471749B2 true JP5471749B2 (ja) 2014-04-16

Family

ID=44762686

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010090610A Expired - Fee Related JP5471749B2 (ja) 2010-04-09 2010-04-09 コンテンツ検索装置および方法、並びにプログラム

Country Status (6)

Country Link
US (1) US8971633B2 (ja)
EP (1) EP2560379A4 (ja)
JP (1) JP5471749B2 (ja)
KR (1) KR20130045251A (ja)
CN (1) CN102822827A (ja)
WO (1) WO2011125744A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102959551B (zh) * 2011-04-25 2017-02-08 松下电器(美国)知识产权公司 图像处理装置
US20130191745A1 (en) * 2012-01-10 2013-07-25 Zane Vella Interface for displaying supplemental dynamic timeline content
WO2012174301A1 (en) 2011-06-14 2012-12-20 Related Content Database, Inc. System and method for presenting content with time based metadata
KR102184987B1 (ko) 2013-11-15 2020-12-01 엘지전자 주식회사 영상 표시 장치 및 그 동작 방법
US9794599B2 (en) * 2014-04-10 2017-10-17 Telibrahma Convergent Communications Private Limited Method and system for auditing multimedia content
KR102373460B1 (ko) * 2014-09-15 2022-03-11 삼성전자주식회사 디바이스에 객체를 표시하는 방법 및 그 디바이스
JP5818050B1 (ja) * 2015-01-28 2015-11-18 ビックリック株式会社 ステータス判定システム
JP2017016275A (ja) * 2015-06-29 2017-01-19 ヤマハ株式会社 制御方法
US9906820B2 (en) * 2015-07-06 2018-02-27 Korea Advanced Institute Of Science And Technology Method and system for providing video content based on image
US10318573B2 (en) * 2016-06-22 2019-06-11 Oath Inc. Generic card feature extraction based on card rendering as an image
JP2018125702A (ja) * 2017-02-01 2018-08-09 富士ゼロックス株式会社 映像制御システム及びプログラム
KR20210108691A (ko) * 2020-02-26 2021-09-03 한화테크윈 주식회사 영상 검색 장치 및 이를 포함하는 네트워크 감시 카메라 시스템
JP7428855B2 (ja) * 2020-03-17 2024-02-07 Lineヤフー株式会社 動画解析システム、動画解析装置、動画解析方法、およびプログラム
CN112182276A (zh) * 2020-10-12 2021-01-05 云南财经大学 基于图像内容和元数据的天文海量观测数据混合检索方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0778804B2 (ja) * 1992-05-28 1995-08-23 日本アイ・ビー・エム株式会社 シーン情報入力システムおよび方法
JP3235917B2 (ja) 1993-08-23 2001-12-04 株式会社リコー 画像記録再生装置
JP3838805B2 (ja) * 1999-03-02 2006-10-25 株式会社日立国際電気 画像検出方法
JP3683462B2 (ja) 2000-02-21 2005-08-17 シャープ株式会社 動画表示装置
GB2395852B (en) * 2002-11-29 2006-04-19 Sony Uk Ltd Media handling system
AU2003284413A1 (en) * 2003-11-19 2005-06-08 National Institute Of Information And Communications Technology, Independent Administrative Agency Method and device for presenting video content
JP2006039753A (ja) * 2004-07-23 2006-02-09 Canon Inc 画像処理装置、画像処理方法
JP2007052564A (ja) 2005-08-16 2007-03-01 Fuji Xerox Co Ltd 情報処理システムおよび情報処理方法
JP4397869B2 (ja) * 2005-09-14 2010-01-13 富士通マイクロエレクトロニクス株式会社 スミア補正方法及びスミア補正回路
JP4765732B2 (ja) * 2006-04-06 2011-09-07 オムロン株式会社 動画編集装置
JP2007323319A (ja) * 2006-05-31 2007-12-13 Nippon Telegr & Teleph Corp <Ntt> 類似検索処理方法及び装置及びプログラム
JP5034516B2 (ja) * 2007-01-26 2012-09-26 富士通モバイルコミュニケーションズ株式会社 ハイライトシーン検出装置
JP4356762B2 (ja) * 2007-04-12 2009-11-04 ソニー株式会社 情報提示装置及び情報提示方法、並びにコンピュータ・プログラム
US8850318B2 (en) * 2007-04-23 2014-09-30 Digital Fountain, Inc. Apparatus and method for low bandwidth play position previewing of video content
JP5121367B2 (ja) * 2007-09-25 2013-01-16 株式会社東芝 映像を出力する装置、方法およびシステム
JP4909854B2 (ja) * 2007-09-27 2012-04-04 株式会社東芝 電子機器および表示処理方法
JP2009163644A (ja) * 2008-01-09 2009-07-23 Sony Corp 映像検索装置、編集装置、映像検索方法およびプログラム

Also Published As

Publication number Publication date
CN102822827A (zh) 2012-12-12
US20130170753A1 (en) 2013-07-04
EP2560379A1 (en) 2013-02-20
EP2560379A4 (en) 2014-03-12
KR20130045251A (ko) 2013-05-03
WO2011125744A1 (ja) 2011-10-13
US8971633B2 (en) 2015-03-03
JP2011223327A (ja) 2011-11-04

Similar Documents

Publication Publication Date Title
JP5471749B2 (ja) コンテンツ検索装置および方法、並びにプログラム
WO2011125743A1 (ja) コンテンツ処理装置および方法、並びにプログラム
US9881215B2 (en) Apparatus and method for identifying a still image contained in moving image contents
US8103107B2 (en) Video-attribute-information output apparatus, video digest forming apparatus, computer program product, and video-attribute-information output method
US8195038B2 (en) Brief and high-interest video summary generation
US11200425B2 (en) Method for providing key moments in multimedia content and electronic device thereof
US20100094441A1 (en) Image selection apparatus, image selection method and program
US20080044085A1 (en) Method and apparatus for playing back video, and computer program product
JP4935355B2 (ja) 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体
US20080131073A1 (en) Information processing apparatus and method, and program
JP2010103843A (ja) 電子機器及び映像表示方法
US20080269924A1 (en) Method of summarizing sports video and apparatus thereof
US8300894B2 (en) Method for decomposition and rendering of video content and user interface for operating the method thereof
JPH11220689A (ja) 映像ソフト処理装置及び同処理プログラム記録記憶媒体
US20080266319A1 (en) Video processing apparatus and method
KR20200013145A (ko) 하이라이트 추출 방법 및 하이라이트 추출 장치
JP2010081531A (ja) 映像処理装置及びその方法
WO2006001168A1 (ja) 動画像処理装置、動画像処理方法、及びプログラム
JP5600557B2 (ja) コンテンツ紹介映像作成装置およびそのプログラム
WO2022189359A1 (en) Method and device for generating an audio-video abstract
JP2004157786A (ja) 映像インデックス生成方法及びプログラム及び映像インデックス生成プログラムを格納した記憶媒体
JP2005130525A (ja) 動画像編集方法及び動画像編集装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140120

LAPS Cancellation because of no payment of annual fees