JP5960691B2 - 興味区間特定装置、興味区間特定方法、興味区間特定プログラム - Google Patents

興味区間特定装置、興味区間特定方法、興味区間特定プログラム Download PDF

Info

Publication number
JP5960691B2
JP5960691B2 JP2013514425A JP2013514425A JP5960691B2 JP 5960691 B2 JP5960691 B2 JP 5960691B2 JP 2013514425 A JP2013514425 A JP 2013514425A JP 2013514425 A JP2013514425 A JP 2013514425A JP 5960691 B2 JP5960691 B2 JP 5960691B2
Authority
JP
Japan
Prior art keywords
specificity
interest
section
frame
motion feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013514425A
Other languages
English (en)
Other versions
JPWO2013124923A1 (ja
Inventor
前田 和彦
和彦 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of JPWO2013124923A1 publication Critical patent/JPWO2013124923A1/ja
Application granted granted Critical
Publication of JP5960691B2 publication Critical patent/JP5960691B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • H04N5/145Movement estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2537Optical discs
    • G11B2220/2541Blu-ray discs; Blue laser DVR discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2537Optical discs
    • G11B2220/2562DVDs [digital versatile discs]; Digital video discs; MMCDs; HDCDs

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本発明は、動画の中でユーザの興味を引く区間を特定する興味区間特定装置に関する。
近年、ユーザは、デジタルカメラやビデオカメラなどのデジタル画像撮影機器で撮影した動画や写真など数多くのコンテンツをPCなどに保存して蓄積している。蓄積されているコンテンツが膨大になると、これらのコンテンツの内容をユーザが容易に識別できるように、コンテンツを分類したり、あるいは、コンテンツが動画の場合にはそのダイジェスト映像を作成したりして、コンテンツの内容の把握の容易化が求められることになる。
従来、動画のダイジェスト映像を作成する手法としては、ユーザ自身が、動画の中からダイジェスト映像として用いる区間を指定して、それらの区間をつなぎ合わせて、ダイジェスト映像としていた。しかしながら、この手法はユーザの負担が大きく、また、専門的な知識も必要になるため、ダイジェスト映像作成の簡略化、自動化が望まれている。
そこで、ユーザが興味を引くダイジェストとは、動きのある映像であると考えられることから、ダイジェストを作成する対象の動画の中で、人物の動きを検出して(例えば、特許文献1参照)、人物に動きがある区間を抽出することが考えられる。
特開2006−019387号公報
しかしながら、上記特許文献1の場合、人物に動きがあることが検出できるだけで、ユーザにとって興味を引く区間(以下、興味区間という)を抽出できる保証がなく、適切なダイジェスト映像を作成できない可能性があるという問題がある。
そこで、本発明は上記問題に鑑みてなされたものであり、ユーザにとって興味深いダイジェスト映像の作成に利する興味区間特定装置を提供することを目的とする。
上記課題を解決するため、本発明に係る興味区間特定装置は、動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定装置であって、前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出手段と、前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出手段と、前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出手段と、前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定手段とを備えることを特徴としている。
また、本発明に係る興味区間特定方法は、動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定装置による興味区間特定方法であって、前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出ステップと、前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出ステップと、前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出ステップと、前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定ステップとを含むことを特徴としている。
また、本発明に係る興味区間特定プログラムは、動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定処理をコンピュータに実行させる興味区間特定プログラムであって、前記興味区間特定処理は、前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出ステップと、前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出ステップと、前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出ステップと、前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定ステップとを含むことを特徴としている。
上述のような構成によって、興味区間特定装置は、抽出したフレームにおけるオブジェクトの動きの特異度に基づいて興味区間を特定するので、例えば、動画区間の中でも動きの大きい区間を興味区間として特定することができるので、ユーザにとって興味深いダイジェスト映像の作成の利便性を向上させることができる。
興味区間特定装置の機能構成例を示すブロック図である。 動画のフレームと、各フレームから抽出されるオブジェクトの一例である。 フレームにおけるオブジェクトの動きを評価する領域の一例である。 フレームにおけるオブジェクトの算出されたオプティカルフローの一例である。 フレームにおけるオブジェクトの動き特徴量を決定するためのオブジェクトの動きを評価する画素の一例である。 オブジェクトの各フレームにおける動き特徴量の一例である。 興味区間の特定方法を示すための図である。 興味区間特定装置の動作を示すフローチャートである。 動き特徴量を算出する動作を示すフローチャートである。 特異度を算出する動作を示すフローチャートである。 フレームの特異度の算出を説明するための図である。 実施の形態2に係る興味区間特定装置の機能構成例を示すブロック図である。 実施の形態2に係る興味区間特定装置の動作を示すフローチャートである。 実施の形態2に係る興味区間特定装置の特異度算出の動作を示すフローチャートである。
<発明者らが得た知見>
発明者は、ダイジェスト映像の作成のための動画においてユーザが興味を示すと思われる興味区間の装置による特定を行うにあたって、上記特許文献1に記載の技術のようにオブジェクトの動きを利用することを考慮した。しかし、単純にオブジェクトの動きだけを興味区間特定に用いた場合、単調な動き(例えば、ただ歩いているだけの動き)でさえも、興味区間として特定される虞があることを発見した。例えば、上記特許文献1に記載の技術を用いた場合、延々と同じことの繰り返し映像(例えば、被写体の人物が歩き続ける映像)などを抽出することになり、ユーザにとって面白味のないダイジェスト映像が作成されることになるという問題がある。
そこで、発明者は、ダイジェスト映像としてどのようなものがユーザにとって興味深いかを思索したところ、撮影されているオブジェクトの動きが特異な部分(動きが激しかったり、ユニークであったりする部分)はユーザにとって興味深い内容になっていることが多いことを知見した。
以下、発明者が創意工夫の下、発明するに至った興味区間特定装置について、どのように特異度を算出し、どのようにその特異度に基づいてダイジェスト映像の作成に利する興味区間を特定するのかを説明する。
<実施の形態1>
以下、本発明の一実施形態である興味区間特定装置について図面を用いて説明する。
<構成>
図1は、興味区間特定装置100の機能構成を示すブロック図である。なお、図1には、興味区間特定装置100の周辺機器も示している。
図1に示すように、興味区間特定装置100は、撮影装置120と、表示装置130とに接続されている。興味区間特定装置100は、撮影装置120が撮影した動画から興味区間を抽出し、表示装置130に表示させる。なお、本実施の形態においては、興味区間は予め定められた固定時間長(例えば、3分)の動画である。
撮影装置120は、例えば、ムービーカメラやデジタルカメラなどの動画を撮影し記録する機能を有する機器である。撮影装置120は、例えば、USB(Universal Serial Bus)ケーブルを介して興味区間特定装置100に接続されている。
表示装置130は、例えば、デジタルテレビやLCD(Liquid Crystal Display)、PDP(Plasma Display Panel)などの画像を表示する機能を有するモニタである。表示装置130は、例えば、USBケーブルを介して興味区間特定装置100に接続されている。
以下、本発明に係る興味区間特定装置100の構成について述べる。
図1に示すように、興味区間特定装置100は、動画取得部101と、オブジェクト検出部102と、オブジェクト追跡部103と、領域決定部104と、動き特徴量算出部105と、特異度算出部106と、興味区間特定部107と、興味区間抽出部108とを含む。
動画取得部101は、撮影装置120から、撮影装置120が撮影した動画を取得する機能を有する。動画取得部101は、例えば、USBケーブルを接続するためのUSBポート及びUSBドライバなどのインターフェースを制御するソフトウェアから構成される。
オブジェクト検出部102は、動画の各フレームから、オブジェクトを検出する機能を有する。オブジェクトとは、例えば、人物、人物の顔、動物、車などがあげられる。
オブジェクト検出部102は、フレームに対してエッジ検出や、フレーム内で検索ウィンドウを移動させて、検索ウィンドウ内を、オブジェクトを識別するための分類器(人物の顔を検出する場合には、分類器は、顔学習辞書と呼称されることもある。)を用いて、各オブジェクトを判別することによって、例えば、図2に示すように、フレーム内の人物の顔を検出することができる。図2の場合、オブジェクト(顔)検出を行うことで、動画のt番目のフレーム201から、オブジェクト203が、t+1番目のフレーム202から、オブジェクト204が検出される。なお、ここで分類器は、人物の顔を検出するためのものとして説明するが、分類器は、動物や車など、人物以外を検出するためのものであってもよい。また、オブジェクト検出部102は、複数の異なる種別のものを検出するために、複数の分類器を保持していてもよく、フレームからオブジェクトを検出した場合に、そのオブジェクトの検出に用いた分類器が何を検出するためのものであるかの情報を検出したオブジェクトに対してメタデータとして付与する機能も有していてもよい。
オブジェクト追跡部103は、オブジェクト検出部102が検出した1以上のオブジェクトそれぞれについて、次のフレームにおいてどの位置にあるかを追跡する。オブジェクト追跡部103は、当該追跡の結果、各フレームにおいて、同一であると推測されるオブジェクトについては、同じ識別子(オブジェクトID)を付与する機能を有する。オブジェクト追跡の手法の一例を、図2を用いて説明する。例えば、図2の場合であれば、連続するフレームであるフレーム201とフレーム202について、検出されたオブジェクト203とオブジェクト204の領域は、それぞれのフレームにおける位置がほぼ同じであるので、オブジェクト203とオブジェクト204とは同じオブジェクトであるとし、同一のオブジェクトIDを付与する。即ち、本実施の形態においては、フレームにおいて、各フレームにおける領域のそれぞれのフレームでの位置が近いオブジェクト同士を同一のオブジェクトであると特定する。このようにしてオブジェクト追跡部103は、複数のフレームに含まれるオブジェクトを同定することでオブジェクトを追跡する。
領域決定部104は、動画の各フレームにおいて、オブジェクトの動きを評価するための領域を決定する機能を有する。オブジェクトの動きを検出するための領域は、追跡対象のオブジェクトを含む。図3を用いて領域決定部104による領域の決定について説明する。
図3は、フレーム301内のオブジェクトに基づいて決定される領域を示す図である。領域決定部104は、本実施の形態においては、オブジェクト検出部102が検出した人物の顔と推定されるオブジェクトを含む領域302a(図3の左斜線部分)と、その人物の顔のサイズからその人物の体があると推定される領域302b(図3の右斜線部分)とを、合わせた領域302を、オブジェクトの動きを検出する領域として決定する。領域302bは、検出された領域302aの傾きとサイズに対してどの方向にどのようなサイズとなるかを予め定められている。なお、各フレームにおいて、対応する領域の存在する位置及び範囲はフレーム間で共通の場合もあれば、異なる場合もある。領域決定部104が決定する領域は、オブジェクト検出部102が検出するオブジェクトの内容によって、その形状及び領域として決定する範囲が定められており、オブジェクト検出部102が、検出したオブジェクトの内容から、領域の形状と範囲を決定する。
動き特徴量算出部105は、動画に含まれる各フレームについて、そのフレームにおけるオブジェクトの動き特徴量を算出する機能を有する。動き特徴量算出部105は、動画に含まれるフレームについて、そのフレームに対して領域決定部104が決定した領域内の各画素を特定する(図4参照)。図4は、決定した領域302内の各画素を示している。そして、動き特徴量算出部105は、特定した各画素のオプティカルフローを算出する(図5参照)。なお、図5には、領域内の全画素のオプティカルフローではなく、一部のオプティカルフローの一例を示している。また、オプティカルフローの算出方法としては、一例として、勾配法を用いる。勾配法は、「物体上の点の明るさは移動後も変化しない」という仮定のもとに、時刻tにおけるフレームのある画素が、時刻t+1におけるフレームにおいてどこに移動しているかを推定し、その移動量を基にしてベクトルを求めるものである。
そして、動き特徴量算出部105は、算出したオプティカルフローを用いて、領域決定部104が決定した領域の動き特徴量を決定する。図5を用いて、領域の動き特徴量の決定手法を説明する。
図5に示すように、領域302の一段目左端の画素の座標(x、y)が、(a、b)、その右隣が、(a+1、b)、・・・、領域302の一段目右端の画素の座標(x、y)が、(a+w、b)、二段目左端の画素の座標が(a,b+1)であったとする。そして、座標(a、b)のオプティカルフローが(xa、yb)、座標(a+1、b)のオプティカルフローが(xa+1、yb)、・・・、座標(a+w、b)のオプティカルフローが(xa+w、yb)、座標(a、b+1)のオプティカルフローが(xa、yb+1)、・・・というように算出されたとする。このとき、領域302に対して、その動き特徴量(特徴量1、特徴量2、特徴量3、・・・、特徴量K、・・・)は、(xa、yb、xa+1、yb、・・・、xa+w、yb、xa、yb+1、・・・)と決定される。即ち、領域決定部104が決定した領域302の動き特徴量は、領域302に含まれる各画素のオプティカルフローの集合であり、領域302の一段目左端から右端、二段目左端から右端、・・・、N段目左端から右端、・・・、領域302の下端の左端から右端の順に並べたものである。このようにして、動き特徴量算出部105は、各フレームについて検出された各オブジェクトの動き特徴量を算出し、その情報をメモリ(図示せず)等に記憶する。
図6は、記憶された動き特徴量の情報のデータ概念図である。図6に示すように、動き特徴量の情報は、各フレームを識別するためのフレーム番号に、各特徴量の種別にその特徴量の数値を対応づけた情報である。ここで、特徴量の種別とは、領域内のいずれかの画素の動きベクトルのx軸方向の動き量またはy軸方向の動き量のことである。例えば、フレーム番号3の動き特徴量として、特徴量1の数値は6に、特徴量2の数値は2となっている。
特異度算出部106は、動画に含まれる各フレームの特異度を算出する機能を有する。各フレームの特異度とは、各フレームに含まれるオブジェクトの動きが、どれだけ、他のフレームにおけるオブジェクトの動きと異なるかを示す指標である。特異度の算出手法の詳細については、後述する。
興味区間特定部107は、特異度算出部106が算出した各フレームの特異度を用いて、興味区間を特定する機能を有する。図7を用いて、興味区間の特定方法を説明する。図7は、横軸に時間軸を、縦軸に特異度をとった、動画の時間経過による特異度の変化を示すグラフである。興味区間特定部107は、固定長の興味区間について、興味区間長の窓701を動画の先頭から終わりに向けてずらしながら、その窓701に含まれるフレームの特異度を合算し、その合算値が最も高くなったところでの窓701を興味区間として特定する。そして、興味区間特定部107は、特定した興味区間の始点を示す情報と興味区間の終点を示す情報とを動画に対して付与する。これは、興味区間の始点を示すタグ(以降、始点タグと呼称する)と、興味区間の終点を示すタグ(以降、終点タグと呼称する)とを、動画に対して付与する(インデキシングする)ことで行われる。
興味区間抽出部108は、興味区間特定部107が動画に対して付した始点タグと終点タグとに基づき、始点タグを開始点、終点タグを終了点とする動画である興味区間動画を動画から抽出する機能を有する。
出力部109は、興味区間抽出部108が抽出した興味区間動画を、表示装置130に出力する機能を有する。
表示装置130は、出力部109から出力された興味区間動画を再生し、ユーザはこれを見ることで、動画の内容を短時間で認識するとともに、興味区間動画を興味深く視聴することができる。

<動作>
次に、本実施の形態に係る興味区間特定装置100の動作を図7に示すフローチャートを用いて説明する。
まず、興味区間を特定するための基本動作を説明する。
興味区間特定装置100の動画取得部101は、動画を撮影装置120からUSBケーブルを介して入力され、取得する(ステップS801)。動画取得部101は、取得した動画をオブジェクト検出部102に伝達する。
オブジェクト検出部102は、伝達された動画から、各フレームについて、その表示されるべき画像に含まれているオブジェクトを検出する(ステップS802)。オブジェクト検出部102は、検出した1以上のオブジェクトについての情報をオブジェクト追跡部103に伝達する。
オブジェクト追跡部103は、各フレームから検出されたオブジェクトについて、それぞれのオブジェクトが、どのフレームのどの位置に存在するかを追跡し、フレーム間で共通するオブジェクトを同じオブジェクトIDを付与して同定する(ステップS803)。
領域決定部104は、オブジェクト追跡部103による追跡の結果、検出されているオブジェクト毎に、各フレームにおいてそれぞれのオブジェクトについて動きを検出する領域を決定する(ステップS804)。
動き特徴量算出部105は、領域決定部104により決定された各オブジェクトの各領域について、その領域が動き特徴量を算出する対象の対象フレームから、次のフレームまでで、どの程度動いているかに基づき、各フレームの動き特徴量を算出する(ステップS805)。即ち、動き特徴量算出部105は、動画の各フレームについて、領域に含まれる各画素のオプティカルフローの集合から成るベクトルをそのフレームの動き特徴量として生成する。
特異度算出部106は、動き特徴量算出部105が算出した各フレームの動き特徴量を用いて、各フレームの特異度を算出する(ステップS806)。フレームの特異度の算出の詳細は、図10のフローチャートを用いて、後述する。
興味区間特定部107は、算出された各フレームの特異度に基づき、動画において興味区間長分の連続するフレームの特異度の合算値が最高となる区間を、動画の興味区間として特定し、興味区間の始点と終点を示す情報を動画に対して付与(インデキシング)する(ステップS807)。
興味区間抽出部108は、興味区間特定部107が特定した興味区間を動画から抽出し、抽出した興味区間動画を出力部109に伝達する。そして、出力部109は、伝達された興味区間動画を表示装置130に出力する(ステップS808)。表示装置130は、興味区間特定装置100から伝達された興味区間動画を表示し、ユーザは動画全てを視聴せずとも、興味区間の内容を確認するだけで、動画の内容を認識することができる。
次に、図8のステップS805における動き特徴量の算出についての詳細を説明する。
図9は、動き特徴量算出部105による動き特徴量の算出動作を示すフローチャートである。
動き特徴量算出部105は、各フレームにおける領域302内の各画素のオプティカルフローを算出する(ステップS901)。
動き特徴量算出部105は、各フレームについて算出したオプティカルフローを各フレームにおけるオブジェクトの大きさに基づいて正規化する(ステップS902)。動き特徴量算出部105は、例えば、オブジェクトの顔の大きさ情報を基に、各画素におけるオプティカルフローを、拡大する場合には線形補間を、縮小する場合には縮小元領域の平均をとる方法がある。これは、同じオブジェクトを被写体とした場合でも撮影装置120と被写体のオブジェクトとの距離により、動画におけるオブジェクトの大きさが変わるものであり、オブジェクトの動き特徴量を決定する処理において、オブジェクトの大きさは一定であるとして決定しているためである。
そして、動き特徴量算出部105は、各フレームについて、それぞれのフレームに含まれるオブジェクトに対して定められた領域に含まれる各画素のオプティカルフローの集合からなる動き特徴量を算出する(ステップS903)。
これにより、図6に示すように、各フレームについて動き特徴量が算出される。
次に、特異度の算出についての詳細を、図10及び図11を用いて説明する。
図10は、特異度算出部106による特異度の算出動作を示すフローチャートである。また、図11は、特異度を算出する際に、用いるフレームを説明するための図である。図11は、x軸に時間を、y軸に動き特徴量種別と、z軸に特徴量をとった、3次元グラフであり、各時間における動画の各フレームにおけるあるオブジェクトの動き特徴量を示した概念図である。
特異度の算出に用いられる動き特徴量について図11を用いて説明する。特異度を算出する対象となっている対象フレームの特異度は、対象フレームの動き特徴量が、対象フレームの前後の定められた範囲のフレームの動き特徴量からどれだけ似ていないかを示すものである。図11に示すように、特異度を算出する対象の対象フレームを中心に、その前M(Mは2以上の整数)フレーム及び後ろMフレームを第1区間とする。また、対象フレームを中心に、その前N(Nは1以上M未満の整数)フレーム及び後ろNフレームを第2区間とする。そして、対象フレームの特異度の算出には、対象フレームの動き特徴量と、第1区間から第2区間を除いた第3区間に含まれるフレームの動き特徴量の平均値とを用いる。なお、ここでは、Mは300フレーム、Nは60フレームとする。300フレームは動画の10秒、60フレームは動画の2秒に相当する。
以下、図10のフローチャートを用いて詳細に説明する。
特異度算出部106は、特異度を算出する対象の対象フレームを決定する(ステップS1001)。これは、動画の全フレームについて特異度が算出されればよいので、動画の初めから終わりまで順番に決定してもよいし、終わりから初めまで逆順に決定してもよいし、ランダムに決定してもよい。ここでは、動画の初めから順に算出することとする。
特異度算出部106は、対象フレームに含まれる1つのオブジェクトを選択する(ステップS1002)。
次に、特異度算出部106は、選択したオブジェクトの対象フレームを基準とする第3区間(2M―2N)分のフレームの動き特徴量から、平均動き特徴量を算出する(ステップS1003)。
具体的には、特異度算出部106は、対象フレームkにおけるオブジェクトAの動き特徴量を、以下の数1で表す。
Figure 0005960691
そして、対象フレームkに対して、特異度の比較対象である第3区間のオブジェクトAの平均動き特徴量を、以下の数2で表すとする。
Figure 0005960691
すると、第3区間のオブジェクトAの平均動き特徴量は、以下の数3で表すことができる。
Figure 0005960691
なお、k≦Nの場合には、対象フレームkに対して、特異度の算出に用いる、第3区間のオブジェクトAの平均動き特徴量は、以下の数4で表すことができる。
Figure 0005960691
また、動画における全フレーム数をfmaxとした場合、fmax−N≦kのときの対象フレームkにおけるオブジェクトAの平均動き特徴量は、以下の数5で表すことができる。
Figure 0005960691
そして、特異度算出部106は、上記数1に示す数式及び平均動き特徴量を用いて、対象フレームkにおける選択したオブジェクトのスコアを算出する(ステップS1004)。
対象フレームkにおけるオブジェクトAのスコアは、以下の数6で表すことができる。
Figure 0005960691
即ち、フレームkにおけるオブジェクトAの動き特徴量の絶対値を、フレームkにおけるオブジェクトAの動き特徴量とフレームkに対する第3区間のオブジェクトAの平均動き特徴量の内積に1を足した値で、除算したものを、フレームkにおけるオブジェクトAのスコアとして用いる。
特異度算出部106は、選択した対称フレームにおいて、全てのオブジェクトについてのスコアを算出したか否かを判定する(ステップS1005)。全てのオブジェクトについてのスコアを算出していない場合には(ステップS1005のNO)、ステップS1002に戻る。
全てのオブジェクトについてのスコアを算出していた場合には(ステップS1005のYES)、算出した各オブジェクトのスコアを合算して、対象フレームの特異度を算出する(ステップS1006)。
次に特異度算出部106は、全てのフレームについての特異度を算出したか否かを判定する(ステップS1007)。全てのフレームについての特異度を算出していない場合には(ステップS1007のNO)、ステップS1001に戻る。
全てのフレームについての特異度を算出している場合には(ステップS1007のYES)、特異度算出の処理を終了する。
以上が、興味区間特定装置100の動作である。
興味区間特定装置100は、上述の構成を備えることにより、動画の中でも、特にオブジェクトの動きの変化が富んでいる部分を興味区間として特定することになるので、ユーザに飽きさせない興味区間を提供することができるようになる。
<実施の形態2>
上記実施の形態1においては、オブジェクトの動きの特異性を検出するにあたって、他のフレームにおける同じオブジェクトの動きと比較することで検出することとした。しかし、オブジェクトの特異性を検出する方法はこれに限らない。本実施の形態2においては、上記実施の形態1とは異なる特異性の検出方法を説明する。なお、本実施の形態2においては、上記実施の形態1と共通する内容については、説明を省略し、異なる点について述べることとする。
また、本実施の形態2においては、動画には複数のオブジェクトが撮影されていることを前提とする。
<構成>
実施の形態2に係る興味区間特定装置1200は、図12に示す通り、動画取得部101と、オブジェクト検出部102と、動き特徴量算出部105と、特異度算出部1206と、興味区間特定部1207と、興味区間抽出部108と、出力部109とを含む。図12においては、図2に示す興味区間特定装置100と同一の機能を果たす機能部については、同一の名称と付番を付し、説明を簡略化もしくは省略する。
オブジェクト検出部102において、検出されたオブジェクトの情報は、オブジェクト追跡部103、領域決定部104を経て、動き特徴量算出部105に伝達される。
動き特徴量算出部105は、各フレームについて、オブジェクト検出部102により検出された各オブジェクト毎の動き特徴量を算出する。そして、動き特徴量算出部105は、算出した動き特徴量を特異度算出部1206に伝達する。
受付部1205は、ユーザからオブジェクト検出部102により検出されたオブジェクトの中から選択した特定のオブジェクトの指定を受け付け、当該特定のオブジェクトについての情報を特異度算出部1206に伝達する機能を有する。
特異度算出部1206は、特定のオブジェクトについて、同じフレーム内に撮影されている他のオブジェクトからどれだけ特異であるかを算出する機能を有する。
特異度算出部1206は、オブジェクト検出部102により検出された複数のオブジェクトの中から受付部1205から受け付けた特定のオブジェクトを選択する。そして、特定されたオブジェクトの動き特徴量が、他のオブジェクトの動き特徴量から、どれだけ特異であるかを算出する。
興味区間特定部1207は、特異度算出部1206により算出された各フレームにおける特定のオブジェクトの特異度に基づき興味区間を特定する機能を有する。具体的には、興味区間特定部1207は、特異度算出部1206が算出した各フレームの特異度Pの合算値が最も大きい所定期間(興味区間として特定したい動画長であって、例えば、3分間あるいは同等のフレーム数)を興味区間として特定する。
<動作>
実施の形態2に係る興味区間特定装置1200の興味区間を特定する動作について、図13、図14のフローチャートを用いて、説明する。なお、図13、図14のフローチャートにおいては、興味区間特定装置1200の動作として、上記実施の形態1に示した興味区間特定装置100と共通する内容については、図8や図10などのフローチャートと同じ符号を付与し、説明を割愛する。
興味区間特定装置1200の動き特徴量算出部105は、各フレームについて、各オブジェクトの動き特徴量を算出する(ステップS805)。
そして、興味区間特定装置1200の特異度算出部1206は、動画の各フレームから抽出した各オブジェクトについて算出された動き特徴量を受け取り、オブジェクトの特異度を算出する。
オブジェクトの特異度の算出方法の詳細は、図14のフローチャートに示す通りである。
対象フレームが決定された後、受付部1205は、特異度を算出する対象となる特定のオブジェクトの指定を、ユーザから受け付ける(ステップS1401)。
そして、特異度算出部1206は、対象フレームについて、特定のオブジェクトの特異度を算出する(ステップS1404)。具体的には、特異度算出部1206は、指定された特定のオブジェクトについて、特異度を算出する対象の対象フレームに含まれる他のオブジェクトの動き特徴量の平均値からの特異度を算出する。具体的には以下のように算出する。
まず、特異度を算出する対象の対象フレームについて、特定されたオブジェクトの動き特徴量を、以下の数7で表すとする。
Figure 0005960691
また、特定されたオブジェクト以外の他のオブジェクトの動き特徴量を、以下の数8で表すとする。
Figure 0005960691
なお、kは、他のオブジェクトを識別するためのインデックスである。ここでは、対象フレームにおいてインデックスnまであるものとする。
他のオブジェクトの動き特徴量の平均値ベクトルbk,aveは、以下の数9のように表すことができる。
Figure 0005960691
この時、対象フレームにおける特定されたオブジェクトの特異度Pは、以下の数10で表すことができる。
Figure 0005960691
特異度算出部1206は、この特異度Pを対象フレームの特異度として算出する(ステップS1406)。
以上のようにして、特異度算出部1206は、各フレームにおける特異度を算出する。
そして、興味区間特定部1207は、特異度算出部1206から、各フレームについての特異度を受け取り、所定期間(図7に示す窓701の期間)について、特異度の合算値が最も高くなる所定期間を興味区間として特定する。
このような構成によって、興味区間特定装置1200は、例えば、動画が子供たちの運動会での組体操のシーンを撮影したものであった場合に、一人だけ他の子どもとは異なった動きをしているNGシーンの抽出に役立つ。即ち、興味区間特定装置1200は、複数のオブジェクトが同様の動作をしている中で、それら複数のオブジェクトとは異なる動作をしているオブジェクトがあるようなシーンを興味区間として特定することができる。
<変形例>
上記実施の形態に従って、本発明に係る興味区間特定装置について説明してきたが、本発明の実施の形態はこれに限られるものではない。以下、本発明の思想として含まれる各種変形例について説明する。
(1)上記実施の形態においては、興味区間特定装置100(1200)が特定する興味区間の長さは予め定められていることとした。しかし、興味区間長は、固定でなくともよい。
例えば、興味区間を抽出する対象となる動画の動画長に対して、所定の割合(例えば一割)の長さであってもよい。
あるいは、興味区間特定装置100(1200)は、動画の種別に応じて、抽出する興味区間長を変更してもよい。動画の種別とは、バラエティ、スポーツ、ドラマ、ニュースなど、動画の内容のジャンルのことである。この場合、興味区間特定装置は、動画のジャンルに対応付けて、興味区間長を定めた興味区間長テーブルを保持し、動画取得部101は、取得した動画のメタデータなどを用いて、動画の種別を特定し、興味区間特定部107(1200)は、保持している興味区間長テーブルにおいて、特定された動画の種別に対応する興味区間長を取得して、その長さの興味区間を特定する。このような構成をとることで、興味区間特定装置100(1200)は、動画の種別に応じて、興味区間の適切な長さを特定できれば、より適切な興味区間を特定できるようになる。動画のジャンルが特定できない場合には、ユーザがジャンルを入力して興味区間長を特定してもよいし、予め定めた長さを興味区間長としてもよい。
あるいは、興味区間特定装置100(1200)は、ユーザが興味区間長を設定するための設定手段(インターフェース)を備えていてもよい。この場合、興味区間特定手段は、ユーザにより設定された興味区間長の興味区間を特定する。興味区間の設定は、直接、興味区間の秒数を入力することとしてもよいし、あるいは、長め、普通、短めというような興味区間長を定めるためのボタンを備えたインターフェースに対する入力で以て決定することとしてもよい。このように、ユーザが望ましい長さの興味区間を特定する構成としてもよい。
(2)上記実施の形態においては、各フレームの特異度を算出するための、第1区間及び第2区間の長さは、予め定められていることとした。しかし、第1区間長及び第2区間長は固定でなくともよい。
例えば、興味区間特定装置100(1200)は、動画の種別に応じて、第1区間長、第2区間長を定めることとしてもよい。動画の種別とは、バラエティ、スポーツ、ドラマ、ニュースなど、動画の内容のジャンルのことである。この場合、興味区間特定装置100(1200)は、動画のジャンルに対応付けて、第1区間長及び第2区間長を定めた区間長テーブルを保持し、動画取得部101は、取得した動画のメタデータなどを用いて、動画の種別を特定し、特異度算出部106(1206)は、保持している区間長テーブルにおいて、特定された動画の種別に対応する第1区間長及び第2区間長を取得して、特異度を算出する。このような構成をとることで、興味区間特定装置100(1200)は、動画の種別に応じて、第1区間及び第2区間の適切な長さを特定できれば、より的確な値の特異度を算出できるようになる。動画のジャンルが特定できない場合には、ユーザがジャンルを入力して第1区間長及び第2区間長を特定してもよいし、予め定めた長さを第1区間長及び第2区間長としてもよい。
あるいは、興味区間特定装置100(1200)は、ユーザが第1区間長及び第2区間長を設定するための設定手段(インターフェース)を備えていてもよい。この場合、特異度算出部106(1206)は、ユーザにより設定された第1区間長の第1区間及び第2区間長の第2区間を用いて、特異度を算出する。
(3)上記実施の形態に示した興味区間特定装置100(1200)による特異度の算出方法は一例であり、動画におけるオブジェクトの動きの特異さを算出できるのであれば、その他の手法を用いて算出することとしてもよい。
例えば、上記実施の形態1においては、フレームの特異度を算出するにあたり、第2区間の動き特徴量を用いないこととしたが、第2区間長を0として、第1区間の対象フレームを除くすべてのフレームの動き特徴量を用いてもよい。
あるいは、上記数6、数10において、分子を1にしてもよい。
あるいは、特異度を算出するために用いるフレームの動き特徴量について、特定のフレームの動き特徴量がより反映されるように、フレームに対して算出された特異度に対して重み付けを行ってもよい。
更には、上記数6、数10を変形する以外の手法を用いてもよい。例えば、単純に、対象フレームの動き特徴量と、第3区間の動き特徴量の平均値との内積のみを特異度として用いることとしてもよい。この内積は、0に近いほど、特異性(特異度)が高く、1に近いほど、特異性(特異度)が低いことになる。
(4)上記実施の形態においては、興味区間特定装置100(1200)は、動画から複数のオブジェクトが検出されている場合には、各オブジェクトの動く特徴量から算出した特異度を合算することで対象フレームの特異度とした。しかし、対象フレームの特異度の算出には別の手法を用いてもよい。
即ち、オブジェクト検出部102が複数のオブジェクトを検出している場合には、オブジェクトそれぞれに算出された特異度に対して、重み付けを行った上で、対象フレームの特異度として算出することとしてもよい。
例えば、動画から3つのオブジェクトA、B、Cが検出されたとし、それぞれのオブジェクトの対処フレームにおける特異度がPA、PB、PCと算出されたとする。また、興味区間特定装置100(1200)は、オブジェクト検出部102が検出したオブジェクトが何であるかを特定するためのオブジェクト特定部を備えることとする。そして、オブジェクトの特定には、各種オブジェクトの特徴を示す分類器を用いる。興味区間特定装置100(1200)は、オブジェクトに対する重み付けを行うためのオブジェクト分類表を保持し、オブジェクト分類表には、オブジェクトの内容(人物、動物、建築物など)に応じて重み付け値が対応付けられている。オブジェクト分類表において、オブジェクトA、B、Cに対する重み付け値が、それぞれ、WA、WB、WCであるとする。すると、この場合、特異度算出部106は、対象フレームの特異度を、PA×WA+PB×WB+PC×WCと算出する。興味区間特定装置100(1200)は、このような構成をとって、検出されるオブジェクトに応じた特異度を算出して、興味区間を抽出することとしてもよい。
このとき、あるオブジェクトAが、その動画において、中心に撮影されていたとする。つまり、オブジェクトAに相当する人物を主人公としてその動画が撮影されているとする。そのような場合には、オブジェクトAの動きの特異度が中心となるように興味区間が特定されるのが望ましい。
そこで、興味区間特定装置100(1200)は、上記実施の形態2のように受付部1205を備え、受付部1205が、ユーザからオブジェクトAが動画の中心であるとの指定を受けているとする。すると、興味区間特定装置100(1200)は、オブジェクトAの重みが大きくなるよう、WAを例えば、1.5に設定し、その他の重みを0.5に設定する。このように、特定のオブジェクト優先の興味区間特定を実行することもできる。なお、ここでは、オブジェクトAの重みを1.5、その他を0.5としているが、この数値は一例であり、オブジェクトAの重みが、その他のオブジェクトの重みより重ければよい。
また、興味区間特定装置100(1200)は、次のように重みを決定してもよい。上述では、オブジェクトAの指定をユーザから受け付けることとしている。しかし、以下のようにして、興味区間特定装置100(1200)がオブジェクトAを指定してもよい。
興味区間特定装置100(1200)は、興味区間を抽出しようとする動画以外の動画を複数記憶する記録媒体を備えているものとする。あるいは、複数の動画を記憶する興味区間特定装置100外部にある記録媒体(ネットワーク上のメモリであってもよい)にアクセスする機能を有するものとする。
そして、記録媒体に記録されている複数の動画から1以上のオブジェクトを検出する。ここで、オブジェクトを検出するフレームは、各動画の任意のフレームから抽出する。即ち、全てのフレームから抽出してもよいし、ランダムに選択した1以上のフレームから抽出することとしてもよい。そして、検出された1以上のオブジェクトについて、同じオブジェクトであるか否かを判定するために、検出された各オブジェクトの特徴量に従って、クラスタリングする。
そして、興味区間特定装置100(1200)は、そのようにクラスタリングされて得られる各クラスタを、1つの同一のオブジェクトであると認定する。
そして、各クラスタについて、各クラスタに属するノード(オブジェクトの特徴量)の個数が最も多いものが、興味区間特定装置100のユーザにとって重要なオブジェクト(被写体)であるとして、上述のオブジェクトAを特定してもよい。
なお、ここで、最も多いものをオブジェクトAとして特定しているが、これは、予め所定のノードの個数を閾値として定めておき、この閾値を超えたクラスタに対応するオブジェクトについて、特異度の重み付けを行うこととしてもよい。このときの重み付けは、閾値を超えたクラスタに対応するオブジェクトの重みが、他のオブジェクトの重みよりも大きくなればよい。また、この場合には、閾値を超えたクラスタに対応するオブジェクト複数について重み付けを実行することもあるが、この重み付けは、均一の値であってもよいし、ノードの個数の多かったものから順に予め定めた重み値を乗じてもよいし、閾値を超えたものについて重み付け値の傾斜配分(重み値の総量を定めて、閾値を超えたオブジェクトについて、それぞれのクラスタに属するノードの個数に応じて、前述の総量を配分する)を行って、重み値を乗じてもよい。
あるいは、動画の中心となるものは、フレームの中心部分に撮影されていることが多いため、検出されたオブジェクトそれぞれについて、中心部分に撮影されているかを判定して重みを決定することとしてもよい。
例えば、フレーム内の(X1、Y1)‐(X2(X2>X1)、Y2(Y2>Y1))(X1、X2、Y1、Y2はフレームにおける画素の座標値)を対角線とする長方形の範囲内をフレームの中心部分と定め、各オブジェクトがその中心部分内にあるか否かを判定する。そして、中心部分内にあるオブジェクトの重みを1とし、中心部分外にあるオブジェクトの重みを0とする。ここで、中心部分内のオブジェクトの重みが中心部分外のオブジェクトの重みよりも大きければよく、1や0に限定するものではない。なお、オブジェクトが中心部分内と中心部分外とに跨る場合には、オブジェクトの占める面積の多い方に該当するものと定める。興味区間特定装置100(1200)は、このようにして重みを決定する構成を有してもよい。
(5)上記実施の形態においては、興味区間特定部106(1206)による興味区間の特定手法として、所定期間に含まれるフレームそれぞれの特異度の合算値が最大となる所定期間を興味区間として特定することとした。しかし、興味区間の特定手法はこれに限るものではなく、動きの特異な区間を特定できるのであれば、その他の手法を用いることとしてもよい。
例えば、連続するフレームについて、あるフレームとその次のフレームとの動き特徴量の差分が、所定の閾値を超える箇所を特定し、その箇所を最も多く含む所定期間を興味区間として特定してもよい。
あるいは、動画における連続するフレーム間の動き特徴量の差分値を全て求め、その差分値の合算が最大となる所定期間を特定し、その所定期間を特定するために用いられた差分値を算出するのに用いた動き特徴量に対応するフレーム全てを含む期間を興味区間として特定してもよい。
(6)上記実施の形態においては、興味区間特定装置100(1200)は、動画から一つの興味区間を特定することとなる。しかしながら、動画から特定される興味区間は、一つでなくともよい。
例えば、興味区間特定装置100(1200)は、特異度の合算値が所定の閾値を超える所定期間を特定し、これらを全て興味区間としてもよい。このとき、特異度の合算値ではなく、平均値を所定の閾値と比較することとしてもよい。このような構成によって、複数の興味区間を抽出できるようになる。なお、この条件を満たす2つの所定期間が互いに重複しあう場合には、早い方の所定期間の始点を興味区間の始点とし、遅い方の所定期間の終点を興味区間の終点とする予め定められている長さを超える興味区間を特定することとしてもよい。
また、複数の興味区間を特定する場合には、出力部109は、これらの複数の興味区間をつなぎ合わせたダイジェスト映像を出力することとしてもよい。ダイジェスト映像の作成は、興味区間抽出部108が実行すればよい。
これにより、興味区間特定装置100(1200)の利便性を向上させることができる。
(7)上記実施の形態においては、特異度算出部106(1206)は、全てのフレームの特異度を算出し、興味区間特定部107(1207)は、全てのフレームの特異度に基づき興味区間を特定することとした。しかし、これは一例であり、ある程度、興味区間を特定できるのであれば、全てのフレームの特異度を算出せずともよい。
例えば、特異度算出部106(1206)は、動画の各フレームについて、偶数番あるいは奇数番のフレームの特異度のみを算出することとしてもよいし、特定数のフレーム毎にそのフレームの特異度のみを算出することとしてもよい。即ち、特異度算出部106(1206)は、動画のフレームを間引いて、特異度を算出してもよい。そして、興味区間特定部107(1207)は、特異度が算出されたフレームのみを用いて、興味区間を特定することとしてもよい。
このような構成をとることで、興味区間特定装置は、特定する興味区間の精度は、全てのフレームの特異度を算出した場合に比して落ちるものの、興味区間特定装置100(1200)の算出処理の負担を低減するとともに、興味区間を特定するに至るまでの時間を短縮することができる。
(8)上記実施の形態1においては、対象フレームの動き特徴量が、第3区間の各フレームの動き特徴量からみて、どれほど特異であるかを算出することとしたが、これは、第3区間の各フレームではなく、対象フレームを除く動画全体の各フレームの動き特徴量からみた特異性であってもよい。
(9)上記実施の形態においては、オブジェクト追跡部103によるオブジェクトの追跡は、あるフレームにおけるオブジェクトと次のフレームにおけるオブジェクトとの位置(フレームにおけるオブジェクトの座標位置)の近いものを同一のオブジェクトとして追跡することとした。しかし、オブジェクトの追跡には、これ以外の手法を用いてよく、オブジェクトの追跡は、オブジェクト検出部102が検出した各フレームについて、あるフレームとその次のフレームにおいて検出されたオブジェクト間の類似性を算出することで行われてもよい。当該類似性は、検出された各オブジェクトについて、例えば、ガボールフィルタなどを用いることにより得られる画像特徴量の類似性を算出することで得られる。
このような手法によっても、フレーム間のオブジェクトの同定を実行できる。
(10)上記実施の形態においては、領域決定部104が決定する領域302は、オブジェクト検出部102が検出したオブジェクト(顔)と、それに付随するはずの体とを含むこととした。しかし、この領域302は、これ以外の範囲であってもよく、例えば、検出するオブジェクトを人物の顔とした場合、動きを評価すべき領域も同様に顔の領域(図3で言えば領域302aのみ)にしてもよい。つまり、オブジェクト検出部102で検出されたオブジェクトの領域の一部を含むような領域でも良いし、上記実施の形態のように、検出されたオブジェクトの領域を包含するような領域としても良い。
(11)上記実施の形態においては、興味区間特定部107(1207)は、窓701に含まれるフレームの特異度を合算し、その合算値が最も高くなるところを興味区間として特定することとした。しかし、これは単純な合算ではなく、その他の計算を行ってもよい。
例えば、窓701に含まれるフレームのうち、後方のフレームの特異度に対して重み付けを行ってから合算してもよい。このような構成にすると、オブジェクトの動きについて変化に富んだ区間が前半よりも後半に存在するような興味区間を抽出しやすくなる。
(12)上記実施の形態においては、動き特徴量算出部105が、オブジェクトの動きを評価するための領域を基にオブジェクトの動き特徴量を算出する方法として、動きを評価すべき領域内における各画素のオプティカルフローを算出し、それらの情報を並べたものを動き特徴量とする方法を例として説明したが、これ以外の手法を用いてもよい。
例えば、画像全体のオプティカルフローを算出し、それらの平均値を領域内の各画素から減算してもよい。こうすることで、例えば、オブジェクト自体が動いているわけではないが映像が左右にパンすることで算出されてしまうオプティカルフローの影響を軽減することができる。また、動きを評価すべき領域内における各画素の輝度の前後フレームにおける差分値を算出し、それらの情報を並べたものを動き特徴量としても良い。また、各フレームにおける動きを評価すべき領域の大きさをもとに撮影装置120とオブジェクトとの距離を推定し、その情報を動き特徴量として加えても良い。
また、動き特徴量として、オプティカルフローではなく、輝度変化量を用いることとしてもよい。
(13)上記実施の形態においては、領域の動き特徴量は、領域302の一段目左端から右端、二段目左端から右端、・・・、N段目左端から右端、・・・、領域302の下端の左端から右端の順に並べた各画素のオプティカルフローの集合であるとしたが、オプティカルフローの順序は、この限りではない。各フレームのオブジェクトについて、その動き特徴量の画素の並び順が共通であれば、その他の順序であってもよい。例えば、領域302の一段目右端から左端、二段目右端から左端、・・・、N段目右端から左端、・・・、領域302の下端の右端から左端の順に並べたものであってもよいし、下端から上端方向への並びであってもよい。
(14)上記実施の形態において、興味区間特定部107(1207)は、動画に対して特定した興味区間の始点及び終点を示す始点タグと終点タグとを付与することとした。しかし、興味区間の区間長が固定である場合には、いずれか一方のみを付与する構成をとってもよい。一方のタグが付されることでそこから興味区間長だけ離れたところ(始点タグが付与されている場合は、そこから興味区間長だけ後、終点タグが付与されている場合は、そこから興味区間長だけ前)が興味区間の端点になる。
(15)上記実施の形態には示していないが、興味区間特定装置100(1200)は、動画取得部101が取得した動画、興味区間特定部107(1207)が興味区間の始点と終点を示す情報のインデキシングを実行した動画、興味区間抽出部108が抽出した動画等を記憶する記憶部を備えていてもよい。記憶部は、例えば、HDD(Hard Disc Drive)やSSD(Solid State Drive)フラッシュメモリなどにより実現される。
(16)上記実施の形態においては、興味区間特定装置100(1200)は、撮影装置120から動画を取得することとしたが、これは、撮影装置120以外から取得することとしてもよい。
例えば、興味区間特定装置100にUSBフラッシュメモリドライブを搭載して、USBフラッシュメモリに記憶されている動画を取得することとしてもよいし、あるいは、興味区間特定装置100(1200)にネットワーク通信機能を搭載して、インターネットから動画をダウンロードして取得することとしてもよい。
(17)上記実施の形態においては、出力部109は、表示装置130に抽出した興味区間の動画を出力することとしたが、出力先は、表示装置130に限るものではない。
例えば、興味区間特定装置100(1200)に接続されたUSBフラッシュメモリに出力して記憶させることとしてもよいし、インターネットにアップロードすることとしてもよい。
また、出力部109は、興味区間部分の動画のみを出力するのではなく、興味区間の始点と終点を示す情報をインデキシングした動画全体を出力することとしてもよい。
(18)上記実施の形態においては、興味区間特定装置100(1200)は、オブジェクトの動きの大きい区間を興味区間として抽出することになっているが、この場合、動画において場面が転換してしまったために、大きな動きが検出されてしまっている場合も考えられる。
そこで、興味区間特定装置100(1200)は、動き特徴量の変化が所定の閾値以上に大きい場合に、場面転換が発生したものと判断し、興味区間を抽出する対象の動画をその点で分割し、2つになった動画から興味区間を抽出することとしてもよい。この場面転換の検出は動き特徴量の変化ではなく、特異度の変化が所定の閾値以上に大きい場合を判断基準としてもよい。
(19)上記実施の形態2においては、特定のオブジェクトの指定をユーザから受け付けて、この特定のオブジェクトの特異度を算出し、対象フレームの特異度とする構成を示した。
しかし、ユーザからの特定のオブジェクトの指定を受け付けないことも考えられる。このような場合には、特定のオブジェクトを興味区間特定装置1200が選択する構成をとる。即ち、ユーザから特定のオブジェクトの指定を受け付ける受付部1205に換えて、予め定められたアルゴリズムに従ってオブジェクトを選択するオブジェクト選択部を備える構成としてもよい。
具体的には、以下のような手法を採用するとよい。
興味区間特定装置1200のオブジェクト検出部102は、入力された動画について、各フレーム毎に、フレームに含まれる各オブジェクトを検出する。そして、動き特徴量算出部105は、検出された各オブジェクトの動き特徴量を算出する。
そして、特異度算出部1206は、まず、各フレームに含まれる全オブジェクトの動き特徴量の平均値を算出する。そして、次に、各フレームに対して、そのフレームに含まれる各オブジェクトの動き特徴量と算出された平均値との距離を算出する。この距離が、所定の閾値以上に離れているオブジェクトをそのフレームにおいて、特異な動きをしているオブジェクトであるとして、そのオブジェクトを特定のオブジェクトとして選択する。
そして、当該特定のオブジェクトに対して、上記実施の形態2で示した手法を用いて、特異度を算出しての興味区間の特定を行ってもよい。なお、ここで、興味区間の特定にあたっては、上記実施の形態2以外の手法を用いてもよく、特定のオブジェクトを選択するために算出した距離の合算値が最も大きい所定区間を興味区間として特定してもよい。なお、ここでは、距離の合算値としているが、興味区間の特定手法としては、例えば、距離が最も大きかったフレームを中心とする前後所定期間分の動画を興味区間として特定してもよい。
また、オブジェクト選択部は、補足(4)に記載したオブジェクトAの特定手法のように、興味区間を特定する動画以外の動画に多く含まれるオブジェクトを特定のオブジェクトとして、選択することとしてもよい。
(20)上記実施の形態に示した構成及び各種変形例に示した構成を組み合わせることとしてもよい。
(21)上述の実施形態で示した通信に係る動作、興味区間特定処理等(図8〜図10、図13〜図14参照)を興味区間特定装置あるいは興味区間特定装置を搭載したDVDプレーヤやBDプレーヤなどの録画再生装置等のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるためのプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路等を介して流通させ頒布させることもできる。このような記録媒体には、ICカード、ハードディスク、光ディスク、フレキシブルディスク、ROM等がある。流通、頒布された制御プログラムはプロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより、実施形態で示したような各種機能が実現されるようになる。
(22)上記実施の形態に示した興味区間特定装置100(1200)が実行した処理内容について、ネットワーク上のクラウドサーバ等の他のコンピュータや装置に処理を依頼して、上記実施の形態に示す興味区間の特定を実現してもよい。
例えば、興味区間特定装置100(1200)が保持していたオブジェクト検出部102が有する動画からのオブジェクトの検出を、例えば、クラウドサーバが実行することとしてもよい。この場合、クラウドサーバは、検出したオブジェクトについての情報を動画に付与し、当該情報が付与された動画を興味区間特定装置100(1200)は受け取る。そして、興味区間特定装置100(1200)はオブジェクト追跡部103に検出されたオブジェクトの情報が付与された動画を入力して、以降の処理を実行させる。
あるいは、特徴量検出を他の装置に依頼することとしてもよい。例えば、オブジェクト検出部102は、オブジェクトを検出した動画について、検出したオブジェクトの情報を動画に付与する。そして、興味区間特定装置100(1200)は、オブジェクトの情報を付与した動画を、例えば、クラウドサーバに送信する。クラウドサーバは、送信されてきたオブジェクトの情報が付与された動画を用いて、オブジェクト追跡部103、領域決定部104及び動き特徴量算出部105が有する機能を実行する。そして、クラウドサーバは、各フレームの各オブジェクトについて特徴量の情報を動画に付与し、興味区間特定装置100(1200)に送信する。そして、興味区間特定装置100(1200)は、特異度算出以降の処理を実行する。
このように、興味区間の特定にあたって、必要な処理の一部を興味区間特定装置100(1200)外の外部装置に依頼することとしてもよい。その場合に、例示したように、興味区間特定装置100(1200)と外部装置間で、それぞれにおいて処理に必要なデータの送受信が実行される。
(23)上述の実施の形態で示した各機能構成要素は、その機能を実現する回路として実現されてもよいし、1又は複数のプロセッサによりプログラムを実行することで実現されてもよい。また、上述の実施の形態の興味区間特定装置100(1200)は、IC、LSIその他の集積回路のパッケージとして構成されるものとしてもよい。このパッケージは各種装置に組み込まれて利用に供され、これにより、各種装置は、各実施の形態で示したような各機能を実現するようになる。
なお、各機能ブロックは典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることができる可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
<補足>
ここで、本実施の形態に係る興味区間特定装置の一実施形態の構成と、各構成により奏する効果について説明する。
(a)本発明に係る興味区間特定装置は、動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定装置であって、前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出手段と、前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出手段と、前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出手段と、前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定手段とを備えることを特徴としている。
また、本発明に係る興味区間特定方法は、動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定装置による興味区間特定方法であって、前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出ステップと、前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出ステップと、前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出ステップと、前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定ステップとを含むことを特徴としている。
また、本発明に係る興味区間特定プログラムは、動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定処理をコンピュータに実行させる興味区間特定プログラムであって、前記興味区間特定処理は、前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出ステップと、前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出ステップと、前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出ステップと、前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定ステップとを含むことを特徴としている。
これにより、興味区間特定装置は、動画の中で、オブジェクトの動きが特異なフレームを特定できるので、ユーザにとって飽きさせない内容の興味区間を特定することができる。特定された興味区間は、ダイジェスト映像の作成や、モニタに表示させて動画の内容をユーザに認識させるための利用に供される。
(b)上記(a)の興味区間特定装置において、前記オブジェクト検出手段は、前記動画に含まれる複数のフレームから前記オブジェクトを検出し、前記動き特徴量抽出手段は、前記複数のフレーム各々における前記オブジェクトの動き特徴量を抽出し、前記特異度算出手段は、前記複数のフレーム各々について、当該フレームにおける前記オブジェクトの動き特徴量の、他のフレームにおける前記オブジェクトの動き特徴量からの特異度を算出することとしてもよい。
これにより、興味区間特定装置は、時間軸方向でオブジェクトが特異な動きをしている場合に、そのシーンを含む興味区間を特定することができる。
(c)上記(b)の興味区間特定装置において、前記特異度算出手段は、前記オブジェクトの特異度を算出する対象となる対象フレームについて、前記対象フレームにおけるオブジェクトの動き特徴量と、前記対象フレーム以外の複数のフレームにおける前記オブジェクトの動き特徴量の平均との内積に基づいて特異度を算出することとしてもよい。
対象フレームの動き特徴量と、その他のフレームの動き特徴量の平均値との内積をとることで、対象フレームにおけるオブジェクトの動きが、その他のフレームにおけるオブジェクトの動きとどれだけ似ていないかの指標として用いることができ、特異度を算出するのに適した指標となる。対象フレームにおけるオブジェクトの動きは、内積が0に近いほど、その他のフレームにおけるオブジェクトの動きに似ていないことになる。
(d)上記(c)の興味区間特定装置において、前記特異度算出手段は、前記動画中の前記対象フレームを含む所定の第1区間に含まれるフレームの動き特徴量を用いて、前記対象フレームにおける前記オブジェクトの動きの特異度を算出することとしてもよい。
これにより、動画に含まれるフレームについて、そのフレームの他のフレームからの特異性を算出することができ、興味区間を特定するための指標に用いることができる。また、動画全体ではなく、第1区間の動き特徴量に限定することで、興味区間特定装置による算出処理の負荷を軽減することができる。
(e)上記(d)の興味区間特定装置において、前記特異度算出手段は、前記対象フレームの前記オブジェクトの動き特徴量の、前記第1区間から前記対象フレームを含み前記第1区間よりも短い第2区間を除いた第3区間に含まれる各フレームにおける前記オブジェクトの動き特徴量の平均値からの、特異度を算出することとしてもよい。
これにより、第2区間分のフレームの動き特徴量を算出対象から除外することで、興味区間特定装置は、興味区間に第2区間分の単調な動きが含まれることを許容することができる。単調な動きであっても、数秒程度であれば、ユーザはそれを見ることに苦痛を覚えないので、そのような区間が興味区間に含まれても良いようにすることができる。
(f)上記(e)の興味区間特定装置において、前記特異度算出手段は、前記第2区間の区間長を、前記第1区間の区間長に応じて、定めることとしてもよい。
興味区間が長ければ、その分だけ、多少単調な動きの部分が含まれていても、ユーザにとって苦痛ではなくなるため、この構成により、興味区間特定装置は、第1区間の長さに応じた適切な長さの第2区間を設定できるようになる。
(g)上記(e)の興味区間特定装置において、前記興味区間特定装置は、更に、前記第2区間をユーザが設定するための設定手段を備えることとしてもよい。
これにより、興味区間特定装置は、ユーザの嗜好に応じた興味区間を特定できるようになる。
(h)上記(d)の興味区間特定装置において、前記特異度算出手段は、前記第1区間の区間長を、前記動画の動画長に基づいて定めることとしてもよい。
これにより、興味区間特定装置は、動画の長さに応じて、特異度を算出するための第1区間を定めることができる。
(i)上記(d)の興味区間特定装置において、前記興味区間特定装置は、更に、前記第1区間をユーザが設定するための設定手段を備えることとしてもよい。
これにより、興味区間特定装置は、ユーザの嗜好に応じた興味区間を特定できるようになる。
(j)上記(a)の興味区間特定装置において、前記興味区間特定装置は、各フレームに対して算出された前記オブジェクトの特異度を用いて、前記動画において、所定期間内に含まれる各フレームの特異度の合算値が、最大となる所定期間を前記興味区間として特定することとしてもよい。
これにより、興味区間特定装置は、オブジェクトが特異な動きを多くしている興味区間を特定できるようになる。
(k)上記(a)の興味区間特定装置において、前記特異度算出手段は、前記オブジェクトの動き特徴量の、前記フレームに含まれる他のオブジェクトの動き特徴量からの、特異度を算出することとしてもよい。
これにより、興味区間特定装置は、フレーム内で他のオブジェクトから特異な動きをするオブジェクトがあるフレームを含む区間を興味区間として特定することができる。
(l)上記(k)の興味区間特定装置において、前記特異度算出手段は、前記オブジェクトの動き特徴量の、前記フレームに含まれる他のオブジェクトが複数ある場合に、他のオブジェクトの動き特徴量の平均値からの特異度を算出することとしてもよい。
これにより、興味区間特定装置は、他のオブジェクトが複数あっても、興味区間を特定するために用いる特異度を算出することができる。この構成をとると、興味区間特定装置は、特に同じシーン内で複数の人物が同じ動きをしている中で、一人だけ的外れな動きをしている場合などのNGシーンを興味区間として特定することができる。
これにより、興味区間特定装置は、特に動きの激しく、特異性の高い区間を興味区間として特定することができる。
(m)上記(a)の興味区間特定装置において、前記興味区間特定手段は、更に、特定した興味区間の始点と終点を示す情報を前記動画にインデキシングすることとしてもよい。
これにより、興味区間特定装置は、興味区間の情報を含む動画を提供することができる。興味区間に関する情報がインデキシングされていることにより、例えば、動画の再生時の再生位置指定(スキップの飛び先の指定)に用いることができる。
(n)上記(a)の興味区間特定装置において、前記興味区間特定装置は、更に、前記興味区間特定手段が特定した興味区間を前記動画から抽出する抽出手段と、前記抽出手段が抽出した興味区間が複数ある場合に、複数の興味区間をつなぎ合わせたダイジェスト映像を作成するダイジェスト作成手段とを備えることとしてもよい。
これにより、興味区間特定装置は、動画からダイジェスト映像を作成できるようになるので、ユーザは動画の内容を、作成されたダイジェスト映像を視聴することで、容易に認識することができる。
(o)上記(a)の興味区間特定装置において、前記興味区間特定装置は、更に、前記オブジェクトを抽出したフレームにおける場所を検出するオブジェクト位置検出手段と、前記オブジェクトの動きを評価するための各フレームにおける前記オブジェクトを含む領域を決定する領域決定手段とを備え、前記動き特徴量抽出手段は、各フレームの前記領域内における特徴点各々の動き特徴量の平均値から各フレームにおける前記オブジェクトの動き特徴量を算出することとしてもよい。
フレームの中でも、オブジェクトに基づく領域を特定して、その領域の動きを用いることで、興味区間特定装置は、フレーム全体の動きを用いるよりも、オブジェクトの動きの特異性を検出しやすくすることができる。
(p)上記(a)の興味区間特定装置において、前記特異度算出手段は、前記オブジェクト検出手段が複数のオブジェクトを検出した場合に、それぞれのオブジェクトに対して算出される動き特徴量に対して重み付けを行って、前記特異度を算出することとしてもよい。
これにより、検出されるオブジェクトの内容に応じて、動き特徴量に重み付けを行って特異度を算出することから、ユーザが注目しているオブジェクトを重点的に追えるような興味区間を特定することができる。
(q)上記(p)の興味区間特定装置において、前記特異度算出手段は、フレームの特定範囲内に存在するオブジェクトに対して、前記特定範囲外にあるオブジェクトよりも重い重み付けを行うこととしてもよい。
これにより、通常中心となるオブジェクトが動画の中心部分に撮影されていることが多いことから、例えば、特定範囲をフレーム中心部分に設定することで、動画の中心となるオブジェクトに対する重み付けを容易に行って、興味区間を特定することができる。
(r)上記(p)の興味区間特定装置において、前記興味区間特定装置は、更に、フレームから検出された特定のオブジェクトの指定を受け付ける受付手段を備え、前記特異度算出手段は、前記受付手段で受け付けた特定のオブジェクトに対して、他のオブジェクトよりも重い重み付けを行うこととしてもよい。
これにより、指定されたオブジェクトに対する重み付けを行うことができる。例えば、ユーザが動画の中心であると想定しているオブジェクトを指定した場合に、このオブジェクトに対する重み付けを行って、当該オブジェクトの特異な動きがある興味区間を特定することができる。したがって、当該ユーザにとって興味深い興味区間を特定することができる。
(s)上記(r)の興味区間特定装置において、前記興味区間特定装置は、更に、前記動画以外の1以上の他の動画を保持する記憶手段を備え、前記受付手段は、前記1以上の他の動画に多く含まれるオブジェクトを、前記特定のオブジェクトとして受け付けることとしてもよい。
これにより、興味区間特定装置は、ユーザからの指定なしでも、特定のオブジェクトを選択して、当該オブジェクトに対する重み付けを実行できる。興味区間特定装置に、ユーザが複数の撮影した動画を保持していた場合、このユーザにとって興味をひく対象が多数撮影されている可能性が高い。そのため、他の複数の動画に多く撮影されているオブジェクトは、ユーザにとって興味深いオブジェクトであると特定することができる。
(t)上記(a)の興味区間特定装置において、前記動き特徴量は、オプティカルフローであることとしてもよい。
これにより、動き特徴量として、広範に知られるオプティカルフロー(動きベクトル)を用いることで、興味区間特定装置の汎用性を高めることができる。
本発明に係る興味区間特定装置は、動画からダイジェスト映像を作成するための装置として、例えば、DVDプレーヤ、BDプレーヤなどの録画再生装置などに活用することができる。
100、1200 興味区間特定装置
101 動画取得部
102 オブジェクト検出部
103 オブジェクト追跡部
104 領域決定部
105 動き特徴量算出部
106、1205 特異度算出部
107、1207 興味区間特定部
108 興味区間抽出部
109 出力部
120 撮影装置
130 表示装置
1205 受付部

Claims (16)

  1. 動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定装置であって、
    前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出手段と、
    前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出手段と、
    前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出手段と、
    前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定手段とを備え、
    前記オブジェクト検出手段は、前記動画に含まれる複数のフレームから前記オブジェクトを検出し、
    前記動き特徴量抽出手段は、前記複数のフレーム各々における前記オブジェクトの動き特徴量を抽出し、
    前記特異度算出手段は、前記複数のフレーム各々について、当該フレームにおける前記オブジェクトの動き特徴量の、他のフレームにおける前記オブジェクトの動き特徴量からの特異度を算出し、
    前記特異度算出手段は、前記オブジェクトの特異度を算出する対象となる対象フレームについて、前記対象フレームにおけるオブジェクトの動き特徴量と、前記対象フレーム以外の複数のフレームにおける前記オブジェクトの動き特徴量の平均との内積に基づいて特異度を算出し、
    前記特異度算出手段は、前記動画中の前記対象フレームを含む所定の第1区間に含まれるフレームの動き特徴量を用いて、前記対象フレームにおける前記オブジェクトの動きの特異度を算出し、
    前記特異度算出手段は、前記対象フレームの前記オブジェクトの動き特徴量の、前記第1区間から前記対象フレームを含み前記第1区間よりも短い第2区間を除いた第3区間に含まれる各フレームにおける前記オブジェクトの動き特徴量の平均値からの、特異度を算出する
    ことを特徴とする興味区間特定装置。
  2. 前記特異度算出手段は、前記第2区間の区間長を、前記第1区間の区間長に応じて、定める
    ことを特徴とする請求項1記載の興味区間特定装置。
  3. 前記興味区間特定装置は、更に、
    前記第2区間をユーザが設定するための設定手段を備える
    ことを特徴とする請求項1記載の興味区間特定装置。
  4. 前記特異度算出手段は、前記第1区間の区間長を、前記動画の動画長に基づいて定める
    ことを特徴とする請求項1記載の興味区間特定装置。
  5. 前記興味区間特定装置は、更に、
    前記第1区間をユーザが設定するための設定手段を備える
    ことを特徴とする請求項1記載の興味区間特定装置。
  6. 前記興味区間特定装置は、各フレームに対して算出された前記オブジェクトの特異度を用いて、前記動画において、所定期間内に含まれる各フレームの特異度の合算値が、最大となる所定期間を前記興味区間として特定する
    ことを特徴とする請求項1記載の興味区間特定装置。
  7. 動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定装置であって、
    前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出手段と、
    前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出手段と、
    前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出手段と、
    前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定手段とを備え、
    前記特異度算出手段は、前記オブジェクトの動き特徴量の、前記フレームに含まれる他のオブジェクトの動き特徴量からの、特異度を算出する
    ことを特徴とする興味区間特定装置。
  8. 前記特異度算出手段は、前記オブジェクトの動き特徴量の、前記フレームに含まれる他のオブジェクトが複数ある場合に、他のオブジェクトの動き特徴量の平均値からの特異度を算出する
    ことを特徴とする請求項7記載の興味区間特定装置。
  9. 前記興味区間特定手段は、更に、特定した興味区間の始点と終点を示す情報を前記動画にインデキシングする
    ことを特徴とする請求項1記載の興味区間特定装置。
  10. 前記興味区間特定装置は、更に、
    前記興味区間特定手段が特定した興味区間を前記動画から抽出する抽出手段と、
    前記抽出手段が抽出した興味区間が複数ある場合に、複数の興味区間をつなぎ合わせたダイジェスト映像を作成するダイジェスト作成手段とを備える
    ことを特徴とする請求項1記載の興味区間特定装置。
  11. 前記興味区間特定装置は、更に、
    前記オブジェクトを抽出したフレームにおける場所を検出するオブジェクト位置検出手段と、
    前記オブジェクトの動きを評価するための各フレームにおける前記オブジェクトを含む領域を決定する領域決定手段とを備え、
    前記動き特徴量抽出手段は、各フレームの前記領域内における特徴点各々の動き特徴量の平均値から各フレームにおける前記オブジェクトの動き特徴量を算出する
    ことを特徴とする請求項1記載の興味区間特定装置。
  12. 動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定装置であって、
    前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出手段と、
    前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出手段と、
    前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出手段と、
    前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定手段とを備え、
    前記特異度算出手段は、前記オブジェクト検出手段が複数のオブジェクトを検出した場合に、それぞれのオブジェクトに対して算出される動き特徴量に対して重み付けを行って、前記特異度を算出し、
    前記興味区間特定装置は、更に、
    フレームから検出された特定のオブジェクトの指定を受け付ける受付手段を備え、
    前記特異度算出手段は、前記受付手段で受け付けた特定のオブジェクトに対して、他のオブジェクトよりも重い重み付けを行い、
    前記興味区間特定装置は、更に、
    前記動画以外の1以上の他の動画を保持する記憶手段を備え、
    前記受付手段は、前記1以上の他の動画に多く含まれるオブジェクトを、前記特定のオブジェクトとして受け付ける
    ことを特徴とする興味区間特定装置。
  13. 前記特異度算出手段は、フレームの特定範囲内に存在するオブジェクトに対して、前記特定範囲外にあるオブジェクトよりも重い重み付けを行う
    ことを特徴とする請求項12記載の興味区間特定装置。
  14. 前記動き特徴量は、オプティカルフローである
    ことを特徴とする請求項1記載の興味区間特定装置。
  15. 動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定装置による興味区間特定方法であって、
    前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出ステップと、
    前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出ステップと、
    前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出ステップと、
    前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定ステップとを含み、
    前記オブジェクト検出ステップは、前記動画に含まれる複数のフレームから前記オブジェクトを検出し、
    前記動き特徴量抽出ステップは、前記複数のフレーム各々における前記オブジェクトの動き特徴量を抽出し、
    前記特異度算出ステップは、前記複数のフレーム各々について、当該フレームにおける前記オブジェクトの動き特徴量の、他のフレームにおける前記オブジェクトの動き特徴量からの特異度を算出し、
    前記特異度算出ステップは、前記オブジェクトの特異度を算出する対象となる対象フレームについて、前記対象フレームにおけるオブジェクトの動き特徴量と、前記対象フレーム以外の複数のフレームにおける前記オブジェクトの動き特徴量の平均との内積に基づいて特異度を算出し、
    前記特異度算出ステップは、前記動画中の前記対象フレームを含む所定の第1区間に含まれるフレームの動き特徴量を用いて、前記対象フレームにおける前記オブジェクトの動きの特異度を算出し、
    前記特異度算出ステップは、前記対象フレームの前記オブジェクトの動き特徴量の、前記第1区間から前記対象フレームを含み前記第1区間よりも短い第2区間を除いた第3区間に含まれる各フレームにおける前記オブジェクトの動き特徴量の平均値からの、特異度を算出する
    ことを特徴とする興味区間特定方法。
  16. 動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定処理をコンピュータに実行させる興味区間特定プログラムであって、
    前記興味区間特定処理は、
    前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出ステップと、
    前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出ステップと、
    前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出ステップと、
    前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定ステップとを含み、
    前記オブジェクト検出ステップは、前記動画に含まれる複数のフレームから前記オブジェクトを検出し、
    前記動き特徴量抽出ステップは、前記複数のフレーム各々における前記オブジェクトの動き特徴量を抽出し、
    前記特異度算出ステップは、前記複数のフレーム各々について、当該フレームにおける前記オブジェクトの動き特徴量の、他のフレームにおける前記オブジェクトの動き特徴量からの特異度を算出し、
    前記特異度算出ステップは、前記オブジェクトの特異度を算出する対象となる対象フレームについて、前記対象フレームにおけるオブジェクトの動き特徴量と、前記対象フレーム以外の複数のフレームにおける前記オブジェクトの動き特徴量の平均との内積に基づいて特異度を算出し、
    前記特異度算出ステップは、前記動画中の前記対象フレームを含む所定の第1区間に含まれるフレームの動き特徴量を用いて、前記対象フレームにおける前記オブジェクトの動きの特異度を算出し、
    前記特異度算出ステップは、前記対象フレームの前記オブジェクトの動き特徴量の、前記第1区間から前記対象フレームを含み前記第1区間よりも短い第2区間を除いた第3区間に含まれる各フレームにおける前記オブジェクトの動き特徴量の平均値からの、特異度を算出する
    ことを特徴とする興味区間特定プログラム。
JP2013514425A 2012-02-23 2012-10-19 興味区間特定装置、興味区間特定方法、興味区間特定プログラム Active JP5960691B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012037462 2012-02-23
JP2012037462 2012-02-23
PCT/JP2012/006717 WO2013124923A1 (ja) 2012-02-23 2012-10-19 興味区間特定装置、興味区間特定方法、興味区間特定プログラム

Publications (2)

Publication Number Publication Date
JPWO2013124923A1 JPWO2013124923A1 (ja) 2015-05-21
JP5960691B2 true JP5960691B2 (ja) 2016-08-02

Family

ID=49005147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013514425A Active JP5960691B2 (ja) 2012-02-23 2012-10-19 興味区間特定装置、興味区間特定方法、興味区間特定プログラム

Country Status (4)

Country Link
US (1) US9288463B2 (ja)
JP (1) JP5960691B2 (ja)
CN (1) CN103404130B (ja)
WO (1) WO2013124923A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102630705B1 (ko) * 2023-07-12 2024-01-29 주식회사 넥스톤 에너지 절약형 네트워크 카메라 저장 장치 및 네트워크카메라 저장 장치의 동작 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6337544B2 (ja) * 2014-03-19 2018-06-06 オムロン株式会社 画像処理装置、移動速度判定方法、および移動速度判定プログラム
EP3405932A1 (en) 2016-01-29 2018-11-28 KiwiSecurity Software GmbH Methods and apparatus for using video analytics to detect regions for privacy protection within images from moving cameras
US10867393B2 (en) 2018-03-22 2020-12-15 Texas Instruments Incorporated Video object detection
CN111461104B (zh) * 2019-01-22 2024-04-09 北京京东乾石科技有限公司 视觉识别方法、装置、设备及存储介质
CN113286194B (zh) * 2020-02-20 2024-10-15 北京三星通信技术研究有限公司 视频处理方法、装置、电子设备及可读存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0648458B2 (ja) 1985-03-01 1994-06-22 日本電信電話株式会社 情報入力装置
US7499077B2 (en) * 2001-06-04 2009-03-03 Sharp Laboratories Of America, Inc. Summarization of football video content
JP3947973B2 (ja) * 2003-02-14 2007-07-25 ソニー株式会社 画像処理装置および方法、プログラム、並びに記録媒体
JP2005115672A (ja) * 2003-10-08 2005-04-28 Fuji Photo Film Co Ltd 画像処理装置
JP2006019387A (ja) 2004-06-30 2006-01-19 Toshiba Corp 半導体記憶装置およびその製造方法
JP4830650B2 (ja) 2005-07-05 2011-12-07 オムロン株式会社 追跡装置
EP1811457A1 (en) * 2006-01-20 2007-07-25 BRITISH TELECOMMUNICATIONS public limited company Video signal analysis
JP2008278467A (ja) * 2007-03-30 2008-11-13 Sanyo Electric Co Ltd 画像処理装置および画像処理方法
JP5002575B2 (ja) * 2008-11-28 2012-08-15 日本電信電話株式会社 非定常度推定装置、非定常度推定方法、非定常度推定プログラム
JP2010226557A (ja) * 2009-03-25 2010-10-07 Sony Corp 画像処理装置、画像処理方法、およびプログラム
JP2011175599A (ja) * 2010-02-25 2011-09-08 Canon Inc 画像処理装置、その処理方法及びプログラム
JP2012010133A (ja) * 2010-06-25 2012-01-12 Nikon Corp 画像処理装置および画像処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102630705B1 (ko) * 2023-07-12 2024-01-29 주식회사 넥스톤 에너지 절약형 네트워크 카메라 저장 장치 및 네트워크카메라 저장 장치의 동작 방법

Also Published As

Publication number Publication date
CN103404130B (zh) 2017-06-27
CN103404130A (zh) 2013-11-20
US9288463B2 (en) 2016-03-15
US20140072279A1 (en) 2014-03-13
WO2013124923A1 (ja) 2013-08-29
JPWO2013124923A1 (ja) 2015-05-21

Similar Documents

Publication Publication Date Title
Lai et al. Semantic-driven generation of hyperlapse from 360 degree video
CN108292364B (zh) 在全向视频中的跟踪感兴趣对象
CN106663196B (zh) 用于识别主体的方法、系统和计算机可读存储介质
JP5960691B2 (ja) 興味区間特定装置、興味区間特定方法、興味区間特定プログラム
US8594488B1 (en) Methods and systems for video retargeting using motion saliency
Higuchi et al. Egoscanning: Quickly scanning first-person videos with egocentric elastic timelines
US20160198097A1 (en) System and method for inserting objects into an image or sequence of images
JP6141829B2 (ja) 動画解析装置、動画解析方法、プログラム、及び集積回路
Dubuisson et al. A survey of datasets for visual tracking
KR20100095363A (ko) 촬상 장치, 그 제어 방법 및 프로그램
JP2012105205A (ja) キーフレーム抽出装置、キーフレーム抽出プログラム、キーフレーム抽出方法、撮像装置、およびサーバ装置
WO2014047876A1 (en) Determination of augmented reality information
EP3151243B1 (en) Accessing a video segment
CN108960130B (zh) 视频文件智能处理方法和装置
WO1999005865A1 (en) Content-based video access
US10762395B2 (en) Image processing apparatus, image processing method, and recording medium
JP2007072789A (ja) 映像構造化方法及び装置及びプログラム
TW201222422A (en) Method and arrangement for identifying virtual visual information in images
Choudhary et al. Real time video summarization on mobile platform
JP2014085845A (ja) 動画処理装置、動画処理方法、プログラム、および集積回路
CN110008364B (zh) 图像处理方法、装置和系统
Lee Novel video stabilization for real-time optical character recognition applications
JP5276609B2 (ja) 画像処理装置及びプログラム
US20240104832A1 (en) Image processing system, image processing method, and storage media
JPH1145351A (ja) 情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160623

R150 Certificate of patent or registration of utility model

Ref document number: 5960691

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150