JP2014116919A

JP2014116919A - 映像再生装置、映像再生方法、および映像再生用プログラム

Info

Publication number: JP2014116919A
Application number: JP2013054610A
Authority: JP
Inventors: Hiromu Miyashita; 広夢宮下; Takashi Sato; 隆佐藤; Takeshi Tono; 豪東野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-11-14
Filing date: 2013-03-18
Publication date: 2014-06-26
Anticipated expiration: 2033-03-18
Also published as: JP5863195B2

Abstract

【課題】直感的なインタラクションにより、映像中からユーザが所望の画像フレームを再生させることが可能な映像再生装置、映像再生方法、および映像再生用プログラムを提供する。
【解決手段】処理対象の映像を構成する各フレーム画像情報内の、複数の基準座標情報に関する動き方向情報および動き量情報を検出する動き検出部１６と、ユーザにより、映像が表示された画面上をなぞる操作が実行されたときに、当該操作により連続的に指定される画面内の位置座標情報を入力する入力部１８と、位置座標情報ごとに、所定数前に入力された位置座標情報からの移動方向を示す角度情報と各基準座標情報の動き方向情報との近似度、および、対応する動きベクトルの動き量情報から算出される動きスコアが最も高いフレームのフレーム番号を特定する表示フレーム番号特定部１９と、特定されたフレーム番号のフレーム画像情報を順次表示する表示部１４とを備える。
【選択図】図１

Description

本発明は、映像が表示されている画面内の位置情報から、映像内の所望の画像フレームを再生させる映像再生装置、映像再生方法、および映像再生用プログラムに関する。

従来、映像中から所望の再生フレームを指定するためのインタフェースとして、スライダ型のＧＵＩを画面上に表示する技術がある。このスライダ型のＧＵＩは、始点と終点を持つ１つの線分から構成されており、ユーザがマウスやタッチパネルなどのポインティングデバイスを用いて線分上の所望の位置を指定することにより、ＧＵＩの始点と終点との間の位置を示す値が設定される。

このスライダ型のＧＵＩは通常画面内の下部位置に表示され、時間軸に対応するカーソルとして機能し、再生中の画像フレームの相対的な位置を表示するとともに、例えばランダムな再生、早送り、および巻き戻しなど、映像の可変速再生のためのインタフェースとして用いることができる。

さらにこの技術を拡張させ、スライダ型のＧＵＩを映像中の被写体の動きや変形の軌跡と重なるように画面内に配置し、線分上をなぞるように操作することによりあたかも映像中の被写体を掴んで動かしているかのような感覚をユーザに提供するためのインタラクション技術がある。

この技術では、複数のフレームを通して人間や物体が運動するような映像を対象としており、ユーザが注目する被写体の移動軌跡とＧＵＩとして表示される線分とを空間的に対応付け、さらに被写体が線分上の近接する位置に対応するように、線分上の位置情報と映像中の各画像のフレーム番号とを時間的に対応付けている。

この技術により、ＧＵＩとして表示された線分上を、ユーザがマウスによりドラッグ操作したり、タッチパネル上でなぞる操作をしたりすることにより、これらの操作に追随して被写体が動作し、直感的なインタラクションを提供した映像再生制御を実現することができる。このようなインタラクション技術には、以下のような手動設定タイプのもの、特徴点追跡タイプのものがある。

(A) 手動設定タイプ
手動設定タイプのインタラクション技術では、特許文献１に記載のように、あらかじめ映像を視聴したユーザが映像中の任意の運動に注目し、その運動の軌跡に合致するように手動で折れ線スライダ型のＧＵＩを作成する。

この技術では、被写体の位置に対応するように、折れ線スライダ型のＧＵＩ上の各頂点についての座標情報と対応するフレーム番号とをユーザが手動で設定する。この設定により作成された折れ線スライダ型のＧＵＩが表示された画面では、ポインティングデバイスで画面上のスライダ周辺が選択、またはドラッグされることでスライダのＧＵＩ上の座標に対応したフレームが表示される。これにより、ユーザは直感的な操作で所望の映像をコマ送りに再生させることができる。

(B) 特徴点追跡タイプ
特徴点追跡タイプのインタラクション技術では、非特許文献１に記載のように、あらかじめ映像中のフレーム全域に対してParticle Tracking等の動き検出技術を用いて画面上の多数の特徴点を追跡する。そしてポインティングデバイスの入力座標に最も近い点(particle)の移動経路から自動的に折れ線スライダ型のＧＵＩを作成し、ポインティングデバイスの移動に従って対応したフレームを表示する。

特許第３３２５８５９号公報

Goldman, D.B., et al., "Interactive Video Object Annotation", Tech Report UW-CSE-2007-04-01, 2007

しかし、上述した(A)手動タイプのインタラクション技術では、あらかじめ被写体の動きに対応した折れ線スライダ型のＧＵＩを表示するための設定をユーザが手動で実行する必要がある。

そのため折れ線スライダ型のＧＵＩを表示する画面を作成するのに手間がかかり、映像の登録からスライダのＧＵＩの表示までの作業コストが高くなるという問題がある。またタッチパネルを指で操作するときに、ポインティングの精度が悪く折れ線の頂点を正確に位置決めできないため、スライダのＧＵＩ表示情報の生成が困難であるという問題がある。

また上述した(B) 特徴点追跡タイプのインタラクション技術では、あらかじめ映像中のフレーム画像全域に対して特徴点が各フレームでどの座標へ移動したかを追尾しておく必要がある。

そのため映像を解析するコンピュータの計算コストが高く、すべてのフレームについてParticle Tracking等の画像処理が終了するまでの時間がかかってしまう問題がある。このParticle Trackingにかかる処理を軽くするためには特徴点の数を少なくする必要があるが、そのような場合は検出されるparticleがフレーム画像中の一部分に偏ってしまい、フレーム画像中の一部の被写体しか動きを検出できない恐れがある。

さらに(B)特徴点追跡タイプのインタラクション技術では、追跡した多数のparticleのうち1つをユーザの入力から選択し、その移動経路を折れ線スライダ型のＧＵＩとしている。そのためユーザによる入力の時点で表示されているフレーム画像上に配置されているparticleからしか折れ線スライダ型のＧＵＩを作成できず、その時点で出現していない被写体については掴んで動かすような操作を提供することができない。

そこで本発明では、直感的なインタラクションにより、映像中からユーザが所望の画像フレームを再生させることが可能な映像再生装置、映像再生方法、および映像再生用プログラムを提供することを目的とする。

上記の課題を解決するための、本発明の映像再生装置は、処理対象の映像を構成する各フレーム画像情報内の、複数の基準座標情報に関する動き方向情報および動き量情報を含む動きベクトルを検出する動き検出手段と、ユーザにより、前記処理対象の映像が表示された画面上をなぞる操作が実行されたときに、当該操作により連続的に指定される前記画面内の位置座標情報を入力する入力手段と、前記入力手段で入力された位置座標情報ごとに所定数前に入力された位置座標情報からの移動方向を示す角度情報を取得し、前記各角度情報と前記各基準座標情報の動き方向情報との近似度、および、対応する動き量情報から算出される動きスコアが最も高いフレームのフレーム番号を、前記位置座標情報ごとに特定する表示フレーム番号特定手段と、前記表示フレーム番号特定手段で特定されたフレーム番号のフレーム画像情報を順次表示する表示手段とを備えることを特徴とする。

また本発明の映像再生方法は、映像再生装置が、処理対象の映像を構成する各フレーム画像情報内の、複数の基準座標情報に関する動き方向情報および動き量情報を含む動きベクトルを検出する動き検出ステップと、ユーザにより、前記処理対象の映像が表示された画面上をなぞる操作が実行されたときに、当該操作により連続的に指定される前記画面内の位置座標情報を入力する入力ステップと、前記入力ステップで入力された位置座標情報ごとに所定数前に入力された位置座標情報からの移動方向を示す角度情報を取得し、前記各角度情報と前記各基準座標情報の動き方向情報との近似度、および、対応する動き量情報から算出される動きスコアが最も高いフレームのフレーム番号を、前記位置座標情報ごとに特定する表示フレーム番号特定ステップと、前記表示フレーム番号特定ステップで特定されたフレーム番号のフレーム画像情報を順次表示する表示ステップとを有することを特徴とする。

また本発明の映像再生用プログラムは、上記映像再生装置を、コンピュータで構成するものであることを特徴とする。

本発明の映像再生装置、映像再生方法、および映像再生用プログラムによれば、ユーザが画面上で行う簡易ななぞり操作により、映像中から所望の画像フレームを容易に再生させることが可能になる。

本発明の第１実施形態による映像再生装置の構成を示すブロック図である。本発明の第１実施形態による映像再生装置の動作を示すフローチャートである。本発明の第１実施形態による映像再生装置の処理対象とする第１映像情報を構成するフレーム画像情報を示す画面構成図である。本発明の第１実施形態による映像再生装置の処理対象とする第２映像情報を構成するフレーム画像情報を示す画面構成図である。本発明の第１実施形態による映像再生装置の処理対象とする第３映像情報を構成するフレーム画像情報を示す画面構成図である。本発明の第１実施形態による映像再生装置において、第１映像情報の所定フレーム内の動きベクトルが検出されたときの状態を示す画面構成図である。本発明の第１実施形態による映像再生装置において、第２映像情報の所定フレーム内の動きベクトルが検出されたときの状態を示す画面構成図である。本発明の第１実施形態による映像再生装置において、第３映像情報の所定フレーム内の動きベクトルが検出されたときの状態を示す画面構成図である。本発明の第１実施形態による映像再生装置において、表示する画像情報のフレーム番号を特定する処理を示すフローチャートである。本発明の第１実施形態による映像再生装置において、動きベクトルの方向と位置座標情報の角度情報との内角を示す説明図である。本発明の第１実施形態による映像再生装置において、算出された内角ごとの近似度を示すグラフである。本発明の第１実施形態による映像再生装置において、動きベクトルの方向に対する位置座標情報の角度情報の相対的な角度ごとの近似度を示す説明図である。本発明の第１実施形態による映像再生装置において、第２映像情報の所定フレーム内の動きベクトルおよび各フレームの動きスコアのヒストグラムを示す説明図である。本発明の第２実施形態による映像再生装置の処理対象とする第４映像情報を構成するフレーム画像情報を示す画面構成図である。本発明の第２実施形態による映像再生装置において、第４映像情報の所定フレーム内の動きベクトルおよび各フレームの動きスコアのヒストグラムを示す説明図である。本発明の第２実施形態による映像再生装置の構成を示すブロック図である。本発明の第２実施形態による映像再生装置において、（ａ）、（ｃ）、（ｅ）は、カメラワークスコアの算出のために選択した基本ベクトルを示す説明図、および（ｂ）、（ｄ）、（ｆ）は、選択された基本ベクトルと動きベクトルとの差分値を示す説明図である。本発明の第２実施形態による映像再生装置において、カメラワーク等に起因する情報を無効化する処理を示すフローチャートである。本発明の第２実施形態による映像再生装置において、無効化処理後の第４映像情報の所定フレーム内の動きベクトルおよび各フレームの動きスコアのヒストグラムを示す説明図である。本発明の第２実施形態による映像再生装置において、カメラワークが移動する被写体を追従し追い越してしまう場合の、（ａ）無効化処理前の動きベクトルを示す説明図、および（ｂ）無効化処理後の動きベクトルを示す説明図である。本発明の第２実施形態による映像再生装置において、カメラワークにより移動する被写体を常に中央に捉えている場合の、（ａ）無効化処理前の所定フレームの動きベクトルを示す説明図、および（ｂ）無効化処理後の所定フレームの動きベクトルを示す説明図である。本発明の第３実施形態による映像再生装置において、第５映像情報の所定フレーム内の動きベクトルが検出されたときの状態を示す画面構成図である。本発明の第３実施形態による映像再生装置において、映像情報が表示された画面上でなぞり操作を行っているときの状態を示す説明図である。本発明の第３実施形態による映像再生装置において、表示する画像情報のフレーム番号を特定するための近似度を算出する処理を示すフローチャートである。本発明の第３実施形態による映像再生装置において、（ａ）は、第１近似度算出処理により算出される近似度と内角との関係を示すグラフであり、（ｂ）は、第２近似度算出処理により算出される近似度と内角との関係を示すグラフである。本発明の第３実施形態による映像再生装置において、右方向からなぞり操作を開始する場合の所定フレームごとの処理内容および再生状態を説明する図である。本発明の第３実施形態による映像再生装置において、左方向からなぞり操作を開始する場合の所定フレームごとの処理内容および再生状態を説明する図である。本発明の第３実施形態による映像再生装置において、第５映像情報へのなぞり操作により再生されるフレームの範囲を示す説明図である。本発明の第３実施形態による映像再生装置において、第７映像情報の所定フレーム内の動きベクトルが検出されたときの状態を示す画面構成図である。本発明の第３実施形態による映像再生装置において、第７映像情報へのなぞり操作により再生されるフレームの範囲を示す説明図である。

《第１実施形態》
〈第１実施形態による映像再生装置の構成〉
本実施形態による映像再生装置の構成を、図１を参照して説明する。本実施形態による映像再生装置１は、映像情報記憶部１１と、フレーム画像情報復号部１２と、フレーム画像選択部１３と、表示部１４と、対象フレーム情報記憶部１５と、動き検出部１６と、動き検出情報記憶部１７と、入力部１８と、表示フレーム番号特定部１９とを有する。

映像情報記憶部１１は、処理対象の映像情報を記憶する。

フレーム画像情報復号部１２は、映像情報記憶部１１に記憶された映像情報を構成するそれぞれのフレーム画像情報を表示部１４に表示させるために復号する。

フレーム画像選択部１３は、復号されたフレーム画像情報のうち、後述する表示フレーム番号特定部１９により特定されたフレーム番号のフレーム画像情報を選択する。

表示部１４はモニタ画面であり、フレーム画像選択部１３で選択されたフレーム画像情報を順次表示する。

対象フレーム情報記憶部１５は、フレーム画像選択部１３で選択されたフレーム画像に関するフレーム番号等の情報を記憶する。

動き検出部１６は、処理対象の映像情報の各フレーム画像情報について、予め設定された一定の距離間隔ごとの画素に関する動きベクトルの検出を行う。

動き検出情報記憶部１７は、動き検出部１６で検出された動き検出結果を、映像情報ごと、フレーム番号ごと、および検出対象の画素の位置座標ごとに記憶する。

入力部１８は、ユーザにより、処理対象の映像が表示された表示部１４の画面上をなぞる操作が実行されたときに、当該操作により連続的に指定される画面内の位置座標情報を入力する。

表示フレーム番号特定部１９は、ユーザによるなぞり操作の角度情報と画面の被写体の動きから検出された動きベクトルの動き方向情報との近似度、および対応する動きベクトルの動き量情報から、ユーザによる注目度を示す動きスコアが最も高いフレームのフレーム番号を、位置座標情報ごとに特定する。

〈第１実施形態による映像再生装置の動作〉
次に、本実施形態による映像再生装置１の動作について、図２のフローチャートを参照して説明する。

まず、ユーザが処理対象とする映像情報を、映像再生装置１の映像情報記憶部１１に記憶させる（Ｓ１）。本実施形態においては、第１映像情報〜第３映像情報を処理対象の映像情報として記憶させる。

第１映像情報は、図３に示すように、フレーム番号「10 frame」から途中の「20 frame」を経て「30 frame」までの21枚のフレーム画像情報を含み、画面の左端から右端に向かって右方向に小型車が移動する状況を撮影したものである。また第２映像情報は、図４に示すように、フレーム番号「10 frame」から途中の「20 frame」を経て「30 frame」までの21枚のフレーム画像情報を含み、フレーム番号「10 frame」から「20 frame」にかけては画面の左端から右端に向かって右方向に大型クレーン車が移動し、フレーム番号「20 frame」から「30 frame」にかけては画面の右下から左上に向かって左上方向に小型車が移動する状況を撮影したものである。また第３映像情報は、図５に示すように、フレーム番号「10 frame」から途中の「20 frame」を経て「30 frame」までの21枚のフレーム画像情報を含み、フレーム番号「10 frame」から「20 frame」にかけては画面の左端から中央に向かって右方向に大型クレーン車が移動し、フレーム番号「20 frame」から「30 frame」にかけてはこの大型クレーン車のクレーンが上方向に上昇する状況を撮影したものである。

処理対象の第１映像情報〜第３映像情報が記憶されると、各映像情報のすべてのフレーム画像情報について、動き検出処理が実行される（ループＡ）。

各フレーム画像情報について動き検出処理が実行される際は、まずフレーム画像情報復号部１２において、記憶された映像情報を構成する各フレーム画像情報が復号される（Ｓ２）。

次に動き検出部１６において、処理対象の映像情報のすべてのフレーム画像情報について、フレーム全域の動き検出が行われる（Ｓ３）。

動き検出部１６による動き検出は、例えばブロックマッチング法を用いて、隣り合うフレーム画像情報との間でオプティカルフローと呼ばれるベクトルを求めることにより検出される。

この動き検出には、勾配法や画像ピラミッドを利用したLucas-Kanade法（Jean Yves Bouguet. Pyramidal implementation of the lucas kanade feature tracker. Intel Corporation, Microprocessor Research Labs, 2000.）などを用いてもよい。

オプティカルフローの検出処理は、フレーム画像情報の全画素について検出するのではなく、一定の距離間隔ごとの画素について実行される。例えば、解像度が210pixel × 150pixelのフレーム画像情報について、横方向および縦方向にそれぞれ10pixelの間隔を空けて検出対象画素の座標をP(10,10)、P(20,10)、P(30,10)・・・P(10,20)、P(20,20)、P(30,20)、・・・P(190,140)、P(200,140)のように特定し、これらの座標Pについてオプティカルフローが検出される。これらの特定された各座標Pを基準座標情報、フレーム画像情報内の全基準座標情報を、基準座標情報群と呼ぶ。フレーム画像情報の端ではオプティカルフローの検出が不安定になるため、検出処理を行わないように余白部分を設定してもよい。

基準座標情報群の各座標のオプティカルフローが検出されることにより、各座標における被写体の動き方情報向および動き量（大きさ）情報を含む動きベクトルが検出される。

図６は、第１映像情報のフレーム番号「20 frame」のフレーム画像情報についての動きベクトルの検出結果を各基準座標位置に対応させて表示した画面情報であり、オプティカルフローにより検出された座標Pの動きベクトルの方向を黒矢印で示している。ここで、動きベクトルの大きさが所定の閾値以下であり、誤差として十分に無視できるオプティカルフローの座標位置には矢印を表示していない。以降に示すフレーム画像情報の動き検出結果の画面情報においても、同様の方法により表示するものとする。

図６では、第１映像情報のフレーム番号「20 frame」のフレーム画像情報について、画面の中央付近のいくつかの座標で、おおよそ右方向への動きベクトルが検出され矢印が表示されている。

第２画像情報においては、図７に示すように、フレーム番号「10 frame」〜フレーム番号「20 frame」の間のフレーム画像情報については、画面情報７１に示すように画面の中央付近のいくつかの座標で、おおよそ右方向への動きベクトルが検出され矢印が表示されている。また、フレーム番号「20 frame」〜フレーム番号「30 frame」の間のフレーム画像情報については、画面情報７２に示すように画面の中央付近のいくつかの座標で、おおよそ左上方向への動きベクトルが検出され矢印が表示されている。

また第３画像情報においては、図８に示すように、フレーム番号「10 frame」〜フレーム番号「20 frame」の間のフレーム画像情報については、画面情報８１に示すように画面の中央付近のいくつかの座標で、おおよそ右方向への動きベクトルが検出され矢印が表示されている。また、フレーム番号「20 frame」〜フレーム番号「30 frame」の間のフレーム画像情報については、画面情報８２に示すように画面の中央付近のいくつかの座標で、おおよそ上方向への動きベクトルが検出され矢印が表示されている。

動き検出部１６で検出された、映像情報ごと、フレーム画像情報ごと、および検出対象の画素の位置情報ごとの動きベクトルの検出結果は、動き検出情報記憶部１７に記憶される（Ｓ４）。以上で、ループＡで実行される動き検出処理の説明を終了する。

次に、ユーザが操作対象とする映像情報（例えば第２映像情報）の、最初のフレーム画像情報（フレーム番号「10 frame」のフレーム画像情報）が、表示部１４に表示される（Ｓ５）。

そしてユーザにより、表示部１４の画面上を用いてドラッグ操作やスワイプ操作などにより連続的に位置座標情報が入力されると（Ｓ６の「YES」）、当該操作中、表示フレーム番号特定部１９において位置座標情報ごとに、表示対象とする画像情報のフレーム番号が特定される（Ｓ７）。

表示フレーム番号特定部１９で、表示する画像情報のフレーム番号が位置座標情報ごとに特定されるときの処理について、図９のフローチャートを参照して詳細に説明する。

まず、最初のフレーム画像情報が表示された表示部１４の画面上で、ユーザが、検出したい被写体の位置近辺で当該被写体の動きをおおまかになぞるようにマウスによるドラッグ操作、またはタッチパネルのスワイプ操作などを開始すると、これらの操作に基づいて連続して指定された位置座標情報が入力部１８から入力される。

このとき、位置座標情報に加え、各位置座標情報に関する角度情報が表示フレーム番号特定部１９で取得される。この角度情報は、各位置座標情報における、１つ前（あるいは所定数前）の位置座標情報からの移動方向を示すものである。なお、ドラッグ操作やスワイプ操作によって複数の位置座標情報が連続的に入力される場合、１つ前（あるいは所定数前）の座標からのＸ軸、Ｙ軸の値の増減分について正接関数（アークタンジェント）を用いて計算することで、角度情報を取得することができる（Ｓ１１）。例えば、ドラッグ操作やスワイプ操作により位置座標情報a0〜a20が連続して入力されたときに、このうちの位置座標情報a1について、位置座標情報ａ0から位置座標情報ａ1への移動方向を示す角度情報が取得される。

次に、上述したステップＳ３において動きベクトルが検出された基準座標情報群の中から、ステップＳ１１で入力された位置座標情報について、近傍の基準座標情報が対応する座標情報として抽出される（Ｓ１２）。このとき、１つの位置座標情報に関し、４点あるいは１６点などの複数の基準座標情報を抽出してもよい。

次に、当該操作対象とする第２映像情報のすべてのフレームについてそれぞれ、ユーザによる注目度を示す動きスコアが算出される（ループＣ）。

各フレームにおける、動きスコアの算出処理について説明する。まず、動き検出情報記憶部１７に記憶された動き検出結果から、ステップＳ１２で抽出された各基準座標情報に関する動きベクトルの動き方向情報が取得される。そして取得された動きベクトルの動き方向情報と、対応する位置座標情報（例えば位置座標情報ａ1）の角度情報とが比較される。

比較の結果から、ユーザの操作により入力された位置座標情報の角度情報と、対応する基準座標情報の動きベクトルの動き方向情報との近似度（ratio）が算出される（Ｓ１３）。この近似度（ratio）は、ユーザがドラッグ操作またはスワイプ操作により画面上をなぞった軌跡の方向と、対応する動きベクトルの方向とが同じ方向を向いているか、もしくは逆方向を向いているときに高く算出されるものであり、後述する動きスコアを算出するために必要な情報である。

この近似度（ratio）は、例えば下記式（１）で示されるように、余弦関数（cos）を利用して算出することができる。

ここで「angle」は、図１０で示されるように、ユーザの操作による位置座標情報の角度情報Vdと、対応する基準座標情報の動きベクトルの方向Vnとの内角（inner(Vd,Vn)）である。例えば、ユーザが右方向になぞる操作を行ったとき、この操作の角度情報を０度とすると、取得された動きベクトルが右上方向（ユーザの操作による角度情報に対して相対的に３０度の方向）への情報を持っていたとする。このとき、ユーザの操作による位置座標情報の角度情報Vdと、対応する基準座標情報の動きベクトルの方向Vnとが比較されることにより、これらの内角（angle）が「３０度」として得られる。

内角（angle）は０度以上、１８０度以下で得られるため、この式（１）によって得られる近似度（ratio）は、図１１に示すようになる。図１１のグラフでは、内角（angle）が０度（同方向）のときと１８０度（逆方向）のとき、最も高い近似度「１」が算出される。一方で、内角（angle）が９０度のように角度情報と動きベクトルの方向とが直角に交わっているときに、最も低い近似度「−１」が算出される。

この近似度の算出において、内角（angle）が逆方向であっても高い値となることについて説明する。

例えば、図５に示す第３映像情報が表示されている画面上で、ユーザが右方向に移動する大型クレーン車を検出対象の被写体として注目した場合について説明する。

ユーザは当該第３映像情報において、時間的に順方向に大型クレーン車が移動する場面をシークして再生させたい場合、画面中央付近で、当該大型クレーン車の移動方向と同じ右方向になぞるようにドラッグ操作やスワイプ操作を行う。また、時間的に逆方向に大型クレーン車が移動する場面をシークして再生させたい場合、画面上で、当該大型クレーン車の移動方向と真逆の左方向になぞるようにドラッグ操作やスワイプ操作を行う。

この右方向と左方向の操作を交互に繰り返すことにより、この操作に追従して大型クレーン車が移動する場面が順方向と逆方向とで繰り返し表示され、ユーザは直感的に大型クレーン車を掴んで動かしているかのような感覚を体験することができる。

このようにユーザが直感的にある被写体に注目して映像を動かそうとする場合、順再生、逆再生を繰り返すことでより「掴んで動かしている感覚」が強まり、なぞり操作が往復することが多々あることに着目し、図１２に示すように、内角（angle）が逆方向であっても高い値となるように定めている。

一方で、ユーザは注目した被写体の動きの方向と直交するような方向になぞる可能性は低いため、図１２に示すように、内角が９０度に近い場合はノイズを小さくするために近似度が低い値となるように定めている。

図９のフローチャートに戻り、ステップＳ１３で近似度（ratio）が算出されると、次に、動き検出情報記憶部１７に記憶された動き検出結果から、ステップＳ１２で抽出された各基準座標情報に関する動きベクトルの動き量（被写体の動きの大きさ）情報が取得される。そして取得された動きベクトルの動き量情報に、ステップＳ１３で算出された近似度（ratio）がかけ合わされることで、ユーザの注目度を示す動きスコアＳが算出される。動きスコアＳは、映像情報中の被写体のうち、ユーザが示す方向に近似する方向に大きく動く程、高い値で算出される。なお、抽出された１つの位置座標情報に対して複数の基準座標情報が抽出されている場合には、下記式（２）に示すように、それぞれの基準座標情報に関する動きベクトルについて得られた動きスコアの総和が、当該フレームの動きスコアＳとして算出される（Ｓ１４）。

なお複数の基準座標情報が抽出されている場合に、あらかじめ対象となる動きベクトルの平均値を求め、この平均値について動きスコアＳを算出するようにしてもよい。

すべてのフレームについて動きスコアＳが算出されると（ループＣ終了）、その結果に基づいて図１３の下段に示すようにヒストグラムが生成される（Ｓ１５）。

図１３のヒストグラムでは、横軸がフレーム番号に対応し、縦軸が該当する動きスコアＳに対応している。

ここでは、図１３の上段に示す第２映像情報が表示されているときに、図１３の中段に白抜き矢印で示すようにユーザが画面の中央付近で右方向へなぞる操作が行うと、映像中ではフレーム番号「10 frame」〜「20 frame」の間に当該操作の位置付近で大型クレーン車が右方向に移動していることにより、画面情報１３１に示すように、対応するフレームの複数の基準座標情報に関し右方向の動きベクトルが得られる。また、フレーム番号「20 frame」〜「30 frame」の間に当該操作の位置付近で小型車が左上方向に移動していることにより、画面情報１３２に示すように、対応する複数の基準座標情報に関し左上方向の動きベクトルが得られる。

得られたそれぞれの動きベクトルと、ユーザの操作の方向（角度情報）とが比較された結果、ユーザのなぞる操作が右方向であるため大型クレーン車の移動場面は近似度（ratio）が高く算出され、ヒストグラム上でも高い動きスコアが得られている。一方、小型車の移動により得られる動きベクトルの方向は、ユーザのなぞる操作の方向に直角に近い角度で交わっているため、小型車の移動場面の動きスコアは低くなっている。

次に、生成されたヒストグラムに基づいて、当該位置座標情報に関し、動きスコアが最大となるフレームのフレーム番号が特定される（Ｓ１６）。ここでは、フレーム番号「15 frame」が特定されたものとする。

以上で、表示フレーム番号特定部１９において実行されるフレーム番号の特定処理の説明を終了する。

図２のフローチャートに戻り、特定されたフレーム番号のフレーム画像情報がフレーム画像選択部１３で選択され、表示部１４に表示される（Ｓ８）。このステップＳ７のフレーム番号特定処理およびステップＳ８のフレーム画像情報表示処理は、ユーザのドラッグ操作やスワイプ操作が実行されている間、連続的に順次入力される位置座標情報ごとに実行される（ループＢ）。

上述した例では、ユーザの画面をなぞる操作の方向と映像情報から検出された動きベクトルの方向とが近いフレームが高い動きスコアを有するため、ユーザが水平方向に往復してなぞり操作を加えると、フレーム番号「10 frame」から「20 frame」の間に対応するフレームが選択され、表示される。このとき、なぞり操作の途中でフレーム番号「20 frame」から「30 frame」の間の小型車が移動する場面のフレームも動きベクトルが大きいと判断されるが、なぞり操作との方向が近くない（直交に近い）ため動きスコアが低くなり表示されにくい。このように表示処理が位置座標情報ごとに順次実行されることにより、ユーザは画面上の操作から所望の被写体を直感的に動かすような感覚を効果的に得ることが可能となる。

つまり本実施形態においては、画像上の同じ位置を別方向に移動する被写体を含む映像情報を対象とする場合においても、ユーザは画面上でなぞる方向によって映像のシークに利用したい被写体を選ぶことができ、それぞれの被写体の画像上での動きに基づいて映像のシークを行うことが可能になる。

また本実施形態において位置座標情報が移動することにより表示されるフレーム画像情報が変更されるとき、連続するフレーム番号で遷移するようにしてもよい。例えば、現在表示している画像情報のフレーム番号が「10 frame」であり、ユーザの画面上をなぞる操作により表示フレーム番号特定部１９で次に特定されたフレームのフレーム番号が「20 frame」であったとする。このとき、「10 frame」の表示からすぐに「20 frame」の表示に切り替えるのではなく、「10 frame」→「11 frame」→「12 frame」→・・・「20 frame」といったようにフレーム番号の順に連続して表示させながら「20 frame」まで表示されるように遷移させることができる。このように処理することにより、フレーム画像が飛び飛びに表示されることによる違和感が少なくなり、シークされた映像の被写体が滑らかに動くように表示される。この遷移処理はユーザによる入力される位置座標情報が取得されるごとに行ってもよいし、0.1秒ごとなど予め設定した時間ごとに行うようにしてもよい。

ユーザが映像情報の中から被写体の動きに基づいて所望のシーンを検索する操作を行うときに、マウスでのクリックやタッチパネルへのタップ操作で位置を指定することもあるが、本実施形態においては、それよりも「マウスでのドラッグ操作やタッチパネルへのスワイプ操作」が多いことに注目している。つまり、ユーザの操作に追従して被写体が動くように再生させたいと思ったとき、画面上の座標だけでなく、さらに動きの方向までも指定される。

ドラッグ操作やスワイプ操作での画面をなぞる操作によって位置と方向が指定されれば、あとはその位置周辺の動きベクトルを全フレームについて比較し、似た方向に向いている動きベクトルが特に多いフレームを表示対象とすれば、ユーザの意図に沿った動きが含まれているフレームが表示される。

特に本実施形態では、ユーザによるなぞり操作の方向と同じ方向の動きベクトルだけを似ていると判断するのではなく、逆方向の動きベクトルも似ていると判断する。また、なぞり操作の方向に対し直角方向の動きベクトルは最も似ていないと判断する。これは、映像中の被写体を動かすためにユーザが直感的に操作する場合、なぞり操作が被写体の動きに対し往復することが多々あることに着目したためである。なぞり操作を往復することによって映像は順再生、逆再生を繰り返すことになり、ユーザはより強く「ユーザが被写体を掴んで動かしている」感覚を得ることができる。

《第２実施形態》
本発明の第２実施形態として、処理対象とする映像情報が、カメラワークを利用して撮影されたものである場合や、撮影の際に手振れが発生しているものである場合の処理について説明する。

処理対象の映像情報がカメラワークを利用して撮影されていたり撮影の際に手振れが発生していたりした場合、動きの検出結果の中に背景の動きに起因する動きベクトルが多く含まれてしまっていた。これにより、第１実施形態で説明したようにユーザがなぞった座標について検出された動きベクトルを参照しても、それはユーザが動かしたいと思った被写体の動きによるものなのか、背景の動きによるものなのかを区別できず、結果としてユーザが意図するように映像を再生させることができない場合があった。

処理対象とする映像情報に、撮影時のカメラワークや手振れに起因する動き情報が含まれるケースについて図１４および１５を参照して説明する。

図１４は、本実施形態において処理対象とする第４映像情報を示している。当該第４映像情報は、フレーム番号「10 frame」から途中の「20 frame」を経て「30 frame」までの21枚のフレーム画像情報を含み、画面の左端から右端に向かって小型車が移動する状況を撮影したものである。

この第４映像情報は第１映像情報と同じ被写体の動き（小型車の左端から右端への移動）を撮影したものであるが、第４映像情報ではカメラが小型車の移動に追随し、パン機能により右方向へ水平に回転しながら撮影しているため、フレームが進むにつれて画面上では背景が左方向に移動しているように見える。

この第４映像情報が表示されている画面上で、ユーザが画面中央付近で小型車の移動方向と同じ右方向になぞるようにドラッグ操作やスワイプ操作を行ったときに、第１実施形態で説明したように動きスコアＳを算出してヒストグラムを生成すると、図１５の下段のようになる。図１５のヒストグラムは、ユーザがなぞる操作し始めのときの位置座標情報に基づいて生成されたものである。

このとき、映像中ではフレーム番号「10 frame」〜「20 frame」の間に当該操作の位置付近で小型車が右方向に移動していることにより、対応するフレームの基準座標情報に関して得られた右方向の動きベクトルから動きスコアが算出される。

しかしこの第４映像情報では、小型車の移動に追従するようにカメラワークが発生しており、画面上では小型車の移動により検出される動きベクトルよりもカメラワークにより検出される背景の右向きの動きベクトルのほうが大きくなる。そのため小型車の移動に関して算出される動きスコアは、画面情報１５１に示すように、カメラワークがない第１映像情報と比べると小さく検出されてしまう。

例えば、カメラが小型車を常に画面中央に映るようなカメラワークで撮影すると、小型車は実際にはどれほどの速度で移動しようとも画面上では動かない。一方で背景はカメラワークに伴って画面上で左方向へ移動するため、画面全体にわたって左方向の動きベクトルが検出される。

図１５の例では、撮影の開始から終了まで（フレーム番号「10 frame」から「30 frame」まで）一定の速度でカメラワークが発生した場合の、ユーザの指で示す位置におけるヒストグラムを想定している。

ここで、ユーザが画面上で示している位置に小型車が重なっていないとき、つまり画面情報１５２に示すように当該位置が背景と重なっているとき（例えば、フレーム番号「20 frame」から「30 frame」の間）には、カメラワークに起因して発生する動きベクトルに基づいて動きスコアが算出される。そのため、ヒストグラム上では最初から最後までほぼ一定の動きスコアが検出される。ただし、カメラと被写体との距離に応じて動きベクトルの大きさは変化するため、完全に一定ではなく、フレームによってばらつきは生じる。

その結果、第１実施形態に記載の技術を利用して、ユーザが小型車の移動に注目して該当する場面をシークして再生させようとした場合、いずれの位置座標情報に関しても、ヒストグラム上で動きスコアが最大となるフレームはカメラワークに起因するものとなってしまう。そのため、ユーザのなぞる操作と表示される小型車の動きとが重ならず、所望の被写体を掴んで動かしているかのような感覚を得ることができない。

この問題を解決するため本実施形態においては、動きベクトルの検出結果から、または端末の傾きや回転の情報から、カメラワークや手振れによって発生した動き、つまり背景の動きベクトルを検出して無効化（キャンセリング）する処理を行う。

この無効化（キャンセリング）処理により、表示するフレームを決定する際に映像中の被写体の動きに起因する動きベクトルのみを参照でき、ユーザが被写体の動きに注目してなぞり操作を行う場合に、カメラワークや手振れによる動きが発生している映像においてもロバストに所望のフレームを表示させることができる。

〈第２実施形態による映像再生装置の構成〉
本実施形態による映像再生装置の構成を、図１６を参照して説明する。本実施形態による映像再生装置２は、カメラワーク検出部２０を有することを除いては第１実施形態で説明した映像再生装置１の構成と同様であるため、同一機能を有する構成部についての詳細な説明は省略する。

カメラワーク検出部２０は、撮影時のカメラワークまたは手振れに起因して発生した被写体の背景の動きに関する動きベクトルを検出し、動き検出部１６で取得された動きベクトルから当該被写体の背景の動きに関する動きベクトルを差し引くことで、被写体の背景の動きに関する情報を無効化（キャンセリング）する。

〈第２実施形態による映像再生装置の動作〉
次に、本実施形態による映像再生装置２の動作について説明する。

まず、ユーザが処理対象とする映像情報を、映像再生装置２の映像情報記憶部１１に記憶させる（Ｓ１）。本実施形態においては、第４映像情報を処理対象の映像情報として記憶させる。

処理対象の第４映像情報が記憶されると、当該映像情報のすべてのフレーム画像情報について、第１実施形態と同様に各基準座標情報に関し動き検出処理が実行される（図２のステップＳ１〜Ｓ４）。

本実施形態においては、フレーム画像情報の横方向の画素数を９分割し、縦方向の画素数を６分割することにより得られる各領域の中心点を基準座標情報とし、これらの基準座標に関しそれぞれ動き検出処理が実行されるものとする。ここでは、説明を簡易化するために１フレーム画像情報について９×６個（５４個）の基準座標情報の動きベクトルが検出される場合について説明するが、実際には１フレーム画像情報をより小さな領域に分割することにより、より多くの数の動きベクトルを検出して精度を上げるようにしてもよい。

本実施形態ではステップＳ４の処理としてさらに、カメラワーク検出部２０において、動き検出部１６における動き検出処理で検出された動きベクトルの情報から、撮影時のカメラワークや手振れに起因して発生した被写体の背景の動きに関する情報が検出され、無効化（キャンセリング）される。

カメラワークや手振れに起因する情報が検出され無効化されるときの処理について、図１７および図１８を参照して説明する。

まずカメラワーク検出部２０において、動き検出部１６で検出された動きベクトルの情報が取得される。

ここで、あるフレーム（例えばフレーム番号「15 frame」のフレーム）についての動き検出結果である動きベクトルを、各座標位置に対応させて画面情報として表示させた一例を、図１７（ａ）に示す。

このとき各動きベクトルを、画面の左上の基本座標情報から順にF0, F1, F2,・・・とし、右下をF53と呼ぶことにする。

そしてまず図１７（ａ）に丸印で示すように、動きベクトルF0が基本ベクトルとして抽出される（Ｓ２１）。次に、当該基本ベクトルである動きベクトルF0と、画面上の他の動きベクトルF1〜F53との方向・大きさ（＝長さ、ノルム）の差分値がそれぞれ算出される（Ｓ２２）。ここで算出された差分値を、各座標位置に対応させて画面情報として表示させると、図１７（ｂ）のようになる。

画面上のすべての動きベクトルF1〜F53について基本ベクトルF0との大きさの差分値が算出されると（ループＥ）、得られた基本ベクトルごとの差分値の総和が、カメラワークスコアとして算出される（Ｓ２３）。

例えば、基本ベクトルをFbとし、ｎ番目の動きベクトルをFnとしたとき、当該フレームのカメラワークスコアCSは下記式（３）のように算出される。

同様にして、図１７（ｃ）に示すように動きベクトルF1を基本ベクトルとしたときの、他の動きベクトルF0およびF2〜F53との差分値が図１７（ｄ）のように算出され、これらに基づいてカメラワークスコアが算出される。以降、順次それぞれの基準座標情報の動きベクトルを基本ベクトルとしたときの他の動きベクトルとの差分値が算出され、図１７（ｅ）に示すように動きベクトルF53を基本ベクトルとしたときには、図１７（ｆ）のように差分値が算出され、カメラワークスコアが算出される（ループＤ）。

次に、算出された中からカメラワークスコアが最小の動きベクトルが、当該フレームに関する「撮影時のカメラワークまたは手振れに起因して発生した被写体の背景の動きに関する動きベクトル」（カメラワークのベクトル）として採用される（Ｓ２４）。

当該カメラワークのベクトルについて説明を補足する。このカメラワークのベクトルは画面上に表示された動きベクトルから代表として選択されたものであるが、その基準は「カメラワークに起因する動きベクトルはおおよそ同じ方向・大きさである」、「動きベクトルの大半が同じ方向・大きさであれば、それはカメラワークに起因するものである」といった前提に基づいたものである。２つのベクトルの方向と大きさが近いとき、その差分のノルムは小さいものとなる。つまり、カメラワークスコアが小さいということは、基本ベクトルに似た動きベクトルが画面上に多く分布しているということであり、似た（差分値の小さい）動きベクトルの数が最大となるとき（＝カメラワークスコアが最小となるとき）の基本ベクトルの情報が、カメラワークのベクトルであると判断している。

そのため、フレーム画像情報上の大半を覆うような物体が映りこんでしまうと、その物体に基づく動きベクトルをカメラワークのベクトルとして検出してしまう。

この場合は、撮影するカメラ装置の傾きや回転に関する情報を、内蔵する３軸ジャイロセンサ等で取得し、取得した情報から、撮影した画像上でどの程度動きベクトルが発生したかを算出する方法により、精度の高いカメラワークのベクトルを検出することができる。

次に、検出したカメラワークのベクトルと、当該フレーム内の各動きベクトルとの差分値がそれぞれ算出され、その差分値で動き検出情報記憶部１７内の動きベクトルが上書きされることで、各動きベクトルからカメラワークに起因するベクトル分が無効化（キャンセリング）される（Ｓ２５）。

以上の、カメラワークや手振れに起因する情報の無効化（キャンセリング）処理が、すべてのフレームについて実行される（ループＡ）。

第４映像情報の当該フレームにおいては、左方向の動きベクトルがカメラワークのベクトルとして検出され、キャンセルされている。

キャンセル後の画面の背景に対応する基準座標上では、左方向の動きベクトルで差分値が計算されているため、上書きされた動きベクトルの値（差分値）はほぼ「０」か、「０」でなくても無視できるほどに充分に小さい値である。

一方、キャンセル後の画面の小型車が映っている領域では、既に存在していた右方向の動きベクトルからカメラワークの左方向のベクトルを差し引くため、より強い（大きい）右方向のベクトルとして上書きされる。

つまり、カメラワークのベクトルでキャンセル処理を行うことにより、当該フレーム画像情報からカメラワークとは関係のない被写体の動きだけが残る。

このようにカメラワークのベクトルでキャンセル処理を行う場合、図１４の第４映像情報のようにカメラワークによって移動する被写体を追従はするがカメラワークが追い越さない場合は、キャンセル処理後も被写体の移動に関する動きベクトルは右方向で計算される。そのため第１実施形態の場合と同様に、ユーザは画面上の操作から所望の被写体を直感的に動かすような感覚を効果的に得ることが可能となる。

例えば図１９のように、第４映像情報が表示されている画面の左よりの位置でユーザが水平方向になぞり操作を加えると、画面情報１９１のように、フレーム番号「10 frame」から「20 frame」の間に対応するフレームの動きスコアが高く算出されて選択され、表示対象となる。また、フレーム番号「20 frame」から「30 frame」の間に対応するフレームでは、表示画面１９２のように当該位置での被写体の動きがないため動きスコアが低く算出され、表示対象にならない。

一方、カメラワークによって移動する被写体を追従しカメラワークが追い越してしまう場合、つまり図２０（ａ）のようにフレーム番号「Frame 10」〜「Frame 30」の動きベクトルが検出されているときに、カメラワークのベクトルでキャンセル処理が実行されると、図２０（ｂ）のように上書きされる。このように上書きされることにより、被写体の動きベクトルは右方向を示すが、被写体の位置は逆方向に、つまり画面の右端から左端に移動している。

この場合でも、ユーザが画面の中央付近で右方向へのなぞる操作が行われると、ユーザが操作した箇所においてなぞった方向、またはなぞった方向と逆の方向の動きベクトルで動きスコアが高く算出されるため、動きベクトルの方向と逆方向に被写体の位置が移動していても、ユーザは画面上の操作から所望の被写体を直感的に動かすような感覚を効果的に得ることが可能となる。

また、カメラワークによって移動する被写体を追従し、被写体を常に画面の中央に捉えている場合、つまり図２１（ａ）のようにフレーム番号「Frame 10」〜「Frame 30」の動きベクトルが検出されているときに、カメラワークのベクトルでキャンセル処理が実行されると、図２１（ｂ）のように上書きされる。このように上書きされることにより、被写体の動きベクトルが右方向を示して画面の中心付近に静止した状態となる。

この場合、画面上で被写体は動いていないが動きベクトルは検出され続けているため、これらの動きベクトルから算出される動きスコアに基づいて特定されたフレーム画像が表示される。

以上の第２実施形態によれば、処理対象とする映像情報が、カメラワークを利用して撮影されたものである場合や、撮影の際に手振れが発生しているものである場合にも、カメラワークや手振れに起因する動きベクトルを検出してキャンセル処理を加えることができるため、高い精度で被写体の動きを抽出することができ、ユーザは画面上の操作から所望の被写体を直感的に動かすような感覚を効果的に得ることが可能となる。

上述した実施形態においては、カメラワークのベクトルを取得する際、既に表示フレームの決定処理で利用するために算出された動きベクトルを利用して取得している。

カメラワークを検出するには、他の方法として、端末に内蔵されたセンサを利用して取得した端末の傾きや回転の情報や動画像から検出する方法もあるが、これらの手法を利用するには、端末にセンサ機能や、動画像に対する特徴量抽出処理機能などの高負荷な機能を新たに搭載する必要があった。また、端末から取得した回転の情報のみを用いる場合には、所定量の回転により画面上でどれだけ動きベクトルが発生したのかを改めて算出する機能が必要であった。

本実施形態においてはカメラワークのベクトルを検出した後、既に検出した動きベクトルとの差を算出して無効化（キャンセリング）の処理を行う必要があるが、動きベクトルから求めたカメラワークのベクトルであればその計算も容易である。

よって本実施形態では、カメラワークのベクトルの検出処理および無効化（キャンセリング）処理において、他の手法よりも「映像中の動きベクトルとユーザの入力操作とに基づいて表示対象とするフレームを決定する」という機能との親和性が高く、計算にかかる負荷や時間的コストを低くすることができる。

《第３実施形態》
本発明の第３実施形態として、処理対象とする映像情報に、往復運動をする被写体や同じ領域を移動する複数の被写体が含まれている場合の処理について説明する。

図２２は、本実施形態において処理対象とする第５映像情報を示している。当該第５映像情報は、フレーム番号「10 frame」から途中の「20 frame」、「25 frame」を経て「35 frame」までの26枚のフレーム画像情報を含み、フレーム番号「15 frame」付近で画面の左端から右端に向かって右方向に消防車が通り過ぎ、その後フレーム番号「30 frame」付近で画面の右端から左端に向かって左方向にパトカーが通り過ぎる状況を撮影したものである。この映像情報内では、画面の中段付近のほぼ同じ水平領域を消防車とパトカーとがすれ違うように移動している。

このような第５映像情報が表示されている画面上で、ユーザが画面中央付近で右方向になぞるように操作を行ったときに、第１実施形態または第２実施形態で説明したように余弦（cos）関数により近似度の算出処理を行うと、当該なぞり操作の方向と略同方向である右方向（内角「０度」近く）へ動く被写体である消防車に対しても、略逆方向である左方向（内角「１８０度」近く）へ動く被写体であるパトカーに対しても、同等レベルの値が算出されることになる。つまり、１回のなぞり操作に対して２つの被写体の近似度が同等レベルで算出される。

このような場合、１回のなぞり操作が継続されている間、どちらかの被写体に特定して表示するように考慮されていなかったため、場合によってはなぞり操作により指定される位置座標情報がずれるたびに他方の被写体に表示が変更されてしまい、表示フレーム番号が飛び飛びになって適切に表示が行われないことがあった。適切に表示が行われないと、ユーザに対して被写体を掴んで動かしているかのような感覚を提供することができなかった。

また、往復運動をする被写体を含む映像情報、例えば人物が左右や上下に手を振るような動作を含む映像情報が表示されているときに、第１実施形態または第２実施形態で説明したように近似度の算出処理を行うと、当該手を振る動作の往動作に対しても復動作に対しても同等レベルの値が算出されることになり、場合によってはやはり、なぞり操作により指定される位置座標情報がずれるたびに表示フレーム番号が飛び飛びになって適切に表示が行われないことがあった。

この問題を解決するため本実施形態においては、１回のなぞり操作に対して操作開始時のなぞり操作の方向に基づいて１つの被写体を動き特定し、フレーム特定処理を行うようにする。

このように処理を行うことにより、ユーザの意向に沿って被写体の動き特定し、当該被写体を掴んで動かしているかのような感覚を提供することができる。

〈第３実施形態による映像再生装置の構成〉
本発明の第３実施形態による映像再生装置３の構成は、図１の映像再生装置１と同様であるため、同一機能を有する部分の詳細な説明は省略する。

本実施形態においてフレーム番号特定部１９は、ユーザによる１回のなぞり操作の継続中に行われた折り返し操作の回数を計数する。折り返し操作とは、位置座標情報の移動方向が略逆方向に変更するようになぞる操作である。

そして、移動方向に基づいて算出される角度情報と、基準座標情報の動きベクトルに含まれる動き方向情報との近似度を、当該なぞる操作の継続中に計数された折り返し操作の回数が偶数回である場合には、角度情報で示される移動方向と基準座標情報の動き方向とが略同方向のときのほうが、略逆方向のときよりも高い値となるように第１近似度算出処理により算出する。

また、当該なぞる操作の継続中に計数された折り返し操作の回数が奇数回である場合には、角度情報で示される移動方向と基準座標情報の動き方向とが略逆方向のときのほうが、略同方向のときよりも高い値となるように第２近似度算出処理により算出する。

このように処理することで、折り返し操作が行われる都度、第１近似度算出処理と第２近似度算出処理とを交互に実行するように切り替えて、算出した近似度に基づいてフレーム番号を特定する。

〈第３実施形態による映像再生装置の動作〉
本実施形態による映像再生装置３の動作について、図２のフローチャートを参照して説明する。

まず、ユーザが処理対象とする映像情報を、映像再生装置１の映像情報記憶部１１に記憶させる（Ｓ１）。本実施形態においては、第５映像情報を処理対象の映像情報として記憶させる。

処理対象の第５映像情報が記憶されると、当該映像情報のすべてのフレーム画像情報について、第１実施形態と同様に各基準座標情報に関し動き検出処理が実行される（図２のステップＳ２〜Ｓ４：ループＡ）。

次に、操作対象とする第５映像情報の最初のフレーム画像情報（フレーム番号「10 frame」のフレーム画像情報）が、表示部１４に表示される（Ｓ５）。

また、位置座標情報に加え、第１実施形態で説明した場合と同様に、各位置座標情報に関する角度情報が表示フレーム番号特定部１９で取得される（Ｓ１１）。さらに入力された位置座標情報について、近傍の基準座標情報が対応する座標情報として抽出される（Ｓ１２）。

このとき、ユーザが特定の被写体、例えば消防車を直感的に掴んで動かすように表示させる目的で、１回のなぞり操作（１回のドラッグ操作やスワイプ操作）中に、図２３に示すように右方向へのなぞり操作から、折り返して左方向へのなぞり操作を行う場合がある。

そこで表示フレーム番号特定部１９では、１回のなぞり操作の継続中に略逆方向への折り返し操作が行われたか、つまり前回の角度情報から今回の角度情報が所定角度以上（例えば１３５度以上）変更されたことにより、なぞり操作の軌跡が折り返されたか否かが監視されている。

次に、当該操作対象とする第５映像情報のすべてのフレームについてそれぞれ、ユーザによる注目度を示す動きスコアが算出される（ループＣ）。ここで、各フレームにおける動きスコアの算出処理において、第１実施形態で説明した場合と同様にステップＳ１２で抽出された各基準座標情報に関する動きベクトルの動き方向情報が取得され、さらにユーザの操作により入力された位置座標情報の角度情報と、対応する基準座標情報の動きベクトルの動き方向情報との近似度（ratio）が算出される（Ｓ１３）。

本実施形態において近似度（ratio）が算出される際の処理について、図２４のフローチャートを参照して説明する。

まず、なぞり操作が開始されると、上述したように表示フレーム番号特定部１９における監視処理により折り返し操作が検知される都度、折り返し操作回数がインクリメントされて計数される（Ｓ３１）。

次に、計数された折り返し回数が偶数か奇数かが判定される（Ｓ３２）。ここで偶数であると判定されたとき（Ｓ３２の「YES」）には、近似度算出式で利用する方向フラグ（flag）が「０」に設定される（Ｓ３３）。また、奇数であると判定されたとき（Ｓ３２の「NO」）には、当該方向フラグ（flag）が「１」に設定される（Ｓ３４）。

次に、ユーザの操作による位置座標情報の移動方向と、対応する基準座標情報の動きベクトルの方向とのなす内角（angle）が取得され、当該内角（angle）が「０度以上４５度未満」のとき（Ｓ３５の「YES」）には、下記式（４）により近似度（ratio）が算出される（Ｓ３６）。

また、内角（angle）が「１３５度超、１８０度以下」のとき（Ｓ３５の「NO」、Ｓ３７の「YES」）には、下記式（５）により近似度（ratio）が算出される（Ｓ３８）。

また、「０度以上４５度未満」および「１３５度超、１８０度以下」のどちらにも該当しないとき（Ｓ３７の「NO」）、近似度が「０」として算出される（Ｓ３９）。

方向フラグが「０」（flag=0）のとき、ステップＳ３５〜Ｓ３９により算出される近似度（ratio）と内角（angle）との関係をグラフに示すと、図２５（ａ）のようになる。

図２５（ａ）のグラフでは、内角「４５度」〜「１３５度」のときは近似度が「０」であり、内角「４５度」から「０度」に近づくにつれて近似度が大きくなり、「０度」のときが最大近似度「１」となる。また、内角「１３５度」から「１８０度」に近づくにつれて近似度が大きくなるが、「１８０度」のときの近似度は「０度」のときの半分の値の「０．５」となる。

つまり、往復するようになぞり操作が行われたときに、操作開始時および偶数回目の折り返し操作が行われ開始時と同方向への操作中は、なぞり操作の移動方向と基準座標情報の動き方向（被写体の動き方向）とが略同方向のときのほうが、略逆方向のときよりも高い近似度となることを示している。このように方向フラグが「０」（flag=0）のときに図２５（ａ）のグラフで示すように近似度を算出する処理を、第１近似度算出処理と称する。

また方向フラグが「１」（flag=1）のとき、ステップＳ３５〜Ｓ３９により算出される近似度（ratio）と内角（angle）との関係をグラフに示すと、図２５（ｂ）のようになる。

図２５（ｂ）のグラフでは、内角「４５度」〜「１３５度」のときは近似度が「０」であり、内角「１３５度」から「１８０度」に近づくにつれて近似度が大きくなり、「１８０度」のときが最大近似度「１」となる。また、内角「４５度」から「０度」に近づくにつれて近似度が大きくなるが、「０度」のときの近似度は「１８０度」のときの半分の値の「０．５」となる。

つまり、往復するようになぞり操作が行われたときに、奇数回目の折り返し操作が行われ開始時と逆方向への操作中は、なぞり操作の移動方向と基準座標情報の動き方向（被写体の動き方向）とが略逆方向のときのほうが、略同方向のときよりも高い近似度となることを示している。このように方向フラグが「１」（flag=1）のときに図２５（ｂ）のグラフで示すように近似度を算出する処理を、第２近似度算出処理と称する。

図９のフローチャートに戻り、算出された近似度に基づいて各フレームの動きスコアが算出される（Ｓ１４）。そしてさらに、映像情報中で最も動きスコアが大きいフレームのフレーム番号が特定され（Ｓ１５、Ｓ１６）、当該特定されたフレーム番号の画像情報が表示される（図２：Ｓ８）。

上述した処理について、第５映像情報が表示された画面の中段付近で図２３のようになぞり操作が行われた場合を用いて、図２６を用いて具体的に説明する。ここで、フレーム番号「15 frame」前後では消防車の動きに沿った右方向の動きベクトルが多く検出されており、フレーム番号「30 frame」前後ではパトカーの動きに沿った左方向の動きベクトルが多く検出されているものとする。

まず、図２３の右側上段に示すように、ユーザが消防車の動きに着目して消防車の動きと同じ右方向へのなぞり操作を開始したとき（flag=0）の算出結果について、図２６の中段に示す。

この右方向へのなぞり操作において、フレーム番号「15 frame」に対してはなぞり操作の方向と消防車の動きベクトルの方向とが一致し内角は０度になるため、近似度は「１」となる（図２６中段中欄）。

一方で、フレーム番号「30 frame」に対してはなぞり操作の方向とパトカーの動きベクトルの方向とが逆になり内角は１８０度になるため、近似度は「０．５」となる（図２６中段右欄）。

このように近似度が算出されたことにより、右方向へなぞり操作を開始したときには、右方向へ動く被写体を含むフレーム番号「15 frame」前後のフレーム画像情報が特定され、順方向に再生されることになる。

その後なぞり操作が左方向に折り返されたとき（flag=1）の算出結果について、図２６の下段に示す。

この左方向へのなぞり操作において、フレーム番号「15 frame」に対してはなぞり操作の方向と消防車の動きベクトルの方向は逆になり内角が１８０度になっているが、折り返されたことにより図２５（ｂ）のグラフに対応して近似度が算出されるため、「１」となる（図２６下段中欄）。

一方で、フレーム番号「30 frame」に対してはなぞり操作の方向とパトカーの動きベクトルの方向とが一致し内角は０度になるが、図２５（ｂ）のグラフに対応して近似度は「０．５」となる（図２６下段右欄）。

このように近似度が算出されたことにより、左方向へ折り返されてなぞり操作が継続されているときには、フレーム番号「15 frame」前後のフレーム画像情報が逆方向に再生されることになる。

その後さらに折り返し操作が行われると折り返しの都度、フラグが「flag=0」と「flag=1」とで変更され、これにより第１近似度算出処理と第２近似度算出処理とが交互に実行されるように切り替えられる。そして１回のなぞり操作中に何度も折り返し操作が行われることで、図２８に示すように、消防車が映っている「10 frame」〜「20 frame」の範囲の近似度が高くなり、この範囲の画像情報が順方向、逆方向に繰り返し再生され、ユーザは画像上で消防車を掴んで動かしているかのような感覚を得ることができる。

次に、図２３の右側下段に示すように、ユーザがパトカーの動きに着目してパトカーの動きと同じ左方向へのなぞり操作を開始したとき（flag=0）の算出結果について、図２７の中段に示す。

この左方向へのなぞり操作において、フレーム番号「15 frame」に対してはなぞり操作の方向と消防車の動きベクトルの方向とが逆になり内角は１８０度になるため、近似度は「０．５」となる（図２７中段中欄）。

一方で、フレーム番号「30 frame」に対してはなぞり操作の方向とパトカーの動きベクトルの方向とが一致し内角は０度になるため、近似度は「１」となる（図２７中段右欄）。

このように近似度が算出されたことにより、左方向へなぞり操作を開始したときには、左方向に移動する被写体を含むフレーム番号「30 frame」前後のフレーム画像情報が順方向に再生されることになる。

その後なぞり操作が右方向に折り返されたとき（flag=1）の算出結果について、図２７の下段に示す。

この右方向へのなぞり操作において、フレーム番号「30 frame」に対してはなぞり操作の方向とパトカーの動きベクトルの方向は逆になり内角が１８０度になっているが、折り返されたことにより図２５（ｂ）のグラフに対応して近似度が算出されるため、「１」となる。

一方で、フレーム番号「15 frame」に対してはなぞり操作の方向と消防車の動きベクトルの方向とが一致し内角は０度になるが、図２５（ｂ）のグラフに対応して近似度は「０．５」となる。

このように近似度が算出されたことにより、右方向へ折り返されてなぞり操作が継続されているときには、フレーム番号「30 frame」前後のフレーム画像情報が逆方向に再生されることになる。

その後さらに折り返し操作が行われると折り返しの都度、フラグが「flag=0」と「flag=1」とで変更され、これにより第１近似度算出処理と第２近似度算出処理とが交互に実行されるように切り替えられる。そして、１回のなぞり操作中に何度も折り返し操作が行われることで、図２８に示すように、パトカーが映っているフレーム番号「25 frame」〜「35 frame」の範囲の近似度が高くなり、この範囲の画像情報が順方向、逆方向に繰り返し再生されるため、ユーザは画像上でパトカーを掴んで動かしているかのような感覚を得ることができる。

上述したように処理が行われることにより、図２２の第５映像情報のように、１本の映像情報中に同じ領域を異なる方向に動く複数の被写体があり、これらが異なるフレーム範囲に映っている場合、ユーザのなぞり操作の開始方向と似た動きベクトルを持つ被写体について、往復して掴んで動かす感覚を提供することが可能になる。時間軸上でみると、なぞり操作の開始時は順方向に再生を行い、その後折り返し操作が行われると逆方向に再生を行うように切り替え、さらに折り返し操作が繰り返し行われると順方向、逆方向の再生を順次切り替えるように処理が行われている。

本実施形態において、例えば図２２の第５映像情報のフレーム番号「10 frame」〜「20 frame」のみで構成されたものを第６映像情報として想定すると、この第６映像情報には一方向に動く一つの被写体（消防車）が１回しか映っていない。

この場合、flag=0（図２５の（ａ））且つ内角（angle）が１８０度の場合、または、flag=1（図２５の（ｂ））且つ内角（angle）が０度の場合にも、近似度は「０．５」が与えられ、動きスコアが算出される。

これにより、例えばユーザが消防車の動きと逆の方向からなぞり操作を始めたとしても、他のフレームで消防車の動きに対する動きスコアを超える動きがなければ、ユーザに消防車を掴んで動かしているかのような感覚を提供することができる。

上述した本実施形態による処理は、被写体が往復運動をしている場合や、水平以外の方向になぞり操作が行われた場合にも同様に、ユーザが注目する被写体の動きを検出することができる。

例えば図２９に示すように、上下方向に往復動作をする被写体が映っている第７映像情報を処理対象とする場合について説明する。

第７映像情報は、フレーム番号「10 frame」から途中の「20 frame」を経て「30 frame」までの21枚のフレーム画像情報を含み、フレーム番号「10 frame」から「20 frame」にかけて人が手を上げ、フレーム番号「20 frame」を区切りに、フレーム番号「20 frame」から「30 frame」にかけて手を下げる動作を行うことで、手を上下方向に往復運動している状況を撮影したものである。

当該第７映像情報において、図２９に示すように、フレーム番号「10 frame」と「20 frame」との間の「15 frame」前後では、画面の中段付近で上方向の動きベクトルが多く検出されており、フレーム番号「20 frame」と「30 frame」との間の「25 frame」前後では、画面の中段付近で下方向の動きベクトルが多く検出されている。

この場合も第５映像情報の処理のときと同様に、なぞり操作の開始時は、当該なぞり操作の方向と一致する（または近い）方向の動きベクトルを有するフレームで高い動きスコアが算出され、なぞり操作が折り返された後には、なぞり操作の方向と真逆（または真逆に近い）方向の動きベクトルを有するフレームで高い動きスコアが算出される。

その結果、図３０に示すように、下から上方向に向かってなぞり操作を始め、折り返しにより往復するようになぞり操作が継続された場合、フレーム番号「10 frame」から「20 frame」の範囲が順方向、逆方向に順次切り替えられて繰り返し再生される。

逆に、上から下方向に向かってなぞり操作を始め、折り返しにより往復するようになぞり操作が継続された場合、フレーム番号「20 frame」から「30 frame」の範囲が順方向、逆方向に順次切り替えられて繰り返し再生される。

このような往復運動をしている被写体の動きを再生させる場合、往復するなぞり操作により実質的には往復双方の運動のすべてを再生できるわけではない。しかし、第７映像情報のように往と復とが見かけ上似ている動作の場合、上述したように順方向、逆方向の再生を繰り返すことで、ユーザ自身は被写体の往復運動を自ら操って操作しているような感覚を得ることができる。

以上の本実施形態によれば、往復運動や同じ領域をすれ違うような動作をする被写体が含まれた映像情報でも、操作感を損なうことなく、ユーザに所望の被写体を掴んで動かすような感覚を提供することができる。また、なぞり操作の開始方向によって、表示するフレームの選択、言い換えると掴んで動かす対象とする被写体の動きを選択することができる、という自由度も提供することができる。ユーザは、右方向に動いている被写体を掴んで動かすように操作したいと思ったときに、通常は右方向になぞり操作を開始させるため、このような有用な効果を得ることができる。

また、上記の各実施形態における映像再生装置の機能構成をプログラム化してコンピュータに組み込むことにより、当該コンピュータを映像再生装置として機能させる映像再生用プログラムを構築することも可能である。

１、２…映像再生装置
１１…映像情報記憶部
１２…フレーム画像情報復号部
１３…フレーム画像選択部
１４…表示部
１５…対象フレーム情報記憶部
１６…動き検出部
１７…検出情報記憶部
１８…入力部
１９…表示フレーム番号特定部
２０…カメラワーク検出部
７１、７２、８１、８２、１３１、１３２、１５１、１５２、１９１、１９２…画面情報

Claims

処理対象の映像を構成する各フレーム画像情報内の、複数の基準座標情報に関する動き方向情報および動き量情報を含む動きベクトルを検出する動き検出手段と、
ユーザにより、前記処理対象の映像が表示された画面上をなぞる操作が実行されたときに、当該操作により連続的に指定される前記画面内の位置座標情報を入力する入力手段と、
前記入力手段で入力された位置座標情報ごとに所定数前に入力された位置座標情報からの移動方向を示す角度情報を取得し、前記各角度情報と前記各基準座標情報の動き方向情報との近似度、および、対応する動き量情報から算出される動きスコアが最も高いフレームのフレーム番号を、前記位置座標情報ごとに特定する表示フレーム番号特定手段と、
前記表示フレーム番号特定手段で特定されたフレーム番号のフレーム画像情報を順次表示する表示手段と
を備えることを特徴とする映像再生装置。
前記フレーム番号特定手段では、フレーム番号を特定する際に利用する、前記角度情報と前記動き方向情報との近似度を、
前記角度情報で示される移動方向と前記基準座標情報の動き方向との内角が直角になるときを最低値とし、
前記角度情報で示される移動方向と前記基準座標情報の動き方向とが同方向または逆方向に近い程、高い値で算出する
ことを特徴とする請求項１に記載の映像再生装置。
前記フレーム番号特定手段は、１回の前記なぞる操作の継続中に行われた、前記位置座標情報の移動方向が略逆方向に変更する折り返し操作の回数を計数し、
前記角度情報と前記動き方向情報との近似度を、
当該なぞる操作の継続中に計数された前記折り返し操作の回数が偶数回である場合には、前記角度情報で示される移動方向と前記基準座標情報の動き方向とが略同方向のときのほうが、略逆方向のときよりも高い値となるように第１近似度算出処理により算出し、当該なぞる操作の継続中に計数された前記折り返し操作の回数が奇数回である場合には、前記角度情報で示される移動方向と前記基準座標情報の動き方向とが略逆方向のときのほうが、略同方向のときよりも高い値となるように第２近似度算出処理により算出することで、前記折り返し操作が行われる都度、前記第１近似度算出処理と前記第２近似度算出処理とを交互に実行するように切り替えて算出した近似度に基づいてフレーム番号を特定する
ことを特徴とする請求項２に記載の映像再生装置。
撮影時のカメラワークまたは手振れに起因して発生した被写体の背景の動きに関する動きベクトルを検出し、前記動き検出手段で取得された動きベクトルから前記被写体の背景の動きに関する動きベクトルを差し引くことで、前記被写体の背景の動きに関する情報を無効化するカメラワーク検出手段をさらに有する
ことを特徴とする請求項１〜３いずれか１項に記載の映像再生装置。
前記カメラワーク検出手段は、前記動き検出手段で検出された動きベクトルを利用して、前記被写体の背景の動きに関する動きベクトルを検出する
ことを特徴とする請求項４に記載の映像再生装置。
映像再生装置が、
処理対象の映像を構成する各フレーム画像情報内の、複数の基準座標情報に関する動き方向情報および動き量情報を含む動きベクトルを検出する動き検出ステップと、
ユーザにより、前記処理対象の映像が表示された画面上をなぞる操作が実行されたときに、当該操作により連続的に指定される前記画面内の位置座標情報を入力する入力ステップと、
前記入力ステップで入力された位置座標情報ごとに所定数前に入力された位置座標情報からの移動方向を示す角度情報を取得し、前記各角度情報と前記各基準座標情報の動き方向情報との近似度、および、対応する動き量情報から算出される動きスコアが最も高いフレームのフレーム番号を、前記位置座標情報ごとに特定する表示フレーム番号特定ステップと、
前記表示フレーム番号特定ステップで特定されたフレーム番号のフレーム画像情報を順次表示する表示ステップと
を有することを特徴とする映像再生方法。
前記フレーム番号特定ステップでは、フレーム番号を特定する際に利用する、前記角度情報と前記動き方向情報との近似度を、
前記角度情報で示される移動方向と前記基準座標情報の動き方向との内角が直角になるときを最低値とし、
前記角度情報で示される移動方向と前記基準座標情報の動き方向とが同方向または逆方向に近い程、高い値で算出する
ことを特徴とする請求項６に記載の映像再生方法。
前記フレーム番号特定ステップでは、１回の前記なぞる操作の継続中に行われた、前記位置座標情報の移動方向が略逆方向に変更する折り返し操作の回数を計数し、
前記角度情報と前記動き方向情報との近似度を、
当該なぞる操作の継続中に計数された前記折り返し操作の回数が偶数回である場合には、前記角度情報で示される移動方向と前記基準座標情報の動き方向とが略同方向のときのほうが、略逆方向のときよりも高い値となるように第１近似度算出処理により算出し、当該なぞる操作の継続中に計数された前記折り返し操作の回数が奇数回である場合には、前記角度情報で示される移動方向と前記基準座標情報の動き方向とが略逆方向のときのほうが、略同方向のときよりも高い値となるように第２近似度算出処理により算出することで、前記折り返し操作が行われる都度、前記第１近似度算出処理と前記第２近似度算出処理とを交互に実行するように切り替えて算出した近似度に基づいてフレーム番号を特定する
ことを特徴とする請求項７に記載の映像再生方法。
撮影時のカメラワークまたは手振れに起因して発生した被写体の背景の動きに関する動きベクトルを検出し、前記動き検出ステップで取得された動きベクトルから前記被写体の背景の動きに関する動きベクトルを差し引くことで、前記被写体の背景の動きに関する情報を無効化するカメラワーク検出ステップをさらに有する
ことを特徴とする請求項６〜８いずれか1項に記載の映像再生方法。
前記カメラワーク検出ステップでは、前記動き検出ステップで検出された動きベクトルを利用して、前記被写体の背景の動きに関する動きベクトルを検出する
ことを特徴とする請求項９に記載の映像再生方法。
請求項１〜５のいずれか１項に記載の映像再生装置を、コンピュータで構成するための映像再生用プログラム。