JP2019149785A

JP2019149785A - 映像変換装置及びプログラム

Info

Publication number: JP2019149785A
Application number: JP2018035252A
Authority: JP
Inventors: 小峯　一晃; Kazuaki Komine; 一晃小峯
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2019-09-05

Abstract

【課題】注目すべき被写体が見やすいように高解像度の映像を低解像度の映像に変換する。【解決手段】映像変換装置１のシーン映像抽出部１１は、入力映像を構成するフレーム群をシーン毎に分割してシーン映像を生成する。主要被写体領域特定部１２は、シーン映像毎に、シーン映像を構成する全て又は一部のフレームそれぞれから得られた画像の特徴量に基づいて主要被写体が含まれる画像の領域である主要被写体領域を特定する。切り出し領域特定部１３は、シーン映像について特定された主要被写体領域に基づいて画像の切り出し領域を特定する。映像変換部１４は、シーン映像を構成する各フレームから、当該シーン映像について特定された切り出し領域の画像を切り出し、切り出された画像を予め定められた映像サイズに拡大又は縮小して変換シーン映像を生成する。シーン映像結合部１５は、シーン毎の変換シーン映像を結合した映像を生成する。【選択図】図２

Description

本発明は、映像変換装置及びプログラムに関する。

近年、映像を多様な表示装置で視聴する機会が増え、放送用に制作された映像が家庭用のテレビのほか、パブリックビューイングなどの大きなスクリーンや、スマートフォンなどの携帯端末で視聴されることがある。

高解像度ディスプレイにより視聴されることを想定して制作した高解像度映像を、携帯端末等の低解像度ディスプレイで視聴する際には、本来必要となる帯域よりも狭い帯域で伝送する必要がある。しかしながら、高解像度ディスプレイだけでなく低解像度ディスプレイでも視聴されるなど、想定されるすべての視聴環境に応じて撮影や映像編集などを行うことは、リソースの制約や効率性などの点から現実的ではない。そこで、圧縮率を高くすることによりデータ量を削減するか、単純に元画像よりも低い解像度に変換（ダウンコンバート）して画像全体を縮小することにより、狭い帯域中にデータ量が収まるように高解像度映像を変換していた。

しかし、圧縮率を高くした場合は、画質が低下してしまう。また、ダウンコンバートして画像全体を縮小した場合は、注目すべき被写体も縮小率に応じて小さくなり、演出意図が正確に反映されないことや、見づらい映像となることはしばしば不可避であった。

一方で、高解像度映像を低解像度の端末装置で表示する際に、受信画像から有用と想定される領域を選択し、選択した領域のみを端末装置の表示画面に表示することで、重要な情報のみを高画質で表示する技術がある（例えば、特許文献１参照）。また、高解像度のセンサで撮影した画像を低解像度の映像信号に変換可能な場合において、着目領域の大きさに応じて解像度を制御し、着目領域の視認性を向上する技術がある（例えば、特許文献２参照）。

特開２００５−２６９０１６号公報特開２０１５−２１１３０２号公報

特許文献１の技術では、一定時間毎に、高解像度の映像を所定の大きさに分割したブロックの単位で表示領域を選択している。そのため、領域選択を行う間隔が長い場合、シーンの切り替えと表示領域の移動のタイミングがずれてしまう可能性がある。シーンの切り替えに対応するために領域選択を行う間隔を短くすると、ブロックの大きさに応じた距離の単位で表示領域が移動するように頻繁に切り替わり、見づらい映像となる可能性がある。また、特許文献２の技術では、表示装置の解像度に合わせて選択領域を構成する画素数（画素密度）を変換するが、画像全体の大きさは変わらないため、小さな画面の端末で映像を表示する際に、注目すべき被写体は縮小されることになるため、小さな表示のままとなる。

本発明は、このような事情を考慮してなされたもので、注目すべき被写体が見やすいように高解像度の映像を低解像度の映像に変換することができる映像変換装置及びプログラムを提供する。

本発明の一態様は、入力映像を構成するフレーム群をシーン毎に分割してシーン映像を生成するシーン映像抽出部と、前記シーン映像毎に、前記シーン映像を構成する全て又は一部のフレームそれぞれから得られた画像の特徴量に基づいて主要被写体が含まれる画像の領域である主要被写体領域を特定する主要被写体領域特定部と、前記シーン映像について特定された前記主要被写体領域に基づいて画像の切り出し領域を特定する切り出し領域特定部と、前記シーン映像を構成する各フレームから、当該シーン映像について特定された前記切り出し領域の画像を切り出し、切り出された前記画像を予め定められた映像サイズに拡大又は縮小して変換シーン映像を生成する映像変換部と、前記シーン毎の前記変換シーン映像を結合した映像を生成するシーン映像結合部と、を備えることを特徴とする映像変換装置である。

本発明の一態様は、上述の映像変換装置であって、前記切り出し領域特定部は、前記主要被写体領域を内包する矩形となるように前記切り出し領域を特定する、ことを特徴とする。

本発明の一態様は、上述の映像変換装置であって、前記主要被写体領域特定部は、前記シーン映像を構成する全て又は一部のフレームそれぞれから得られた画像の特徴量を用いて前記フレーム毎の顕著性マップを生成し、生成した前記顕著性マップの総和を、前記主要被写体領域を表す情報として算出する、ことを特徴とする。

本発明の一態様は、上述の映像変換装置であって、前記主要被写体領域特定部は、解像度を低くした前記シーン映像毎に前記主要被写体領域を特定する、ことを特徴とする。

本発明の一態様は、コンピュータを、上述したいずれかに記載の映像変換装置として機能させるためのプログラムである。

本発明によれば、注目すべき被写体が見やすいように高解像度の映像を低解像度の映像に変換することができる。

本発明の一実施形態による映像変換装置に用いられる高解像度映像から低解像度映像への変換方法の例を示す図である。同実施形態による映像変換装置の機能ブロック図である。同実施形態による映像変換装置の処理の流れを示すフロー図である。同実施形態による顕著性マップの例を示す図である。同実施形態による切り出し領域の例を示す図である。同実施形態による切り出し領域の調整の例を示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。本実施形態は、高解像度の映像を、それより低い異なる解像度に適応的に変換する映像変換装置及びプログラムに関する。

図１は、本実施形態の映像変換装置に用いられる高解像度映像から低解像度映像に変換する方法の例を示す図である。例えば、７６８０×４３２０画素の８Ｋ映像（高解像度映像）を、１９２０×１０８０画素の２Ｋ映像（低解像度映像）に変換することが想定される。高解像度映像を、本来必要となる帯域よりも狭い帯域で伝送するためには、元画像より低い解像度に変換するダウンコンバートを行う方法がある。ダウンコンバートを行うことで画像全体を縮小し、狭い帯域中に映像が収まるように変換することができる。しかし、例えば、８Ｋ映像は、広い画角で視聴することを想定しているため、注目すべき被写体が画像の中心付近に多く、注目すべき被写体が含まれていない余白領域が広い傾向がある。そのため、単純に解像度をダウンコンバートしただけでは、注目すべき被写体も画像全体の縮小率に応じて小さくなる。結果として、演出意図が正確に反映されない映像となる可能性や、見づらい映像となる可能性があった。

上記の可能性を避ける方法として、単純なダウンコンバートにより映像全体を縮小して表示するのではなく、注目すべき主要な被写体の周辺の映像を適切に切り出して表示する方法や、さらには切り出した映像を縮小する方法がある。これにより、注目すべき被写体が小さくなりすぎることを回避し、演出意図が伝わりやすく、見やすい映像を提供できる可能性がある。しかしながら、この注目すべき主要な被写体周辺を切り出す際に手動で領域を指定することは、撮影と同等の労力が必要となる。特に、大量の映像を変換する場合には現実的ではなく、自動的に領域を抽出する方法が望まれる。

そこで、本実施形態の映像変換装置は、映像の一部を切り出して解像度を変換する際に、切り出す領域の大きさと位置を映像の特徴から自動的に決定し、所望のサイズの映像を出力する。具体的には、映像変換装置は、入力映像において主要な被写体が含まれる領域を、顕著性マップを利用することによって特定し、その特定した領域が単一の映像シーン内で移動する範囲を求める。顕著性マップは、人の視覚情報処理モデルに基づいて画像の特徴量を分析して得られた、注目されやすい領域を表す。映像変換装置は、この求めた範囲に基づいて該当シーンに適した切り出し領域を特定し、切り出し領域のサイズが所望の映像サイズと異なる場合はサイズを変換する。

本実施形態により、映像変換装置は、狭い帯域で映像を伝送する際や、表示解像度の低いディスプレイで映像を表示する際にも、表示装置に合わせて各シーンの主要な被写体が適切な大きさで表示されるように、高解像度映像をより低い解像度の映像に変換することができる。これにより、映像変換装置は、演出意図が伝わりやすく、見やすい映像を提供することができる。さらには、映像変換装置は、映像特徴を利用して自動で映像を変換するため、効率的な映像制作が可能となる。

図２は、本発明の一実施形態のよる映像変換装置１の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図に示す映像変換装置１は、シーン映像抽出部１１、主要被写体領域特定部１２、切り出し領域特定部１３、映像変換部１４及びシーン映像結合部１５を備える。

映像変換装置１には、入力映像Ｄ１が入力される。入力映像Ｄ１は、解像度変換の対象となる映像である。入力映像Ｄ１は、例えば、８Ｋ、４Ｋなどの大きな伝送容量を必要とする高解像度映像である。映像変換装置１は、この入力映像Ｄ１を、例えば２Ｋなどのよりデータ量の小さい低解像度映像に変換し、出力映像Ｄ６として出力する。

シーン映像抽出部１１は、入力映像Ｄ１をシーン映像Ｄ２に分割する。シーン映像Ｄ２は、編集点（カットや各種トランジション効果などのシーン変化）を含まない単一のシーンから構成されるフレーム群である。シーン映像抽出部１１は、入力映像Ｄ１を、分割されたシーン映像Ｄ２ごとに主要被写体領域特定部１２及び映像変換部１４に出力する。

主要被写体領域特定部１２は、シーン映像Ｄ２のなかで注目すべき被写体（主要被写体）の領域を特定する。この領域を、主要被写体領域と記載する。主要被写体領域特定部１２は、主要被写体領域を特定可能な情報を生成するために、人間の空間的な注意の位置を推定する顕著性マップを使用する。主要被写体領域特定部１２は、シーン映像Ｄ２を構成する各フレームの顕著性マップを算出する。主要被写体領域特定部１２は、それら顕著性マップの総和に基づいてシーン全体において主要被写体分布が高い領域を表す情報であるシーン内被写体領域分布Ｄ３を求める。

切り出し領域特定部１３は、シーン内被写体領域分布Ｄ３により特定される主要被写体領域を内包する最小の矩形となるように、シーン映像Ｄ２から切り出す領域を決定する。切り出し領域特定部１３は、切り出し領域の座標を特定すると、その座標を表す情報である切り出し領域座標Ｄ４を映像変換部１４に出力する。

映像変換部１４は、シーン映像Ｄ２を構成する各フレームから切り出し領域座標Ｄ４に基づいて画像を切り出す。映像変換部１４は、シーン映像Ｄ２の各フレームから切り出した画像をそれぞれ、予め定められた目的の映像サイズ（例えば、２Ｋ：１９２０×１０８０）に縮小あるいは拡大し、縮小又は拡大された各画像のフレームからなる変換シーン映像Ｄ５を得る。

シーン映像結合部１５は、映像変換部１４により画像の大きさが変換された各シーンの変換シーン映像Ｄ５を結合して出力映像Ｄ６を生成する。シーン映像結合部１５は、生成した出力映像Ｄ６を出力する。

図３は、映像変換装置１の処理の流れを示すフロー図である。
初期状態において、シーン映像抽出部１１は、入力映像Ｄ１の入力を待機している（ステップＳ１）。入力映像Ｄ１は、例えば、複数のシーンが結合された１つの映像である。複数の映像を映像変換装置１に入力する場合、入力映像Ｄ１を、それらの映像が結合された１つの映像としてもよい。

シーン映像抽出部１１は、入力映像Ｄ１が入力されると、編集点を区切りとして、入力映像Ｄ１から編集点が含まれないシーン映像Ｄ２を抽出する（ステップＳ２）。編集点の検出には、既存の任意の方法を用いることができる。例えば、シーン映像抽出部１１は、入力映像Ｄ１を構成する各フレームの特徴量を算出し、算出した特徴量の変化が所定以上である場合に、編集点と判断する。

シーン映像抽出部１１は、入力映像Ｄ１の編集点を検出する度に、入力映像Ｄ１から抽出したシーン映像Ｄ２を抽出して主要被写体領域特定部１２及び映像変換部１４に出力する。なお、シーン映像抽出部１１は、入力映像Ｄ１の全体をシーン映像Ｄ２に分割した後、各シーン映像Ｄ２を順に主要被写体領域特定部１２及び映像変換部１４に出力してもよい。映像変換装置１は、各シーン映像Ｄ２についてステップＳ３〜ステップＳ７の処理を行う。

主要被写体領域特定部１２は、シーン映像Ｄ２から主要被写体の分布を抽出する（ステップＳ３）。具体的には、まず、主要被写体領域特定部１２は、シーン映像Ｄ２に属する各フレームそれぞれの顕著性マップを算出する。

図４は、顕著性マップの例を示す図である。同図では、１つのシーン映像Ｄ２に含まれるフレームＦ１〜Ｆ６それぞれの顕著性マップの例を示している。顕著性マップを算出するモデルとしては、以下の参考文献１〜３など様々なものが提案されているが、何れのモデルを用いたマップを使用してもよい。参考文献１〜３には、人の視覚情報処理モデルに基づいて画像の特徴量を分析し、画像内の画素ごとの注目されやすさを数値化した顕著性マップを推定するモデルが記載されている。

（参考文献１）L. Itti，外２名，"A Model of Saliency-Based Visual Attention for Rapid Scene Analysis"，IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE，1998年，VOL. 20，NO.11，p.1254-1259
（参考文献２）O. Le Meur，外２名，"Predicting visual fixations on video based on low-level visual features"，Vision Research 47，2007年，p.2483-2498
（参考文献３）Neil D. B. Bruce，外１名，"Saliency, attention, and visual search: An information theoretic approach"，Journal of Vision，2009年，9(3) ，p.1-24

顕著性マップは、例えば、以下のように算出される。まず、特徴量の種類（色、輝度値、動きベクトルなど）別に、フレーム画像の画素ごとの特徴量の値を算出したマップを生成し、さらに、フレーム画像のスケールを１／２、１／４、１／８、…のように小さくしたときの特徴量の値のマップを生成する。そして、特徴量の種類別に、スケール間のマップの差を求めることによって特徴量の値の差分を強調した特徴マップを作成した後、各種類の特徴量について作成した特徴マップを線形結合し、画素ごとに顕著性の程度を数値化した顕著性マップを算出する。

主要被写体領域特定部１２は、顕著性マップを算出する際に、計算量を減らすために、入力映像Ｄ１の解像度よりも低い解像度にダウンコンバートした映像のフレーム画像を用いてもよい。ダウンコンバートした映像のフレーム画像を用いることにより、複数の画素からなる領域であるブロックごとに顕著性の程度を数値化した顕著性マップを算出することができる。また、主要被写体領域特定部１２は、主要被写体の分布の算出のために用いる画像として、シーン映像Ｄ２を構成するすべてのフレームの画像を用いてもよく、所定間隔のフレームなど一部のフレームの画像を用いてもよい。

ステップＳ３の処理の後、図３のフロー図に示すように、主要被写体領域特定部１２は、被写体移動領域を解析する（ステップＳ４）。具体的には、主要被写体領域特定部１２は、ステップＳ３において算出した顕著性マップ（図４）を用いてシーン内被写体領域分布Ｄ３を算出する。

図５は、シーン内被写体領域分布Ｄ３の例を示す図である。主要被写体領域特定部１２は、ステップＳ３において同一のシーン映像Ｄ２の全フレームそれぞれ又は一部のフレームそれぞれについて算出した顕著性マップの総和を算出する。主要被写体領域特定部１２は、顕著性マップの総和を正規化し、顕著性の確率密度分布を求める。正規化では、全画素又は全ブロックの顕著性の程度を表す数値の総和が１となるようにする。正規化により得られた確率密度分布は、シーン内における主要被写体の移動を考慮したシーン内被写体領域分布Ｄ３となる。なお、主要被写体領域特定部１２は、顕著性マップの総和を算出する前に、各フレームの顕著性マップを正規化してもよい。

ステップＳ４の処理の後、図３のフロー図に示すように、切り出し領域特定部１３は、シーン内被写体領域分布Ｄ３に基づいて、フレーム画像からの切り出し領域を表す切り出し領域座標Ｄ４を特定する（ステップＳ５）。シーン内被写体領域分布Ｄ３のピーク値をｈとする。切り出し領域特定部１３は、図５に示すように、シーン内被写体領域分布Ｄ３において確率分布がピーク値ｈから一定の割合ｒ以上（ｒは１以下の正の数。）となる領域が含まれる矩形領域を切り出し領域Ｒとして特定する。その際、切り出し領域特定部１３は、予め決められた変換後の映像のアスペクト比（例えば、横:縦＝１６：９）に合わせて、確率分布がｒ×ｈ以上の領域を内包する、可能な限り小さな矩形領域を切り出し領域Ｒとする。例えば、ｒ＝０．５であるが、ｒの値は入力映像Ｄ１に応じて任意に決めてもよい。なお、切り出し領域特定部１３は、確率分布がｒ×ｈ以上の領域を内包する、可能な限り小さな矩形領域を特定し、さらに、特定した矩形領域を所定画素数分又は特定した矩形領域応じた画素数分、大きく又は小さくして切り出し領域Ｒとしてもよい。

なお、アスペクト比との関係から切り出し領域の位置に不定性がある場合、切り出し領域特定部１３は、シーン内被写体領域分布Ｄ３におけるピークの位置、又は、累積確率分布の中央値となる位置を矩形領域（切り出し領域Ｒ）の中心となる位置としてもよい。あるいは、切り出し領域特定部１３は、領域内の確率分布の積分が最大となる位置を切り出し領域Ｒとしてもよい。この積分は、領域内の顕著性の程度を表す数値の総和に相当する。

図６は、切り出し領域の調整の例を示す図である。確率分布に基づいて矩形領域Ａ１を特定した場合、矩形領域Ａ１が、シーン映像Ｄ２のフレーム画像Ｆの外側の領域を含むことがある。この場合、切り出し領域特定部１３は、フレーム画像Ｆの外側にある矩形領域Ａ１の辺が、矩形領域Ａ１内に含まれるフレーム画像Ｆの辺と重なるように、矩形領域Ａ１をフレーム画像Ｆの方向に移動させた位置の矩形領域Ａ２を切り出し領域Ｒとして決定する。同図では、矩形領域Ａ１がフレーム画像Ｆの上の辺の一部を含むため、矩形領域Ａ１の上の辺と、矩形領域Ａ１に含まれていたフレーム画像Ｆの上の辺とが重なるように、矩形領域Ａ１を下方向に移動させた矩形領域Ａ２を切り出し領域Ｒとする。

切り出し領域特定部１３は、特定した切り出し領域Ｒの座標を示す切り出し領域座標Ｄ４を映像変換部１４に出力する。例えば、切り出し領域座標Ｄ４は、切り出し領域Ｒの４つの頂点の座標でもよく、切り出し領域Ｒの対角の２つの頂点の座標でもよく、切り出し領域Ｒの１つの頂点の座標と縦及び横の長さでもよい。

次に、図３のフロー図に示すように、映像変換部１４は、シーン映像Ｄ２を構成するすべてのフレーム画像それぞれから、切り出し領域座標Ｄ４が示す切り出し領域Ｒを切り出す領域切り出し処理を行う（ステップＳ６）。映像変換部１４は、ステップＳ６において切り出されたすべてのフレーム画像を、目的の映像サイズに縮小または拡大する。映像変換部１４は、これらの縮小または拡大されたフレーム画像を結合し、シーン映像Ｄ２よりも解像度が低い変換シーン映像Ｄ５を作成する（ステップＳ７）。映像変換部１４は、作成した変換シーン映像Ｄ５をシーン映像結合部１５に出力する。

シーン映像抽出部１１は、入力映像Ｄ１を構成するすべてのシーン映像Ｄ２について変換シーン映像Ｄ５が得られているかを判断する。シーン映像抽出部１１は、変換シーン映像Ｄ５が得られていないシーン映像Ｄ２があると判断すると（ステップＳ８：ＮＯ）、ステップＳ２に戻って次のシーン映像Ｄ２の抽出処理を行う。シーン映像抽出部１１は、すべてのシーン映像Ｄ２について変換シーン映像Ｄ５が得られたと判断すると（ステップＳ８：ＹＥＳ）、シーン映像結合部１５に全シーン終了を通知する。この通知を受けたシーン映像結合部１５は、入力映像Ｄ１を構成するすべてのシーン映像Ｄ２それぞれに基づいて得られた変換シーン映像Ｄ５を結合し、出力映像Ｄ６として出力する（ステップＳ９）。

なお、ステップＳ５において、切り出し領域特定部１３は、目的の映像サイズに応じて予め決められた大きさの矩形領域を切り出し領域Ｒとしてもよい。切り出し領域Ｒの大きさは、目的の映像サイズと同じ又は大きなサイズであるが、小さいサイズとしてもよい。この場合、切り出し領域特定部１３は、上述した切り出し領域の位置に不定性がある場合と同様に、切り出し領域Ｒとなる矩形領域を特定することができる。切り出し領域Ｒが目的と同じサイズである場合、映像変換部１４は、ステップＳ６において切り出されたすべてのフレーム画像の映像サイズを変更することなく結合して変換シーン映像Ｄ５を作成することができる。

上述した映像変換装置１は、例えば、番組等のコンテンツを放送又は通信により配信するコンテンツ提供事業者が、高解像度で作成されたコンテンツの映像を、配信先の表示装置の種類に合わせた解像度に変換するために使用することができる。また、視聴者宅に映像変換装置１を設置し、コンテンツ提供事業者から配信された高解像度のコンテンツの映像を、視聴に使用する表示装置に合わせた解像度の映像に変換するために使用することができる。この場合、映像変換装置１は、例えば、視聴者の表示装置又は録画装置に実装されてもよく、表示装置又は録画装置と接続される装置であってもよい。映像変換装置１は、予めテレビジョン受信機やタブレット端末、スマートフォンなどの表示装置に設定されている情報又は視聴者の操作によって表示装置に入力された情報を表示装置から受信し、受信した情報に基づいて出力映像Ｄ６の映像サイズを決定してもよい。この情報は、例えば、解像度又は規格を示す情報でもよく、表示装置の種類の情報でもよい。

本実施形態の映像変換装置１は、撮影した高解像度映像から多様なフォーマットの映像を制作・変換する際に有用である。また、映像変換装置１は、小型の表示装置を有する携帯端末などに高解像度映像の一部を表示するサービスを実施する場合に、表示位置の既定値を機械的に算出して提供する技術としても有用である。

なお、上述の映像変換装置１は、内部にコンピュータシステムを有している。そして、映像変換装置１の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

１…映像変換装置、１１…シーン映像抽出部、１２…主要被写体領域特定部、１３…切り出し領域特定部、１４…映像変換部、１５…シーン映像結合部

Claims

入力映像を構成するフレーム群をシーン毎に分割してシーン映像を生成するシーン映像抽出部と、
前記シーン映像毎に、前記シーン映像を構成する全て又は一部のフレームそれぞれから得られた画像の特徴量に基づいて主要被写体が含まれる画像の領域である主要被写体領域を特定する主要被写体領域特定部と、
前記シーン映像について特定された前記主要被写体領域に基づいて画像の切り出し領域を特定する切り出し領域特定部と、
前記シーン映像を構成する各フレームから、当該シーン映像について特定された前記切り出し領域の画像を切り出し、切り出された前記画像を予め定められた映像サイズに拡大又は縮小して変換シーン映像を生成する映像変換部と、
前記シーン毎の前記変換シーン映像を結合した映像を生成するシーン映像結合部と、
を備えることを特徴とする映像変換装置。
前記切り出し領域特定部は、前記主要被写体領域を内包する矩形となるように前記切り出し領域を特定する、
ことを特徴とする請求項１に記載の映像変換装置。
前記主要被写体領域特定部は、前記シーン映像を構成する全て又は一部のフレームそれぞれから得られた画像の特徴量を用いて前記フレーム毎の顕著性マップを生成し、生成した前記顕著性マップの総和を、前記主要被写体領域を表す情報として算出する、
ことを特徴とする請求項１又は請求項２に記載の映像変換装置。
前記主要被写体領域特定部は、解像度を低くした前記シーン映像毎に前記主要被写体領域を特定する、
ことを特徴とする請求項１から請求項３のいずれか一項に記載の映像変換装置。
コンピュータを、請求項１から請求項４のいずれか一項に記載の映像変換装置として機能させるためのプログラム。