JP2014209707A

JP2014209707A - 映像再生装置および映像再生方法

Info

Publication number: JP2014209707A
Application number: JP2013218554A
Authority: JP
Inventors: 彰松原; Akira Matsubara; 前田　和彦; Kazuhiko Maeda; 和彦前田
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2013-03-25
Filing date: 2013-10-21
Publication date: 2014-11-06
Also published as: US9111363B2; US20140286625A1

Abstract

【課題】入力された映像を加工することでカメラワークを考慮した迫力感等ある映像をユーザーに提示することのできる映像再生装置を提供する。
【解決手段】取得した映像を加工して再生する映像再生装置１００であって、映像に登場する人物画像の時系列で変化する大きさおよび位置を検出する顔認識部２２０と、再生される映像に示される人物画像が所定の大きさとなるように、（ｉ）検出された人物画像の位置の変化に応答して映像の一部の切り抜き範囲を決定し、かつ、（ｉｉ）切り抜き範囲に示される映像の一部である部分映像に対し、検出された人物画像の大きさの変化に応答して、拡大または縮小を行うことで、再生される映像を生成する生成部２０４と、生成部２０４により生成された映像を再生する映像再生部２６０とを備え、生成部２０４による切り抜き範囲の決定における応答時間は、部分映像の拡大または縮小における応答時間よりも長い。
【選択図】図２

Description

本発明は、取得した映像を加工して再生する映像再生装置に関する。

特許文献１は、画像処理装置を開示する。この画像処理装置は、入力画像の被写体の顔部分を検出し、抽出した顔部分の画像と、入力画像の一部を切り出して拡大または縮小した画像とを、合成させて表示させている。

また、特許文献２においては、入力画像から対象物の位置を取得し、対象物を、切り出し枠内に収める動画像編集装置が開示されている。

特開２０１０−８１１８１号公報特開２００７−７４５０３号公報

本開示は、入力された映像（動画像）に対して、被写体に対して適切な切り抜きを行い、拡大または縮小して表示させ、カメラワークを考慮した迫力感等ある映像をユーザーに提示することのできる映像再生装置を提供する。

上記課題を解決するために、本開示にかかる映像再生装置は、取得した映像を加工して再生する映像再生装置であって、前記映像に登場する人物画像の時系列で変化する大きさおよび位置を検出する検出部と、再生される映像に示される前記人物画像が所定の大きさとなるように、（ｉ）検出された前記人物画像の位置の変化に応答して前記映像の一部の切り抜き範囲を決定し、かつ、（ｉｉ）前記切り抜き範囲に示される前記映像の一部である部分映像に対し、検出された前記人物画像の大きさの変化に応答して、拡大または縮小を行うことで、再生される映像を生成する生成部と、前記生成部により生成された映像を再生する再生部とを備え、前記生成部による前記切り抜き範囲の決定における応答時間は、前記部分映像の拡大または縮小における応答時間よりも長い。

本開示は、例えば家庭用ビデオカメラで撮影された映像に対して処理を行うことで、カメラワークを考慮した迫力感等ある映像をユーザーに提示することができる映像再生装置を提供できる。

実施の形態１における映像再生システムの全体構成図実施の形態１におけるマイコンの機能構成を示すブロック図映像再生装置が出力するサムネイルの例を示す図実施の形態１における顔認識部の機能構成を示すブロック図顔認識部の処理を説明するための顔データ等の模式図マイコンが生成するＧＵＩの一例を示す図映像再生装置が映像を再生する際の動作の流れを示すフローチャート再生先頭シーンの選択に用いられるサムネイルの例を示す図映像再生装置が出力する効果選択画面の一例を示す図映像再生装置が表示する人物選択画面の一例を示す図映像再生装置が着目再生を行う場合の基本的な処理の流れの一例を示すフローチャート実施の形態１における人物データ処理部の機能構成を示すブロック図顔画像のサイズの時系列における変化の一例を示す図フィルタを適用した後の顔画像のサイズの変化の一例を示す図映像再生装置が出力する、着目再生における映像の一例を示す模式図顔画像の位置の時系列における変化の一例を示す図フィルタを適用した後の顔画像の位置の変化の一例を示す図実施の形態２における人物データ処理部の機能構成を示すブロック図実施の形態２の人物データ処理部におけるレベル判定後の顔画像の大きさの変化の一例を示す図

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、発明者らは、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

（実施の形態１）
本開示の実施の形態１における映像再生装置ついて図面を参照して説明する。

［映像再生システムの概要］
実施の形態１における、映像撮影および映像再生のシステムについて説明する。

図１は、実施の形態１における、映像カメラ５００を備えた映像再生システムの全体構成図である。

図１において、映像カメラ５００によって撮影された映像は、ネットワーク５１０を介して、サーバ５２０に映像データとして保存される。

映像再生装置１００は、映像カメラ５００で撮影された映像を取得し、映像を再生し、ＨＤＭＩ（登録商標）（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）１５０を介して、テレビまたはタブレット端末などである映像表示装置８００に表示する。

映像表示装置８００は、ＨＤＭＩ（登録商標）１５０対応の信号入力部を有し、ＨＤＭＩ（登録商標）１５０を通じて入力された映像を画面に表示する。

サーバ５２０に保存された映像データは、ネットワーク５１０を介して映像再生装置１００が有するＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）インターフェース５３０を介して、映像再生装置１００のＨＤＤ（ＨａｒｄＤｉｓｃｋＤｒｉｖｅ）１６０（記録装置）に移動し、コピーされる。

当該記録装置としては、上述のＨＤＤ以外にも例えばメモリ装置を採用することができる。また、本実施の形態では、映像再生装置１００に入力された映像はその格納する容量を少なくするために圧縮してＨＤＤ１６０に格納される。しかし、圧縮をせずに撮影したままの映像である、ベースバンドの信号である映像データとしてＨＤＤ１６０に記録されても構わない。

また、映像カメラ５００を直接映像再生装置１００にＵＳＢ接続し、撮影した映像データをＵＳＢスロット１１０を通じて映像再生装置１００に移動またはコピーすることもできる。また、ＳＤカード１７０などの可搬型記録メディアに映像カメラ５００を用いて映像データを記録し、映像再生装置１００のＳＤカードスロット１２０を介して、ＳＤカード１７０に記録された映像データが映像再生装置１００に移動またはコピーされてもよい。

さらに、映像カメラ５００で撮影された映像は、放送コンテンツとして提供され、チューナ１９０を介して映像再生装置１００に受信され、映像再生装置１００に保存されてもよい。また、映像カメラ５００で撮影された映像は、光ディスクなどに記録され、ＢＤドライブ１３０から入力されてもよい。

映像カメラ５００で撮影された映像は、上述した様々な方法で、映像再生装置１００のＨＤＤ１６０に映像データとして保存される。

映像再生装置１００は、例えば、映像カメラ５００、サーバ５２０、または、映像表示装置８００と一体となったものでもよい。しかし、実施の形態１における映像再生システムでは、映像再生装置１００は単独で存在するものとして説明する。

［映像再生装置１００の構成］
映像再生装置１００では、ユーザーに操作されるリモコン８１０から送信される指示を、赤外線受光部１４０が受け付ける。当該指示は赤外線受光部１４０を介して、内部のマイコン１８０に伝えられる。

マイコン１８０は、かかるユーザーの指示をもとに、ＨＤＤ１６０に映像データを保存する、ＨＤＤ１６０から映像データを取り出す、および、ＨＤＭＩ（登録商標）１５０に映像を出力する、などの処理が実行されるように、映像再生装置１００の各ブロックの制御を行なう。

［マイコン１８０機能の構成］
図２は、実施の形態１におけるマイコン１８０の機能構成を示すブロック図である。つまり、図２では、マイコン１８０を機能ごとに、各ブロックに分離して記載している。

マイコン１８０は、映像再生装置１００における主要な機能構成として、顔認識部２２０と、生成部２０４と、映像再生部２６０とを備える。以下に、マイコン１８０の具体的な構成および処理等を説明する。

ＨＤＤ１６０に保存された映像データは圧縮されているため、デコーダ２５０によってベースバンドの動画像にデコードされ、ＨＤＭＩ（登録商標）１５０を介して、映像表示装置８００に表示される。これにより、当該映像データは、再生された映像として鑑賞することが可能となる。映像は例えば毎秒３０フレームの動画像として表示される。

なお、映像再生部２６０は、デコーダ２５０から得られる映像に対し、切り抜きおよび拡大等の加工を行ってＨＤＭＩ（登録商標）１５０を介して出力することができる。映像再生部２６０による映像に対する加工の内容については後述する。

また、ＨＤＤ１６０に保存された映像データは、再生される前にあらかじめ、デコーダ２００によりデコードされ、さらに、映像間引き部２１０によって、数フレームごとに１枚のフレームが顔認識部２２０に入力される。

顔認識部２２０は、検出部の一例であり、映像データに示される映像に登場する人物の顔の、時系列で変化する位置および大きさを検出する。なお、顔認識部２２０による位置およびサイズの検出の対象となる、「顔」の画像は、人物画像の一例である。

顔認識部２２０はさらに、その顔を登場人物ごとに分類して、登場人物ごとの顔の位置および大きさを認識して、その顔の位置および大きさのデータ（顔認識データ）をメモリで構成されるデータベース２３０に格納する。なお、データベース２３０には、映像の再生時間（再生開始からの時刻）と登場人物との対応付けも格納される。

データベース２３０に格納された、登場人物ごとの顔認識データは、例えばユーザーの指示に応じて、人物データ処理部２４０によって処理され、デコーダ２５０によるデコードにより得られた映像を再生する映像再生部２６０にメモリ６００を介して入力される。映像再生部２６０に入力されるデータは、対象情報の一例であり、生成部２０４における、入力映像からの部分映像の切り抜き、および、部分映像の拡大または縮小のための指標として用いられる。生成部２０４によるこのような処理により生成された映像は、映像再生部２６０で再生され、ＨＤＭＩ（登録商標）１５０を介して、映像表示装置８００に表示される。

なお、本実施の形態では、再生される映像を生成する生成部２０４が、生成された映像を再生する映像再生部２６０に含まれているが、生成部２０４は、映像再生部２６０の外部の機能ブロックとして存在してもよい。

映像再生装置１００のマイコン１８０はさらに、サムネイル生成部２８０およびサムネイル表示部２９０を有する。サムネイル生成部２８０は、デコーダ２００でデコードされた映像から、データベース２３０に保存された顔認識データに従って、映像の区切り部分のフレームから得られる画像をサムネイルとして保存する。サムネイル表示部２９０は、そのサムネイルをＨＤＭＩ（登録商標）１５０に送出することで、当該サムネイルを映像表示装置８００に表示させる。

サムネイル生成部２８０は、映像の区切り位置でのフレームの全体画像を示すサムネイルと、顔認識部２２０で検出された顔を中心として、全体画像から切り抜いた人物サムネイルとを生成する。図３は、これらサムネイルを示す模式図である。

コントローラ２７０は、これらマイコン１８０に含まれる各部に対し、リモコン８１０を通じて受けたユーザーの指示に基づいた制御を行なう。コントローラ２７０は、ソフトウェアを解釈して実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサによって構成することができる。

図４Ａは、顔認識部２２０の機能構成を示すブロック図である。図４Ｂは、顔認識部２２０の処理を説明するための顔画像のデータ（顔データ）等の模式図である。

図４Ａにおいて、顔検出部３００は、顔認識部２２０に入力された映像（ここでは画像（例えば１枚のフレーム）と呼ぶ）の中から、顔の特徴を持つ部分を探索する。顔検出部３００用に、複数の大きさを持った顔データがメモリ３１０に格納されており、顔検出部３００は、探索対象の画像全体をスキャンして、複数の顔データと比較することによって、顔の位置と大きさとを検出する。

探索対象の画像全体に渡って、スキャンして比較をするので、比較する顔データとして、例えば、縦、横のそれぞれの画素が、３２画素ｘ３２画素の大きさ、および、４８画素ｘ４８画素の大きさといった所定の大きさのデータが用いられる。顔検出部３００は、これら顔データと、探索対象の画像との重ね合わせ位置をずらしながら、マッチング確認を行なっている。

図４Ｂにおいて、入力画像の模式図をＡ１として、顔の位置と大きさが検出された様子の模式図をＡ２として示している。Ａ３は、比較に用いられる、互いに大きさの異なる複数の顔データの模式図である。

顔検出部３００によって検出された顔から、個人の特徴を認識するための特徴量が、特徴量抽出部３２０によって抽出され、メモリ３３０に保存される。図４ＢにおけるＡ４は、Ａ２から得られた顔の位置に対して、特徴量を抽出する位置を黒点で表した模式図である。

メモリ３３０に保存された特徴量データから、特徴量比較部３４０にて、過去の画像に登場して、その画像から検出された顔を持った人物（人物ａ）と照合を行なう。照合の結果、当該特徴量データに対応する顔が、過去に認識された人物ａの顔と同じと判断した場合には、人物ａの顔と認識し、人物ａと異なる顔と判断した場合には、別の人物の顔として認識する。特徴量比較部３４０は、それぞれの人物ごとの顔のＩＤ（顔ＩＤ）を、検出された顔データ（Ａ２）に付与する。

クラスタリング部３５０は、特徴量比較部３４０が付与した顔ＩＤを統合し、動画特徴を使って、例えば一つ前の画像で同じ位置に認識された顔は、同一人物の顔であると判定するなど処理により、各顔データを、各人物の顔データに紐付けしてゆく。つまり、複数の顔データが類似度等に応じてクラスタリングされる。図４ＢにおけるＡ５は、クラスタリングされた複数の顔データ（顔画像）を表す模式図である。

クラスタリング部３５０はさらに、時間ごとの各人物の顔画像の位置およびサイズを示すデータ（顔認識データ）をデータベース２３０に保存する。

つまり、映像に登場する人物画像の時系列で変化する大きさおよび位置が検出され、検出された前記人物画像の大きさおよび位置を示すデータがデータベース２３０に保存される。

映像再生装置１００では、このようにして、登場人物ごとの顔の位置および大きさを求め、入力画像ごと（入力映像に含まれるフレームごと）に、その登場人物ごとの顔の位置および大きさを顔認識データとしてデータベース２３０に蓄積してゆく。

この時系列に並べられた、一連の各人物の顔の位置およびサイズのデータをデータベース２３０に保存する作業をトラッキングと呼ぶ。

［再生コンテンツの選択動作の説明］
次に、データベース２３０に蓄積された顔認識データをもとに、映像を再生する動作について説明する。

図５は、マイコン１８０が生成するＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）の一例を示す図である。マイコン１８０が生成したＧＵＩはＨＤＭＩ（登録商標）１５０を通じて映像表示装置８００で表示される。このＧＵＩが映像表示装置８００に表示されている間、映像再生装置１００は、例えばユーザーによる再生指示をリモコン８１０から受ける。

図５において、各カラムＢ１〜Ｂ５は、ＨＤＤ１６０に保存された映像コンテンツのタイトル（映像タイトル）の一覧を表示する。

各カラムには、タイトルＣ１、および、再生シーンを示すサムネイルＤ１が表示される。

当該ＧＵＩにおいて、ユーザーは、リモコン８１０の操作によって、再生タイトルを選択することが可能であり、カラムＢ３のように、選択されたカラムは、例えば拡大して表示されるなど、強調表示される。

各カラムにおける１以上のサムネイルＤ１は、当該カラムの映像コンテンツの全体図を表示している。

具体的には、顔認識部２２０によって、検出および認識された結果に基づき、１つの映像コンテンツの中において、複数の人物のそれぞれが最初に登場するごとに、当該人物を含むサムネイルＤ１が、サムネイル生成部２８０によって生成される。また、生成されたサムネイルＤ１のそれぞれは、時系列で並べられて、当該映像コンテンツに対応するカラムに表示される。

このようにして、ユーザーは各映像コンテンツの中で、人物が始めて登場するシーンをサムネイルＤ１で知ることができ、それを選択して再生することができる。このように、ユーザーは、図５に示したＧＵＩ画面をたよりに、映像コンテンツの再生の指示、つまり、再生コンテンツの選択をすることができる。

サムネイルＤ１は、新たな登場人物が登場するたびに生成され、例えば、カラムの大きさを限度とする数のサムネイルＤ１が、図５に示すＧＵＩに表示される。

［再生動作の説明］
次に、ユーザーが再生したい映像コンテンツ（以下、単に「映像」または「コンテンツ」ともいう。）を選択して、リモコン８１０を通じて再生指示をすることで、当該コンテンツの再生を行う際の映像再生装置１００の動作を、図６を参照しながら説明する。

図６は、映像再生装置１００が、データベース２３０に蓄積された顔認識データに基づいて映像を再生する際の動作の流れを示すフローチャートである。

図６において、再生開始（Ｓ１００）は、ユーザーが、再生したいコンテンツを選択したことを示している。次に、ユーザーは、ＧＵＩによる誘導により、再生方法を選択する。

再生方法としては、例えば、通常再生、指定位置再生、および、着目再生がある。

［通常再生］
ユーザーが通常再生を選択した場合（Ｓ１１０で「通常再生」）、映像再生装置１００は、該当コンテンツの最初から再生（Ｓ１２０）を行なう。

［指定位置再生］
ユーザーが、指定位置再生を選択した場合（Ｓ１１０で「指定位置再生」）、次に、ユーザーは、図５のサムネイルＤ１などをたよりに、そのコンテンツ内で、再生を開始すべき位置を指定する。これにより、映像再生装置１００では、いずれかの人物が最初に登場したところから再生をスタートする。

つまり、指定位置再生では、複数のサムネイルＤ１のいずれかが選択されれば、そのサムネイルＤ１に対応する場面の時間からコンテンツの再生が行われる。

例えば、図７に示すように、複数の人物が当該コンテンツに登場する場合、複数の人物のいずれかが登場するごとに、登場シーンを示すサムネイルＤ１が生成され、ＧＵＩ（図５参照）に表示される。

ユーザーは、リモコン８１０を操作することで、これらサムネイルＤ１のいずれかを選択することができる。また、ユーザーがリモコン８１０で再生をスタートさせたいシーンの先頭を示すサムネイルＤ１にフォーカスを当てると、当該サムネイルＤ１が拡大表示される（例えば図７の中央のサムネイルＤ１）等、ユーザーが選択しやすい工夫がなされている。

このように、ユーザーが再生先頭シーンを選択（Ｓ１３０）すると、映像再生装置１００は、その先頭シーンからの再生、つまり、指定位置再生（Ｓ１４０）を開始する。このように、ユーザーにサムネイルを選択させることによって再生開始位置を指定するこができる。これにより、映像再生装置１００は、ユーザーに選択された映像コンテンツにおいて、所定の人物が最初に現れたところから再生を開始することができる。

［着目再生］
次に、ユーザーが着目再生を選択した場合の映像再生装置１００の動作について説明する。

着目再生とは、簡単に説明すると、ユーザーに選択されたコンテンツの中で、特定の人物が現れた時に、特定の人物の顔を中心に映像を切り抜いて拡大表示するなどの演出を加えて再生することである。

具体的には、着目再生では、特定の人物が現れた時に画面全体を明るくすること、特定人物の顔を中心に明るさを与えるスポットライトを当てる効果を加えること、および、あらかじめ登録していた特定人物の氏名をその人物映像の周辺に表示する、などの演出（効果の追加）が可能である。つまり、着目再生とは、再生対象となる映像に種々の加工を加えることで、ユーザーに、その人物に着目させるように再生することを言う。

なお、着目再生ではさらに、特定の人物が登場するたびに、特定の音声を再生するなどの映像効果以外の演出も加えることもできる。

この着目再生をユーザーが選択した場合（Ｓ１１０で「着目再生」）、次に、ユーザーは効果を選択する（Ｓ１５０）。映像再生装置１００は、例えば図８に示すように、着目再生の効果を選択するための選択画面を生成し、映像表示装置８００に表示させる。

図８は、着目再生における効果の選択をユーザーに促すＧＵＩ（効果選択画面）の一例を示す図である。

図８に示す効果選択画面において、ユーザーはリモコン８１０を操作することにより、着目再生のうち、特定の人物が現れた時に特定の人物の顔を中心に映像を拡大表示する拡大再生が選択可能である。

また、「拡大再生」については、拡大の程度（拡大率）に応じて３つの選択肢が存在する。具体的には、拡大率の大きな「大」と、拡大率が中ほどの「中」、あまり拡大しない「小」が選択肢として存在する。

また、ユーザーは、図８に示す効果選択画面において、あらかじめ登録していた特定人物の氏名をその人物映像の周辺に表示する「名前表示」、および、特定人物の顔を中心に明るさを与えるスポットライトを当てる効果を加える「スポットライト再生」を選択することができる。

このように着目再生において適用される効果を選択した後、ユーザーが、着目人物の選択を行なう（Ｓ１６０）。

この選択に用いられる画面としては、例えば図９に示すような、各人物のサムネイルをならべた画面（人物選択画面）が用いられる。

これらサムネイルのそれぞれは、当該映像コンテンツに登場する複数の人物それぞれの顔を表示するものである。なお、顔検出部３００が顔と認識したサイズよりも、ズームアウトして、顔を少し小さく表示して人物の胴体が少し入るくらいのサイズが、当該選択に用いられるサムネイルとして好ましい。つまり、ユーザーが、着目する人物の選択を行いやすい。

人物選択画面において、かかるサムネイルには、それぞれ、左上端にチェックボックスを配置して、ユーザーがリモコン８１０で選択できるようにしてある。

ユーザーが、リモコン８１０で、チェックボックスを選択し、当該映像コンテンツの再生を開始を指示すると、映像再生装置１００は、チェックされた特定人物に着目効果を施しながら、着目再生を行なう（Ｓ１７０）。

なお、人物選択画面では、顔認識部２２０の認識結果にしたがって、各サムネイルの表示が行われるが、同じ人物でも、例えば顔認識部２２０の能力によって、別の人物として認識されることもある。

例えば、図９において、人物Ｂを示すサムネイルが複数表示されているのは、顔認識部２２０によって、これらサムネイルに示される人物が別人であると判断されたためである。

しかしながら、上述のようにユーザーが各サムネイルをチェックすることで、別の人物として認識された複数の人物を、着目再生の対象の人物として選択することができる。つまり、映像再生装置１００では、ユーザーの要望に応じた人物に着目効果を施すことができる。

また、同時に複数の人物が選択された場合には、映像再生装置１００では、それぞれの人物ごとに着目効果を適用することができる。

そして、Ｓ１１０で選択された方法による再生が終われば、映像再生装置１００の再生動作は終了となる（Ｓ１８０）。

［着目再生の動作の説明］
次に、図１０Ａを用いて、映像再生装置１００の着目再生に関する基本動作の流れの一例を説明し、図１０Ｂを用いて、人物データ処理部２４０の構成を説明する。

図１０Ａは、映像再生装置１００が着目再生を行う場合の基本的な処理の流れの一例を示すフローチャートである。なお、図１０Ａでは、映像再生装置１００が、上述の「拡大再生」を実行する際の基本的な処理の流れを示している。

図１０Ａに示すように、顔認識部２２０は、映像に登場する人物画像の時系列で変化する大きさおよび位置を検出する（Ｓ１７１）。

生成部２０４は、再生される映像（再生映像）に示される人物画像が所定の大きさとなるように、入力映像に対して加工を行うことで、再生映像を生成する（Ｓ１７２）。

具体的には、生成部２０４は、検出された人物画像の位置の変化に応答して映像の一部の切り抜き範囲を決定する。生成部２０４はさらに、決定した切り抜き範囲に示される、当該映像の一部である部分映像に対し、検出された人物画像の大きさの変化に応答して、拡大または縮小を行う。このような処理により、再生映像が生成される。

また、本実施の形態では、生成部２０４による切り抜き範囲の決定についての応答時間は、部分映像の拡大または縮小についての応答時間よりも長い。

なお、「応答時間が長い（短い）」は、「応答速度が遅い（速い）」、「応答感度が低い（高い）」、または「応答における時定数が大きい（小さい）」等と言い換えることができる。

映像再生部２６０は、生成部２０４により生成された映像を再生する（Ｓ１７３）。

なお、本実施の形態では、生成部２０４の切り抜き等の処理における応答時間（応答感度）を制御するように、顔認識部２２０からの出力に対し、人物データ処理部２４０による処理が行われる。

具体的には、生成部２０４による切り抜き範囲の決定における、顔認識部２２０に検出された顔画像の位置の変化に対する応答時間が、部分映像の拡大または縮小における、顔認識部２２０に検出された顔画像の大きさの変化に対する応答時間よりも長くなるように、顔認識部２２０からの出力に対して所定の処理が行われる。

以下、人物データ処理部２４０の機能構成を、図１０Ｂを参照しながら説明する。

図１０Ｂは、人物データ処理部２４０の機能構成を示すブロック図である。

図１０Ｂにおいて、データベース２３０に保存された顔認識データは、認識された顔のサイズ（大きさ）を示すサイズデータと、認識された顔の位置を示す位置データとに分けて、人物データの処理に用いられる。

サイズデータは、トラッキング保持部４００を介して、応答フィルタ４１０に入力され、さらに、フレーム補間部４３０および遅延処理部４４０に処理され、処理後のデータがメモリ６００に一時保存される。

一方、位置データは、トラッキング保持部４５０を介して、応答フィルタ４１０に設定された時定数とは異なる時定数が設定された応答フィルタ４６０に入力され、フレーム補間部４７０および遅延処理部４８０に処理される。処理後のデータは、メモリ６００に一時保存される。

その後、メモリ６００に一時保存された、人物データ処理部２４０による処理後の顔画像のサイズおよび位置の変化を示す顔認識データ（対象情報）は、映像再生部２６０に入力される。

映像再生部２６０の生成部２０４は、入力される対象情報に示される時系列に並ぶ位置情報を用いて部分映像を切り抜く。生成部２０４はさらに、対象情報に示される時系列に並ぶサイズ情報に応じて部分映像の拡大または縮小を行う。

具体的には、サイズ情報に示される値が小さい時には所定の大きさになるように部分映像を拡大する。また、サイズ情報に示される値が大きい時には所定の大きさになるように部分映像を縮小する。

例えば、着目再生の対象の人物（着目人物）が含まれる１枚のフレームについて、対象情報に示される、着目人物についての顔画像のサイズが“５０”であり、所定の大きさが“１００”である場合、当該フレームから切り抜かれた部分映像は、２倍に拡大される。また、拡大された部分映像は、例えば映像表示装置８００の表示領域内に収まるように、映像表示装置８００の解像度に合わせてトリミングされる。

なお、着目人物の顔画像のサイズが比較的に小さい値（例えば“１０”）である場合、所定の大きさ（例えば“１００”）となるように、当該顔画像を含む部分映像を１０倍に拡大すると、当該顔画像がぼやけてしまうことも考えられる。そのため、映像再生部２６０の生成部２０４は、部分映像の拡大を行う場合、所定の倍率以下で拡大する。

つまり、上記所定の大きさは、絶対的な基準ではなく顔画像（人物画像）の表示上の目標値であり、例えば「最大５倍」などの拡大率の上限を設けることで、顔画像（人物画像）の表示上の画質の劣化が抑制される。

次に、図１０Ｂに示す人物データ処理部２４０の各構成要素の動作を説明する。

（トラッキングが途切れた場合の処理）
トラッキング保持部４００、４５０は、顔認識部２２０において、顔検出が出来なかった区間、または、顔が検出できても着目人物と判断できなかった区間がある場合、すなわち、顔の認識のトラッキングが続かなかったときに、一定期間、そのトラッキングが途切れる前のデータを保持する。このように保持されたデータは、途切れている区間のデータとして扱われ、これにより、顔の認識のトラッキングが途切れた場合における時間的な補間が行われる。

なお、データベース２３０に格納されたデータから、あらかじめ、その途切れ区間が特定できるため、途切れる直前のデータと、途切れから復活する時のデータとを用いて、上記補間が行われてもよい。

このように、トラッキングが途切れた時のデータ（位置データおよびサイズデータ）を補間することで、例えば、顔が急に隠れた場合にも、映像再生部２６０における拡大表示がすぐに止まらず、これまでの拡大表示が維持される。その結果、映像再生装置１００の再生映像におけるスムーズな動きを実現することができる。

このトラッキング保持部４００、４５０の出力は、互いに応答時間（時定数）の異なる応答フィルタ４１０、４６０にそれぞれ入力される。

（顔のサイズデータの処理）
顔のサイズの検出に関しては、図４Ｂを用いて説明したように、顔データの数だけ、探索対象の画像との重ね合わせ位置をずらしながらのマッチング確認作業が発生する。従って、顔のサイズ検出に、あまり多くの数の、互いに大きさの異なる顔データを用いることができない。

そのため、顔認識データに示される、一人の人物の顔画像のサイズは、時系列において不連続に変化する。

図１１は、顔画像のサイズの時系列における変化の一例を示す図である。なお、図１１では、例えば、顔画像の横幅の長さの変化が示されている。しかし、顔画像のサイズとしては、顔画像の縦の長さが使用されてもよく、矩形である顔画像の対角線の長さが採用されてもよい。

図１１に示すように、顔認識データに含まれる、顔画像の大きさ（サイズ）を表すデータは、時間軸に対して不連続となり、また、顔画像のサイズの変化の幅も大きく、さらに、判定誤差も多くなる。

この判定誤差は、実際の顔の動作（振動）を５Ｈｚ〜３０Ｈｚ程度の動作とみなした場合、その顔の動作に比較して、高い周波数（例えば５０Ｈｚ〜１００Ｈｚ）で遷移する。そのため、当該顔に対応するサイズデータにそのまま追従して拡大または縮小した映像を映像表示装置８００に入力すると、再生映像において、例えば顔の大きさが高い周波数で変化し、これにより、顔の輪郭が微振動する。

このため、応答フィルタ４１０により、この高い周波数成分を除去している。

具体的には、応答フィルタ４１０の時定数Ｔ１としては、例えば、およそ２０Ｈｚ以下の成分を残し、かつ、およそ５０Ｈｚ以上の応答を除去する値が設定される。

このようにして得られた顔画像のサイズの変化を表すデータを図１２に示す。

図１２によれば、マッチングデータ（比較対象の複数の顔データ（図４Ｂの模式図Ａ３））間の大きさの差に起因するノイズを除去でき、その結果、再生映像における顔画像の微小な振動の発生等が抑制される。

この加工後のサイズデータを用いて、映像再生部２６０で映像を再生することにより、当該映像における顔画像の高い周波数での振動の発生を抑制することができ、スムーズな再生を実現することができる。

より詳細には、応答フィルタ４１０から出力されるサイズデータは、さらに、フレーム補間部４３０および遅延処理部４４０に処理された後に、メモリ６００に蓄積される。

フレーム補間部４３０は、飛び飛びのフレームに対応するサイズデータから、その間のフレームに対応するサイズデータを内挿により生成する。これは、顔認識部２２０が顔認識処理の対象とするフレームが、処理対象の映像の全フレームではなく、飛び飛びのフレームであることに起因する。

すなわち、顔認識部２２０から出力される顔認識データに対応するフレームのみを、映像再生部２６０で再生すると、再生されるフレーム数が少なく、その結果、再生映像がたついた映像になってしまう。そのため、フレーム補間部４３０によって、間引かれたフレームに対応するサイズデータが補間される。

このように、顔認識データは、毎フレーム検出できない場合もあるため、このままの顔認識データを表示系で利用すると、表示されるべきフレームが飛んでしまう。そこで、フレーム補間部４３０は、顔認識部２２０から出力される顔認識データに基づくフレームごとの位置データおよびサイズデータに対し、内挿によってデータを補う処理を実行する。

すなわち、フレーム補間部４３０による処理は、一部のフレームに対応する情報を含まない顔認識データに対して、毎フレームのサンプリングレートでオーバーサンプリングしたフィルタを施す処理に相当する。

このように、フレーム補間部４３０は、映像再生装置１００への入力映像に含まれる隣り合わない２つのフレームそれぞれに対応する顔画像の大きさを用いて、当該２つのフレームの間に位置するフレームに対応する顔画像の大きさを算出することで、顔画像の大きさについての補間を行う。

なお、本実施の形態の生成部２０４は、例えば図１３に示すように、特定の人の顔を中心に拡大した映像Ｘ２と、原画Ｘ１とを重ねた映像を生成する。生成部２０４はさらに、着目再生として「名前表示」が選択された場合には（図８参照）、Ｘ３のような特定の人の名前（図１３では「Ｂさん」）を重ねた映像（表示画面）を生成する。

このように、映像再生装置１００によれば、図１３に示すように、Ｘ２が拡大表示される。つまり、映像再生装置１００は、映像の中に複数人が登場した場合にも、選択された人物を顔検出と顔認識により特定し、その顔を中心として切り抜きおよび拡大表示をすることができる。つまり、ユーザーは、ユーザーが選択した特定の人物に着目して、当該映像コンテンツを視聴することができる。

このとき、顔認識部２２０の出力する位置データは、例えば顔の中心の位置を示すデータである。しかし、生成部２０４による実際の拡大表示では、顔の中心を拡大の中心とせずに、当該顔の少し下の首のあたり（図１３におけるＸ４のあたり）を拡大の中心とする。これにより、当該顔の人物のバストショット（バストアップ画像）が、再生映像に収まり、その結果、より迫力のある再生映像を得ることができる。

遅延処理部４４０は、時定数をもったフィルタ（応答フィルタ４１０）でデータ処理を行なった分、処理の遅れが発生するために、ここでサンプリング時間をずらして、遅れを補正する。

［顔の位置データの処理］
一方で、顔の位置データについては、以下の処理が行われる。すなわち、図１０Ｂに示すように、トラッキング保持部４５０からの出力は、顔のサイズに対する応答フィルタ４１０の時定数Ｔ１よりも大きい時定数Ｔ２（Ｔ２＞Ｔ１）が設定された応答フィルタ４６０に入力される。

つまり、トラッキング保持部４５０からの出力は、低周波にのみ追従する応答フィルタ４６０に入力される。

図１４は、顔画像の位置の時系列における変化の一例を表す図である。なお、図１４では、例えば、顔画像の横方向の位置の変化が示されている。しかし、顔画像の位置としては、顔画像の縦方向の位置が採用されてもよい。

図１４に示すように、顔認識データに含まれる顔画像の位置を示す位置データには、例えば手ブレ成分を含むため、細かな振動が現れる。また、例えば、ダンスシーンなどでは、着目する人物が大きくかつ素早く移動することがあるため、当該人物の顔画像の位置変化は、急峻でかつ大きい場合もある。

そのため、当該顔画像の位置データにそのまま追従して切り抜いた映像を、映像表示装置８００に入力した場合、再生映像において、例えば着目人物の背景が高い周波数で変化し、これにより、背景が微振動する。また、例えば横方向への素早い動き自体が、着目人物が表現したい動作である場合に、その動作が再生映像では十分に表されない結果となる。

このため、応答フィルタ４６０により、位置変化における高い周波数成分を除去している。

具体的には、応答フィルタ４６０の時定数Ｔ２としては、例えば、ほぼ２０Ｈｚ前後の周波数を通過させる値が採用される。その結果、部分映像の切り抜きが、高い周波数成分、例えば、手ぶれ成分およびノイズ成分にも追従することが抑制され、これにより、再生映像における、着目人物の背景画面全体のがたつきの発生が抑制される。

このようにして得られた顔画像の位置の変化を表すデータを図１５に示す。

図１５によれば、例えば撮影時の手ぶれ等に起因するノイズを除去でき、その結果、再生映像における背景画像の微小な振動の発生等が抑制される。

この加工後の位置データを用いて、映像再生部２６０で映像を再生することにより、当該映像における背景画像の高い周波数での振動の発生を抑制することができ、スムーズな再生を実現することができる。

より詳細には、応答フィルタ４６０から出力される位置データは、さらに、フレーム補間部４７０および遅延処理部４８０に処理された後に、メモリ６００に蓄積される。

フレーム補間部４７０は、フレーム補間部４３０と同じく、飛び飛びのフレームに対応する位置データから毎フレームの位置データを内挿により生成する。

つまり、フレーム補間部４７０は、映像再生装置１００への入力映像に含まれる隣り合わない２つのフレームそれぞれに対応する顔画像の位置を用いて、当該２つのフレームの間に位置するフレームに対応する顔画像の位置を算出することで、顔画像の位置についての補間を行う。

遅延処理部４８０は、時定数をもったフィルタ（応答フィルタ４６０）でデータ処理を行なった分、処理の遅れが発生するために、ここでサンプリング時間をずらして、遅れを補正する。

以上説明した処理によって得られたサイズデータおよび位置データは、ともに人物データ処理部２４０から出力され、メモリ６００にタイムスタンプとともに記録される。タイムスタンプは、映像の時間を示すデータであり、ＰＴＳ（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅｓｔａｍｐ）等が使われる。

メモリ６００に記録されたデータは、上述のように、対象情報の一例であり、映像再生部２６０によって読み出される。

つまり、映像再生部２６０は、人物データ処理部２４０の出力に基づいて、デコーダ２５０の出力する映像を加工する。具体的には、映像再生部２６０の生成部２０４は、デコーダ２５０からの出力映像から、対象情報に従って、部分映像の切り抜き、および、切り抜いた部分映像の拡大または縮小などを行う。このようにして、デコーダ２５０からの出力映像が加工されることで、対象情報が反映された再生映像が得られる。

また、本実施の形態の映像再生装置１００では、処理対象の映像コンテンツから取得される顔の位置データに対し、顔のサイズデータを処理する応答フィルタ４１０よりも、低い周波数に追従する応答フィルタ４６０がフィルタリングを施す。

これにより、着目人物を中心とした再生映像が得られるとともに、例えば手ぶれ成分による、人物の背景画面のがたつきを抑制することができる。その結果、着目人物を中心とした映像のスムーズな再生を実現することができる。

なお、応答フィルタ４６０の時定数Ｔ２として、上述のように、およそ２０Ｈｚに対応する値を採用すると、人物の平面的な動作をある程度再現できる。

但し、あまり応答を遅くすると、応答フィルタ４６０の群遅延が無視できなくなり、遅れが目立つために、遅延処理部４８０により、適応するデータを少し早める等の対策が必要となる。

（実施の形態２）
本開示における実施の形態２について図面を参照して説明する。実施の形態２における映像再生装置１００は、人物データ処理部２４１が、実施の形態１における人物データ処理部２４０とは異なる点に特徴を有する。

具体的には、人物データ処理部２４１は、レベル検出部４２０を備える点を除いて、他は実施の形態１における人物データ処理部２４０の構成と同じ構成を有している。

図１６は、実施の形態２における人物データ処理部２４１の機能構成を示すブロック図である。

実施の形態２における人物データ処理部２４１では、応答フィルタ４１０から出力されるサイズデータをレベル検出部４２０に供給し、レベル検出部４２０の出力をフレーム補間部４３０に供給している。

ここで、被写体である人物が前後に動くと、映像の中の顔の大きさが変わり、その大きさに応じて、当該顔を細かく拡大縮小してしまうと、被写体の顔の前後への動作を表現できなくなってしまう。その結果、当該人物の動作による表現が削がれてしまう。

そのため、実施の形態２における人物データ処理部２４１では、顔の大きさの変化についての閾値を時間に応じて変化させる。具体的には、期間中の最初の閾値の値が、期間中の最後の閾値の値よりも大きくなるように、時間変化する閾値を設ける。

つまり、実施の形態２における生成部２０４は、顔画像の大きさの、所定の時点を基準とした変化量（例えば、現在の大きさと、着目人物が最初に登場した時点の大きさとの差分）が第一の閾値以下である場合、顔画像の大きさに応じた、部分映像の大きさの細かな調整（拡大または縮小）をせずに、そのままの変化を維持する。また、実施の形態２における生成部２０４は、当該変化量が第一の閾値を超えた場合、顔画像の大きさが所定の大きさになるように、部分映像の拡大または縮小する動作を行う。

このように動作させることで、顔のサイズ（顔画像のサイズ）の急な変動を再生映像に反映できるように演出できる。

つまり、図１６における、レベル検出部４２０は、応答フィルタ４１０から出力された顔画像のサイズデータ（例えば図１２参照）をもとに、サイズの変化点で、再生映像における顔の大きさを急に変化させるべく、レベル判定を行う。

具体的には、サイズの変化量が第一の閾値を超えた時に顔画像の大きさが急に変動するように、入力されるサイズデータを書き換える。レベル検出部４２０はさらに、顔画像の大きさを一旦変化させる場合、その後に当該変化量が第二の閾値（第二の閾値＜第一の閾値）以下にならないと顔画像の大きさが元の値（入力時のサイズデータに示される値）に戻らないように、入力されるサイズデータを書き換える。

つまり、実施の形態２における生成部２０４は、部分映像の拡大または縮小が行った場合、その後に、当該変化量が第二の閾値以下になるまでは、上記拡大または縮小が行われた状態を維持する。また、生成部２０４は、当該変化量が第二の閾値以下になった場合、顔画像の大きさが入力時のサイズデータの値になるように再生映像を生成する。

このように、実施の形態２における人物データ処理部２４１によれば、顔画像の大きさについて、いわゆるヒステリシス制御が行われる。

このヒステリシス制御のためのレベル判定後の顔画像の大きさの変化を図１７に示す。

このように、実施の形態２の映像再生装置１００では、レベル検出部４２０により、応答フィルタ４１０から出力された連続的なデータを急に変動するデータに書き換える。これにより、例えば、入力映像が実際には固定の倍率で撮影された映像であっても、撮影時に急にカメラをズームアップしたような効果が付加された再生映像を出力することができる。

すなわち、顔の大きさに関して、小さな変化には追従せず、大きく変化した時に、素早く顔を中心とした画像を拡大または縮小させてもよい。これにより、例えばプロカメラマンのカメラワークに近く、かつ、再生時に迫力を産む映像を作り出すことができる。

（効果等）
実施の形態１および２における映像再生装置１００は、顔検出および顔認識により取得した、人物画像のサイズのデータおよび位置のデータを、それぞれ別の時定数でフィルタリングして再生部に入力する。これにより、例えば、特定の人物に着目して拡大再生する場合に、当該人物の顔の輪郭および背景の高い周波数の振動が抑制され、スムーズな拡大再生が実現される。

また、映像再生装置１００によれば、入力される映像から、当該映像の撮影時には着目されていなかった人物を中心とした再生映像を得ることができる。

例えば、人物Ａおよび人物Ｂが登場する映像であって、人物Ａを追いかけるように撮影された映像が映像再生装置１００に入力された場合を想定する。この場合、当該映像を通常再生すると、人物Ａを中心とした映像が再生される。しかし、当該映像を再生する際に、人物Ｂを着目人物として選択して着目再生することで、人物Ｂを中心とした再生映像を得ることができる。

（他の実施の形態）
以上のように、本出願において開示する技術の例示として、実施の形態１および２を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態１および２で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

そこで、以下、他の実施の形態を例示する。

例えば、実施の形態１では、生成部２０４による切り抜き範囲の決定についての応答時間は、部分映像の拡大または縮小についての応答時間よりも長いとした。

しかし、生成部２０４による切り抜き範囲の決定についての応答時間を、部分映像の拡大または縮小についての応答時間よりも短くしてもよい。つまり、部分映像の拡大または縮小についての応答時間を、切り抜き範囲の決定についての応答時間よりも長くしてもよい。

また、生成部２０４による切り抜き範囲の決定についての応答時間と、部分映像の拡大または縮小についての応答時間との大小関係を、例えばユーザーからの指示に応じて切り換えてもよい。

例えば、着目人物の前後の動きが重要な動作である場合に、映像再生装置１００は、ユーザーの指示に基づいて、部分映像の拡大または縮小についての応答時間を、切り抜き範囲の決定についての応答時間よりも長くする。これにより、着目人物が左右に移動しながらかつ短い周期で前後への移動を繰り返した場合であっても、その前後への細かな移動を明確に表す再生映像を得ることができる。

また、切り抜き範囲の決定についての応答時間を手振れに追従できるくらい短くすると、手振れによる人物の上下左右の振動を抑えることができ、より人物に注目して映像を再生することも可能となる。

また、実施の形態１では、映像再生装置１００が備える着目再生に関連する各構成要素（顔認識部２２０、人物データ処理部２４０、生成部２０４、および映像再生部２６０など）は、マイコン１８０によって実現されるとした。つまり、これら各構成要素は、ＣＰＵ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、および通信インターフェース等を備えるコンピュータによって実行されるプログラム等のソフトウェアで実現されるとした。しかし、これら各構成要素は、電子回路等のハードウェアで実現されてもよい。

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

本開示は、例えば家庭用ビデオカメラで撮影された映像に対して処理を加えて再生する装置に適用可能である。具体的には、レコーダおよびタブレット端末などの、映像表示装置および映像再生装置に、本開示は適用可能である。

１００映像再生装置
１１０ＵＳＢスロット
１２０ＳＤカードスロット
１３０ＢＤドライブ
１４０赤外線受光部
１５０ＨＤＭＩ（登録商標）
１６０ＨＤＤ
１７０ＳＤカード
１８０マイコン
１９０チューナ
２００、２５０デコーダ
２０４生成部
２１０映像間引き部
２２０顔認識部
２３０データベース（ＤＢ）
２４０、２４１人物データ処理部
２６０映像再生部
２７０コントローラ
２８０サムネイル生成部
２９０サムネイル表示部
３００顔検出部
３１０、３３０、６００メモリ
３２０特徴量抽出部
３４０特徴量比較部
３５０クラスタリング部
４００、４５０トラッキング保持部
４１０、４６０応答フィルタ
４２０レベル検出部
４３０、４７０フレーム補間部
４４０、４８０遅延処理部
５００映像カメラ
５１０ネットワーク
５２０サーバ
５３０ＬＡＮインターフェース
８００映像表示装置
８１０リモコン

Claims

取得した映像を加工して再生する映像再生装置であって、
前記映像に登場する人物画像の時系列で変化する大きさおよび位置を検出する検出部と、
再生される映像に示される前記人物画像が所定の大きさとなるように、（ｉ）検出された前記人物画像の位置の変化に応答して前記映像の一部の切り抜き範囲を決定し、かつ、（ｉｉ）前記切り抜き範囲に示される前記映像の一部である部分映像に対し、検出された前記人物画像の大きさの変化に応答して、拡大または縮小を行うことで、再生される映像を生成する生成部と、
前記生成部により生成された映像を再生する再生部とを備え、
前記生成部による前記切り抜き範囲の決定における応答時間は、前記部分映像の拡大または縮小における応答時間よりも長い
映像再生装置。
前記生成部は、前記部分映像の拡大を行う場合、所定の倍率以下で拡大する
請求項１記載の映像再生装置。
さらに、前記検出部に検出された前記人物画像の大きさおよび位置の変化に所定の処理を行い、前記所定の処理後の前記人物画像の大きさおよび位置の変化を示す情報である対象情報を生成する人物データ処理部を備え、
前記人物データ処理部は、前記生成部による前記切り抜き範囲の決定における、前記検出部に検出された前記人物画像の位置の変化に対する応答時間が、前記部分映像の拡大または縮小における、前記検出部に検出された前記人物画像の大きさの変化に対する応答時間よりも長くなるように、前記所定の処理を行い、
前記生成部は、前記人物データ処理部に生成された前記対象情報に従って、前記切り抜き範囲の決定、および、前記部分映像の拡大または縮小を行う
請求項１または２に記載の映像再生装置。
前記人物データ処理部は、前記所定の処理が行われた後の前記人物画像の大きさまたは位置についての補間を行う補間部を備え、
前記補間部は、取得された前記映像に含まれる隣り合わない２つのフレームそれぞれに対応する前記人物画像の大きさまたは位置を用いて、前記２つのフレームの間に位置するフレームに対応する前記人物画像の大きさまたは位置を算出することで、前記人物画像の大きさまたは位置についての補間を行う
請求項３記載の映像再生装置。
前記生成部は、
前記人物画像の大きさの、所定の時点を基準とした変化量が第１の閾値以下であれば、前記部分映像の拡大または縮小を行わず、前記変化量が前記第１の閾値を超えた場合、前記部分映像の拡大または縮小を行い、
さらに、前記部分映像の拡大または縮小を行った後に、前記変化量が、前記第１の閾値よりも小さな第２の閾値以下になるまでは前記部分映像の拡大または縮小が行われた状態を維持する
請求項１〜４のいずれか１項に記載の映像再生装置。
映像再生装置が実行する映像再生方法であって、
映像を取得する取得ステップと、
取得した前記映像に登場する人物画像の時系列で変化する大きさおよび位置を検出する検出ステップと、
再生される映像に示される前記人物画像が所定の大きさとなるように、（ｉ）検出された前記人物画像の位置の変化に応答して前記映像の一部の切り抜き範囲を決定し、かつ、（ｉｉ）前記切り抜き範囲に示される前記映像の一部である部分映像に対し、検出された前記人物画像の大きさの変化に応答して、拡大または縮小を行うことで、再生される映像を生成する生成ステップと、
生成された映像を再生する再生ステップと含み、
前記切り抜き範囲の決定における応答時間は、前記部分映像の拡大または縮小における応答時間よりも長い
映像再生方法。