JP5456023B2

JP5456023B2 - 画像撮影装置、画像撮影方法、プログラム、及び集積回路

Info

Publication number: JP5456023B2
Application number: JP2011508239A
Authority: JP
Inventors: 芳宏森岡; 賢司松浦; 拓眞増田; 広二竹林; 栄二山内
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2009-04-07
Filing date: 2010-04-06
Publication date: 2014-03-26
Anticipated expiration: 2030-04-06
Also published as: JPWO2010116715A1; WO2010116715A1; US20120019685A1; US8681239B2

Description

本発明は、動画像を撮影する画像撮影装置に関するものであり、特に、撮影した動画像から自動的に静止画像を抽出する画像撮影装置に関するものである。

現在のビデオカメラでは、動画像を撮影するとともに、動画像撮影時に利用者が静止画像撮影の釦等を押すことで、併せて静止画像も記録できるものがある。また、ビデオカメラは、撮影した動画像から自動的にダイジェスト（要約映像）を生成等することも可能となっている。例えば、特許文献１には、メタデータ（属性情報）に基づいてシーンを評価し、その評価結果に基づいて、撮影した動画像のシーン又はクリップの数を絞り込んだダイジェスト（要約映像）を簡単に生成する映像撮影装置が開示されている。

特開２００８−２２７８６０号公報

しかし、動画像を撮影するとともに、好適な静止画像の抽出を自動的に行うものはない。特に、撮影する動画像に変化が無い場合、又は、変化が小さい場合に、動画像とともに好適な静止画像を自動的に撮影するものはない。

上記の問題に鑑みて、本発明は、動画像を撮影するとともに、好適な静止画像を自動的に抽出することを可能にする画像撮影装置を提供することを目的とする。

本発明の一形態に係る画像撮影装置は、動画像を撮影する撮影部と、前記撮影部で撮影された前記動画像の特徴を示す属性情報を生成する属性情報生成部と、前記属性情報生成部で生成された前記属性情報を予め定められた評価基準に当てはめることによって、前記動画像の評価値を所定の時間幅毎に算出する評価部と、前記評価部で算出された前記評価値が評価閾値を超えた場合に、前記動画像のうちの当該評価値に対応する前記時間幅から静止画像を抽出する静止画像抽出部と、前記属性情報に含まれる情報のうち、前記動画像に含まれる人物を識別する人物情報、及び前記動画像の構図の変化量の少なくとも一方に基づいて、前記評価閾値を変更する閾値変更部とを備える。

これにより、画像撮影装置は、動画像を撮影中に、好適な場面で自動的に静止画像を抽出することが可能となる。なお、本明細書中の「構図」とは、被写体と背景とにより構成される画像全体の構成、又は画像を構成する諸要素及び諸部分の配置を指す。

また、前記閾値変更部は、前記構図の変化量が所定の値以下の状態が継続している間、前記静止画像抽出部で前記静止画像が抽出される度に、前記評価閾値を所定の増加幅ずつ増加させてもよい。これにより、構図の変化量が小さい場合は、静止画像の抽出頻度を下げ、構図の変化量が大きい場合は、静止画像の抽出頻度を上げる等、変化に富んだ静止画像の抽出が可能となる。

また、前記評価基準には、前記人物情報と、前記動画像に当該人物が含まれていた場合の前記評価値との対応関係が含まれてもよい。そして、前記閾値変更部は、前記属性情報に含まれる前記人物情報に対応付けられた前記評価値が高い程、前記所定の増加幅を小さくしてもよい。これにより被写体として撮影される人物毎に静止画像の抽出方法を異なるものとすることができ、人物毎により好適な静止画像の撮影が可能となる。

また、前記閾値変更部は、所定の時間毎に、予め定められた初期値を前記評価閾値に設定してもよい。さらに、閾値変更部は、前記人物情報及び前記構図の変化量の少なくとも一方に基づいて、前記所定の時間を変更してもよい。これにより、評価閾値を初期値に戻すまでの期間を、被写体の人物毎又は構図の変化量に基づいて変えることができる。その結果、被写体の人物又は構図の変化量に応じた静止画像を抽出することができる。

また、前記静止画像抽出部は、第１の静止画像を抽出してから、少なくとも最低待機時間を経過した後に第２の静止画像を抽出してもよい。さらに、該画像撮影装置は、前記人物情報及び前記構図の変化量の少なくとも一方に基づいて、前記最低待機時間を変更する抽出間隔変更部を備えてもよい。これにより、撮影する人物及び構図の変化量等に応じて好適な静止画像の抽出が可能となる。

また、前記評価基準には、前記人物情報と、前記動画像に当該人物が含まれていた場合の前記評価値との対応関係が含まれてもよい。そして、前記抽出間隔変更部は、前記属性情報に含まれる前記人物情報に対応付けられた前記評価値が高い程、前記最低待機時間を短くしてもよい。さらに、前記抽出間隔変更部は、前記構図の変化量が大きい程、前記最低待機時間を短くしてもよい。

また、前記抽出間隔変更部は、前記構図の変化量が所定の値以下の状態が継続している間、前記静止画像抽出部で前記静止画像が抽出される度に、前記最低待機時間を所定の増加幅ずつ増加させてもよい。これにより、構図の変化が所定の変化よりも小さい場合は、時間とともに、静止画像の抽出頻度を下げることが可能となる。

また、前記抽出間隔変更部は、前記構図の変化量が所定の値を上回った場合に、前記最低待機時間に予め定められた初期値を設定してもよい。これにより、撮影する動画像に再度の変化、例えば構図の変化、被写体の人物の変化等があった場合に、静止画像の抽出頻度を高める等の設定をすることもできる。

本発明に係る画像撮影方法は、動画像を撮影する撮影ステップと、前記撮影ステップで撮影された前記動画像の特徴を示す属性情報を生成する属性情報生成ステップと、前記属性情報生成ステップで生成された前記属性情報を予め定められた評価基準に当てはめることによって、前記動画像の評価値を所定の時間幅毎に算出する評価ステップと、前記評価ステップで算出された前記評価値が評価閾値を超えた場合に、前記動画像のうちの当該評価値に対応する前記時間幅から静止画像を抽出する静止画像抽出ステップと、前記属性情報に含まれる情報のうち、前記動画像に含まれる人物を識別する人物情報、及び前記動画像の構図の変化量の少なくとも一方に基づいて、前記評価閾値を変更する閾値変更ステップとを含む。

本発明に係るプログラムは、コンピュータに画像を撮影させる。具体的には、動画像を撮影する撮影ステップと、前記撮影ステップで撮影された前記動画像の特徴を示す属性情報を生成する属性情報生成ステップと、前記属性情報生成ステップで生成された前記属性情報を予め定められた評価基準に当てはめることによって、前記動画像の評価値を所定の時間幅毎に算出する評価ステップと、前記評価ステップで算出された前記評価値が評価閾値を超えた場合に、前記動画像のうちの当該評価値に対応する前記時間幅から静止画像を抽出する静止画像抽出ステップと、前記属性情報に含まれる情報のうち、前記動画像に含まれる人物を識別する人物情報、及び前記動画像の構図の変化量の少なくとも一方に基づいて、前記評価閾値を変更する閾値変更ステップとをコンピュータに実行させる。

本発明に係る集積回路は、動画像を撮影する撮影部と、前記撮影部で撮影された前記動画像の特徴を示す属性情報を生成する属性情報生成部と、前記属性情報生成部で生成された前記属性情報を予め定められた評価基準に当てはめることによって、前記動画像の評価値を所定の時間幅毎に算出する評価部と、前記評価部で算出された前記評価値が評価閾値を超えた場合に、前記動画像のうちの当該評価値に対応する前記時間幅から静止画像を抽出する静止画像抽出部と、前記属性情報に含まれる情報のうち、前記動画像に含まれる人物を識別する人物情報、及び前記動画像の構図の変化量の少なくとも一方に基づいて、前記評価閾値を変更する閾値変更部とを備える。

また、本発明の他の形態に係る画像撮影装置は、以下の構成とすることもできる。具体的には、動画像と静止画像とを撮影する画像撮影装置であって、前記動画撮影時の属性情報を生成する属性情報生成部と、前記属性情報に基づいて撮影中の前記動画像から静止画象を抽出する画像解析部と、を備えるものである。

これにより、画像撮影装置は、動画像を撮影中に、好適な場面で自動的に静止画像を抽出することが可能となる。

画像撮影装置は、前記属性情報に基づいて前記動画像を構成するシーン毎に評価するシーン解析部を更に備え、前記画像解析部は、前記シーン解析部のシーン毎の評価と前記属性情報とに基づいて、撮影中の前記動画像から静止画象を抽出するものであってもよい。

これにより、画像撮影装置は、撮影した動画像からダイジェスト（要約映像）を生成するとともに、好適な場面での静止画像の抽出を同時に行うことが可能となる。

画像撮影装置は、前記属性情報に基づいて前記動画像をシーン毎に評価するシーン解析部を更に備え、前記画像解析部は、前記属性情報を前記シーン解析部とは異なる評価方法に基づいて、撮影中の前記動画像から静止画象を抽出するのであってもよい。

これにより、動画像と静止画像との異なる特徴に基づいて、静止画像として好適な場面で、撮影した動画像から自動的に静止画像を抽出することが可能となる。

画像撮影装置は、前記静止画像を記憶する記憶部をさらに備え、前記画像解析部は、前記動画像の撮影中に抽出した第１の静止画像と、前記記憶部に記憶された第２の静止画像との類似性が所定の範囲である場合、前記第１の静止画像と第２の静止画像の一方の静止画像のみを選択して前記記憶部に記憶するものであってもよい。

これにより、好適な場面が連続して続くような場合であっても、そのなかからより好適な場面の静止画像のみを抽出することが可能となる。

さらに、前記画像解析部は、前記類似性を、前記第１の静止画像と第２の静止画像との構図、撮影時間、及び、前記第１の静止画像と第２の静止画像が属する前記シーン解析部が評価するシーンの情報、の少なくとも一つに基づいて算出するものであってもよい。

これにより、連続して抽出される静止画像が、同じような静止画像となることを防ぐことが可能となる。

さらに画像撮影装置は、撮影した前記動画像の情報を符号化する動画像信号圧縮部を更に備え、前記画像解析部は、前記動画像を符号化する前の動画像の情報から前記静止画像を抽出するものであってもよい。

これにより、符号化等する前の動画像の動画像信号から静止画像を抽出することとなる。その結果、符号化等の不可逆変換で情報を損失することなく、静止画像を取得することが可能となる。

本出願により、動画像を撮影するとともに、好適な静止画像の自動抽出が可能となる。

図１は、本実施の形態で説明するビデオカメラの外観図である。図２は、本実施の形態で説明するビデオカメラ内部のハードウェア構成図である。図３Ａは、本実施の形態で説明するビデオカメラ内部の機能構成図である。図３Ｂは、図３Ａのさらに詳細な機能構成図である。図４は、本実施の形態で説明する撮影した動画像のクリップ、シーン、及びフレームの関係図である。図５は、本実施の形態で説明するシーンを識別する情報を示す図である。図６は、本実施の形態で説明するシーンの属性情報と評価値との関係を示す図である。図７は、本実施の形態で説明するシーン毎に評価値を割り当てた結果を示す図である。図８は、本実施の形態で説明する再生情報の情報内容を示す図である。図９は、本実施の形態で説明する静止画像抽出用の属性情報と評価値との関係を示す図である。図１０は、本実施の形態で説明する静止画像抽出の観点から撮影したフレームを評価したグラフである。図１１は、本実施の形態で説明する構図の変化と認識される被写体人物と撮影時間間隔との関係を示した図である。図１２は、本実施の形態で説明する撮影枚数と、最低待機時間と、評価閾値との関係を示した図である。図１３は、静止画像抽出処理の一例を示すフローチャートである。

（第１の実施の形態）
＜１．画像撮影装置の構成＞
図１は、動画像および静止画像を撮影するビデオカメラ（画像撮影装置）１００の外観図である。本実施の形態では、このビデオカメラ１００を用いて説明を行う。

図２は、図１のビデオカメラ１００内部のハードウェア構成の概略を示した図である。

ビデオカメラ１００は、レンズ群２００と、撮像素子２０１と、動画像ＡＤＣ（ＡｎａｌｏｇｔｏＤｉｇｉｔａｌＣｏｎｖｅｒｔｅｒ）２０２と、動画像信号変換回路２０３と、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０４と、クロック２０５と、レンズ制御モジュール２０６と、姿勢検出センサ２０７と、入力ボタン２０８と、ディスプレイ２０９と、スピーカー２１０と、出力Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）２１１と、圧縮伸張回路２１２と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２１３と、ＲＡＭ（ＲａｎｄａｍＡｃｃｅｓｓＭｅｍｏｒｙ）２１４と、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）２１５と、音声ＡＤＣ（ＡｎａｌｏｔｏＤｉｇｉｔａｌＣｏｎｖｅｒｔｅｒ）２１６と、マイクロフォン２１７とを構成要素として備える。

レンズ群２００は、撮像素子２０１上で被写体像を形成するために、被写体から入射する光を調整する。具体的には、焦点距離及びズーム（映像の拡大倍率）を、様々な特性を持つ複数のレンズ間の距離を変化させることで、調整する。これらの調整は、ビデオカメラ１００の撮影者が手動で調整するものでも、後述するレンズ制御モジュール２０６を通じてＣＰＵ２０４等からの制御により自動的に調整するものであってもよい。

撮像素子２０１は、レンズ群２００を通して入射する光を電気信号に変換する。撮像素子２０１には、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）、又はＣ−ＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）等のイメージセンサを利用することが可能である。

動画像ＡＤＣ２０２は、撮像素子２０１から出力されたアナログ電気信号をデジタル電気信号に変換する。デジタル信号は、動画像信号変換回路２０３へ出力される。

動画像信号変換回路２０３は、動画像ＡＤＣ２０２が出力するデジタル信号を、ＮＴＳＣ（ＮａｔｉｏｎａｌＴｅｌｅｖｉｓｉｏｎＳｙｓｔｅｍＣｏｍｍｉｔｔｅｅ）又はＰＡＬ（ＰｈａｓｅＡｌｔｅｒｎａｔｉｎｇＬｉｎｅ）と言った所定の方式の動画像信号（映像信号）に変換する。

ＣＰＵ２０４は、ビデオカメラ１００全体を制御する。制御の種類としては、例えば、レンズ制御モジュール２０６を介して前述のレンズの焦点距離及びズームの制御を行うことで、撮像素子２０１への入射光を制御するレンズ制御がある。また、入力ボタン２０８及び姿勢検出センサ２０７等からの外部入力に対する入力制御、あるいは、圧縮伸張回路２１２の動作制御等がある。ＣＰＵ２０４は、これらの制御アルゴリズムをソフトウェア等で実行する。

クロック２０５は、ビデオカメラ１００内で動作するＣＰＵ２０４等の回路に、処理動作の基準となるクロック信号を出力する。なお、クロック２０５は、利用する集積回路及び扱うデータによって、単一または複数のクロックを用いることも可能である。また、ひとつの発振子のクロック信号を任意の倍数に乗じて使用してもよい。

レンズ制御モジュール２０６は、レンズ群２００の状態を検出し、ＣＰＵ２０４からの制御に基づいて、レンズ群２００に含まれる各レンズを動作させる。レンズ制御モジュール２０６は、レンズ制御用モータ２０６ａと、レンズ位置センサ２０６ｂとを備える。

レンズ位置センサ２０６ｂは、レンズ群２００を構成する複数のレンズ間の距離または位置関係等を検出する。レンズ位置センサ２０６ｂが検出した複数のレンズ間の位置情報等は、ＣＰＵ２０４に送信される。ＣＰＵ２０４は、レンズ位置センサ２０６ｂからの情報、及び撮像素子２０１等の他の構成要素からの情報に基づいて、複数のレンズを適正に配置させるための制御信号を、レンズ制御用モータ２０６ａに送信する。

レンズ制御用モータ２０６ａは、ＣＰＵ２０４から送信された制御信号に基づいて、レンズを駆動させるモータである。この結果、レンズ群２００の複数のレンズ間の相対的な位置関係が変更され、レンズの焦点距離、およびズームを調整することができる。これにより、レンズ群２００を通過した入射光は、撮像素子２０１上で、目的とする被写体像を結ぶ。

なお、ＣＰＵ２０４は、上記以外にも、ビデオカメラ１００で動画像撮影時の手振れをレンズ位置センサ２０６ｂ及び後述する姿勢検出センサ２０７等で検出し、レンズ制御用モータ２０６ａを駆動する制御を行ってもよい。これにより、ＣＰＵ２０４は、手振れ防止の動作を、レンズ制御モジュール２０６を介して実行させることも可能である。

姿勢検出センサ２０７は、ビデオカメラ１００の姿勢の状態を検出する。姿勢検出センサ２０７は、加速度センサ２０７ａと、角速度センサ２０７ｂと、仰角・俯角センサ２０７ｃとを備える。これらの各種センサにより、ＣＰＵ２０４は、ビデオカメラ１００がどのような状態で撮影を行っているかを検出する。なお、これらのセンサは、好ましくはビデオカメラ１００の姿勢を詳細に検出するために、３軸方向（垂直方向、水平方向等）についてそれぞれ検出できることが望ましい。

入力ボタン２０８は、ビデオカメラ１００の撮影者が使用する入力インタフェースの一つである。これにより、撮影者が撮影の開始又は終了、ビデオ撮影中の動画像にマーキングを挿入する等、各種要求をビデオカメラ１００に伝えることが可能となる。

ディスプレイ２０９は、ビデオカメラ１００が撮影時の動画像を見るため、又は、記憶された映像を見るため等に設けられている。これにより、撮影者は、撮影した動画像をその場で確認することが可能となる。また、それ以外にもビデオカメラ１００の各種情報を表示することで、撮影情報、及び機器情報等のより詳細な情報を撮影者に伝えることが可能となる。

スピーカー２１０は、撮影した動画像を再生する際の音声出力に使用される。それ以外にも、ビデオカメラ１００が出力する警告を音で撮影者へ伝えることも可能である。

出力Ｉ／Ｆ２１１は、ビデオカメラ１００が撮影した動画像を外部機器へ出力するために用いられる。具体的には、外部機器とケーブルで接続する場合のケーブルインタフェース、及び撮影した動画像を可搬可能なメモリカード２１８に記録する場合のメモリカードインタフェース等などがある。これにより、撮影した動画像をビデオカメラ１００に備え付けのディスプレイ２０９よりも大きな外部のディスプレイを用いて視聴等することが可能となる。

圧縮伸張回路２１２は、撮影した動画像及び音声を、所定のデジタルデータ形式（符号化処理）にする。具体的には、撮影した動画像データ及び音声データに対して、ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｏｅｒｔｓＧｒｏｕｐ）又はＨ．２６４等の符号化処理を行い、所定のデータ方式に変換（圧縮）する。また、圧縮伸張回路２１２は、撮影したデータの再生時に、所定のデータ形式の動画像データを伸張して、ディスプレイ２０９等に表示するデータ処理を行う。なお、圧縮伸張回路２１２は、静止画像についても、動画像と同様に、圧縮伸張する機能を備えるものであっても良い。

ＲＯＭ２１３は、ＣＰＵ２０４が処理するソフトウェアのプログラム及びプログラムを動作させるための各種データを記憶する。

ＲＡＭ２１４は、ＣＰＵ２０４が処理するソフトウェアのプログラム実行時に使用するメモリ領域等として使用される。また、圧縮伸張回路２１２と共用でこのＲＡＭ２１４を使用してもよい。

ＨＤＤ２１５は、圧縮伸張回路２１２が符号化した動画像データ及び静止画像データを蓄積等する目的で利用される。なお、記憶されるデータは、これ以外にも、後述する再生情報のデータ等を記憶することも可能である。また、本説明では、記憶媒体としてＨＤＤ２１５を代表の記憶媒体として説明しているが、これ以外にも半導体記憶素子を用いるものであっても良い。

音声ＡＤＣ２１６は、マイクロフォン２１７から入力される音声を、アナログ電気信号からデジタル電気信号に変換処理する。

マイクロフォン２１７は、ビデオカメラ１００外部の音声を電気信号に変換して出力する。

上記のとおりビデオカメラ１００のハードウェア構成を示したが、本発明では上記の構成に限定されるものではない。例えば、動画像ＡＤＣ２０２及び動画像信号変換回路２０３等を単一の集積回路として実現することも可能であるし、ＣＰＵ２０４が実行するソフトウェアプログラムの一部を別途、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）を用いてハードウェアとして実現することも可能である。

次に、ビデオカメラ１００の機能構成について図３Ａ及び図３Ｂを用いて説明する。図３Ａは、ビデオカメラ１００の機能構成の一例を示すブロック図である。

ビデオカメラ１００は、図３Ａに示されるように、撮影部１１０と、属性情報生成部１２０と、評価部１３０と、静止画像抽出部１４０と、閾値変更部１５０と、抽出間隔変更部１６０とを備える。

撮影部１１０は、動画像を撮影する。撮影された動画像は、属性情報生成部１２０及び静止画像抽出部１４０に出力されると共に、記録媒体１７０に記録される。撮影部１１０は、図２のレンズ群２００、撮像素子２０１、動画像ＡＤＣ２０２、及び動画像信号変換回路２０３等に相当する。

属性情報生成部１２０は、撮影部１１０で撮影された動画像の特徴を示す属性情報を生成する。生成された属性情報は、評価部１３０、閾値変更部１５０、及び抽出間隔変更部１６０にそれぞれ出力される。属性情報生成部１２０は、図２のＣＰＵ２０４で処理される制御アルゴリズムの一つによって実現される。

評価部１３０は、属性情報生成部１２０で生成された属性情報を予め定められた評価基準に当てはめることによって、動画像の評価値を所定の時間幅毎に算出する。算出された評価値は、静止画像抽出部１４０に出力される。なお、「所定の時間幅」とは、例えば、後述するシーン単位であってもよいし、フレーム単位であってもよい。評価部１３０は、図２のＣＰＵ２０４で処理される制御アルゴリズムの一つによって実現される。

静止画像抽出部１４０は、予め評価閾値を保持しており、評価部１３０で算出された評価値と評価閾値とを比較する。そして、静止画像抽出部１４０は、評価値が評価閾値を超えた場合に、動画像のうちの当該評価値に対応する時間幅から静止画像を抽出する。抽出された静止画像は、記録媒体１７０に記録される。静止画像抽出部１４０は、図２のＣＰＵ２０４で処理される制御アルゴリズムの一つによって実現される。

閾値変更部１５０は、属性情報生成部１２０で生成された属性情報に基づいて、静止画像抽出部１４０が保持している評価閾値を変更する。より具体的には、属性情報に含まれる情報のうち、動画像に含まれる（写っている）人物を識別する人物情報、及び動画像の構図の変化量の少なくとも一方に基づいて、評価閾値を変更する。変更された評価閾値は、静止画像抽出部１４０に出力される。閾値変更部１５０は、図２のＣＰＵ２０４で処理される制御アルゴリズムの一つによって実現される。但し、評価閾値を固定値とする場合には、閾値変更部１５０を省略することができる。

抽出間隔変更部１６０は、属性情報生成部１２０で生成された属性情報に基づいて、静止画像抽出部１４０の最低待機時間を変更する。より具体的には、属性情報に含まれる情報のうち、動画像に含まれる（写っている）人物を識別する人物情報、及び動画像の構図の変化量の少なくとも一方に基づいて、最低待機時間を変更する。変更された最低待機時間は、静止画像抽出部１４０に出力される。抽出間隔変更部１６０は、図２のＣＰＵ２０４で処理される制御アルゴリズムの一つによって実現される。但し、最低待機時間を固定値とする場合には、抽出間隔変更部１６０を省略することができる。

なお、「最低待機時間」とは、連続して抽出される第１の静止画像及び第２の静止画像の抽出間隔の最低値である。つまり、静止画像抽出部１４０は、第１の静止画像を抽出してから、少なくとも最低待機時間を経過した後に、第２の静止画像を抽出しなければならない。

記録媒体１７０には、撮影部１１０で撮影された動画像、及び静止画像抽出部１４０で抽出された静止画像等が記録される。また、ビデオカメラ１００に必要な他のあらゆる情報を記録することもできる。記録媒体１７０は、図２のＲＯＭ２１３、ＲＡＭ２１４、ＨＤＤ２１５、又は出力Ｉ／Ｆ２１１に接続されるメモリカード２１８に相当する。

図３Ｂは、ビデオカメラ１００の詳細な機能構成図である。

ビデオカメラ１００は、図３Ｂに示されるように、機能的な構成要素として、レンズ部３００と、撮像部３０１と、動画像ＡＤ変換部３０２と、動画像信号処理部３０３と、動画像信号圧縮部３０４と、撮像制御部３０５と、動画像解析部３０６と、レンズ制御部３０７と、姿勢検出部３０８と、属性情報生成部３０９と、シーン解析部３１０と、再生情報生成部３１１と、音声解析部３１２と、音声信号圧縮部３１３と、多重化部３１４と、記憶部３１５と、ダイジェスト再生部３１６と、動画像信号伸張部３１７と、表示部３１８と、音声信号伸張部３１９と、音声出力部３２０と、音声ＡＤ変換部３２１と、マイク部３２２と、外部入力部３２３と、静止画像解析部３２４と、静止画像信号伸張部３２５とを備える。

レンズ部３００は、被写体から入射した光の焦点距離、及びズーム倍率（動画像の拡大倍率）等を調整する。これらはレンズ制御部３０７からの制御により行われる。レンズ部３００は、図２のレンズ群２００に相当する。

撮像部３０１は、レンズ部３００を透過した光を電気信号に変換する。撮像部３０１は、撮像制御部３０５の制御により、撮像素子上の任意の範囲のデータを出力する。また動画像データ以外にも、３原色点の色度空間情報、白色の座標、及び３原色のうち少なくとも２つのゲイン情報、色温度情報、Δｕｖ（デルタｕｖ）、及び、３原色又は輝度信号のガンマ情報等の情報も出力することが可能である。これらの情報は、属性情報生成部３０９へ出力される。撮像部３０１は、図２の撮像素子２０１に相当する。

動画像ＡＤ変換部３０２は、撮像部３０１からの電気信号を、所定の処理内容にしたがってアナログ信号からデジタル信号に変換する。動画像ＡＤ変換部３０２は、図２の動画像ＡＤＣ２０２に相当する。

動画像信号処理部３０３は、動画像ＡＤ変換部３０２から出力されたデジタル信号を、所定の動画像信号フォーマットに変換する。例えば、ＮＴＳＣで規定された水平線の数、走査線の数、及びフレームレートに準拠した動画像信号に変換する。動画像信号処理部３０３は、図２の動画像信号変換回路２０３に相当する。

動画像信号圧縮部３０４は、動画像信号処理部３０３によって処理されたデジタル信号に対して所定の符号化変換を行い、データ量を圧縮等する。具体例としては、ＭＰＥＧ２、ＭＰＥＧ４、Ｈ．２６４等の符号化方式がある。動画像信号圧縮部３０４は、図２の圧縮伸張回路２１２の圧縮機能に相当する。

撮像制御部３０５は、撮像部３０１の動作を制御する。具体的には、撮像制御部３０５は、撮像部３０１に対して、撮影時の露出量、撮影速度、及び感度等を制御する。また、これらの制御情報は、属性情報生成部３０９へも併せて出力される。撮像制御部３０５は、図２のＣＰＵ２０４で処理される制御アルゴリズムの一つによって実現される。

動画像解析部３０６は、撮影された動画像信号から動画像の特徴を抽出する。本実施の形態では、色情報（例えば、動画像に含まれる色の分布を検出する）、ホワイトバランス、及び動画像に人物の顔が含まれている場合には、当該人物の顔検出を行う等、動画像信号を解析することで、動画像の特徴を抽出する。なお、色分布の検出は、動画像信号を形成するデータに含まれる色情報を確認することで実現可能である。また、顔検出については、パターンマッチング等を用いることにより実現可能である。動画像解析部３０６は、図２のＣＰＵ２０４でソフトウェア処理されるアルゴリズムの一つによって実現される。

レンズ制御部３０７は、レンズ部３００の動作を制御する。レンズ制御部３０７は、ズーム制御部３０７ａ、フォーカス制御部３０７ｂ、及び手振れ補正制御部３０７ｃ等を備える。

ズーム制御部３０７ａは、レンズ部３００のズームレンズを制御することで、被写体からの入射光を所望の拡大倍率にして撮像部３０１に入力させる。フォーカス制御部３０７ｂは、レンズ部３００のフォーカスレンズを制御することで、被写体と撮像部３０１との焦点距離を設定する。手振れ補正制御部３０７ｃは、動画像等の撮影時の該装置の揺れを抑制する。レンズ制御部３０７は、レンズ部３００を制御するとともに、これらの制御情報を属性情報生成部３０９へ出力する。レンズ制御部３０７は、図２のレンズ制御モジュール２０６に相当する。

姿勢検出部３０８は、ビデオカメラ１００の加速度、角速度、及び仰角・俯角等を検出する。姿勢検出部３０８は、加速度センサ３０８ａ、角速度センサ３０８ｂ、及び仰角・俯角センサ３０８ｃを備える。これらのセンサは、ビデオカメラ１００の姿勢及びその変化状況を検出する目的等に用いられる。加速度及び角速度については、垂直・水平（２方向）の３方向について検出できることが望ましい。姿勢検出部３０８は、図２の姿勢検出センサ２０７に相当する。

マイク部３２２は、周囲の音を電気信号に変換して音声信号として出力する。マイク部３２２は、図２のマイクロフォン２１７に相当する。

音声ＡＤ変換部３２１は、マイク部３２２から入力されたアナログ電気信号をデジタル電気信号に変換する。音声ＡＤ変換部３２１は、図２の音声ＡＤＣ２１６に相当する。

音声解析部３１２は、電磁たる電気信号に変換された音声データから特徴のある音を抽出する。ここで特徴のある音とは、例えば、撮影者の声、特定の単語の発音、歓声、及び銃声等がある。これらの音の識別は、これらの音（音声）が持つ特有の周波数を予め登録しておき、それとの比較結果で判別するなどの方法等を用いることで、抽出が可能である。またこれ以外にも、マイク部３２２が捕捉した音の入力レベル等の特徴も検出する。音声解析部３１２は、図２のＣＰＵ２０４でソフトウェア処理されるアルゴリズムの一つによって実現される。

音声信号圧縮部３１３は、音声ＡＤ変換部３２１から出力された音声データを、所定の符号化アルゴリズムで変換する。符号化には、ＭＰ３（ＭＰＥＧＡｕｄｉｏＬａｙｅｒ−３）及びＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）等の方法がある。音声信号圧縮部３１３は、図２の圧縮伸張回路２１２の圧縮機能の一つによって実現される。

外部入力部３２３は、動画像撮影時に外部から受信した各種の情報、例えば、撮影者によるボタン入力、又は外部から通信経由で受信した撮影インデックス情報等を出力する。なお、撮影インデックス情報とは、例えば、映画撮影時における撮影場面を識別する番号又は撮影回数を示す番号等、それぞれの撮影を識別するために用いられる識別番号などである。外部入力部３２３は、図２の入力ボタン２０８等に相当する。

属性情報生成部３０９は、動画像並びに静止画像の撮影時における撮影情報、外部入力情報、及びその他の情報を属性情報（メタデータ）として生成する。属性情報に含まれる情報の一例として以下のような情報が考えられる。

・焦点距離
・ズーム倍率
・露出
・撮影速度
・感度
・３原色点の色空間情報
・ホワイトバランス
・３原色のうち少なくとも２つのゲイン情報
・色温度情報
・ Δｕｖ（デルタｕｖ）
・３原色または輝度信号のガンマ情報
・色分布
・人物情報（顔認識情報）
・カメラ姿勢（加速度、角速度、仰角・俯角等）
・撮影時刻（撮影開始時刻、終了時刻）
・撮影インデックス情報
・ユーザ入力
・フレームレート
・サンプリング周波数
・構図の変化量

属性情報には、上記の撮影時の各種情報から算出され、動画像シーンを特徴づける新たな情報（撮影時の各種情報等を組み合わせ、それらを分析等することで得られる情報等）も含まれる。例えば、カメラ姿勢（加速度、角速度、仰角・俯角等）の情報からビデオカメラ１００の撮影時におけるパン、ティルト等のカメラワークの情報を得ることが可能となる。また、焦点距離、及びズーム倍率の情報は、そのままでも属性情報として用いることが可能である。属性情報生成部３０９は、撮影時の各種情報からシーン評価に有用な情報を抽出、あるいは算出等して、属性情報を生成する。

シーン解析部３１０は、属性情報生成部３０９で生成された属性情報に基づいて、それぞれのシーンを評価する。そして、その評価結果に基づいて、再生すべきシーンを選択する。シーンの評価及び選択方法等については、後に詳細に説明する。

再生情報生成部３１１は、シーン解析部３１０で選択された再生すべきシーンを再生情報として生成する。この点についても後述する。

属性情報生成部３０９、シーン解析部３１０、及び再生情報生成部３１１は、図２のＣＰＵ２０４でソフトウェア処理されるアルゴリズムの一つである。

多重化部３１４は、動画像信号圧縮部３０４から出力される符号化動画像データ、音声信号圧縮部３１３から出力される符号化音声データ、及び再生情報生成部３１１から出力される再生情報等を多重化して出力する。多重化部３１４は、図２のＣＰＵ２０４で実行されるソフトウェアであってもよいし、圧縮伸張回路２１２で、ハードウェア処理されるものであってもよい。

記憶部３１５は、多重化部３１４から出力された符号化動画像データ、符号化音声データ、再生情報が多重化されたデータ、及び静止画像のデータ等を、一時保持又は長期保持する。記憶部３１５は、図２のＨＤＤ２１５、ＲＡＭ２１４、及びメモリカード２１８等に相当する。

ダイジェスト再生部３１６は、記憶部３１５に記憶された多重化されたデータを読み出し、そこから再生情報を抽出する。そして、ダイジェスト再生部３１６は、再生情報に従って、動画像データを動画像信号伸張部３１７で、音声データを音声信号伸張部３１９でそれぞれ復号させ、表示部３１８及び音声出力部３２０から出力する。ダイジェスト再生部３１６は、図２のＣＰＵ２０４で実行されるソフトウェア処理のアルゴリズムの一つである。

静止画像解析部３２４は、属性情報生成部３０９で生成等された情報、又は、シーン解析部３１０で解析されたシーン情報等に基づいて、撮影した動画像から好適な画像（フレーム）を静止画像として抽出する。具体的な抽出方法等については後述する。抽出した静止画像は、必要に応じて画像圧縮等の処理が行われ、記憶部３１５に記憶される。静止画像解析部３２４は、図２のＣＰＵ２０４で実行されるソフトウェア処理のアルゴリズムの一つである。

静止画像信号伸張部３２５は、記憶部３１５に記憶されている静止画像のデータを読み出し、それを表示部３１８に表示する。なお、記憶部３１５に記憶されている静止画像には、必ずしも画像圧縮等の処理を施す必要はない。静止画像信号伸張部３２５は、図２の圧縮伸張回路２１２の伸張機能に相当する。

上記の構成により、ビデオカメラ１００は、撮影した動画像から、属性情報に基づいて好ましいシーンを自動的に抽出し、その部分のみを再生等することが可能となる。

なお、図３Ａに示す撮影部１１０は、例えば、図３Ｂに示すレンズ部３００、撮像部３０１、動画像ＡＤ変換部３０２、及び動画像信号処理部３０３に相当する。属性情報生成部１２０は、例えば、属性情報生成部３０９に相当する。評価部１３０は、例えば、シーン解析部３１０に相当する。静止画像抽出部１４０、閾値変更部１５０、及び抽出間隔変更部１６０は、例えば、静止画像解析部３２４に相当する。記録媒体１７０は、例えば、記憶部３１５に相当する。なお、以上の対応関係は、これに限定するものではない。

なお、図２に示されるハードウェア構成図、図３Ａ及び図３Ｂに示される機能ブロック図は、本発明の実施するための一態様であり、これに限定されるものではない。例えば、図３Ｂにおいて、シーン解析部３１０及び再生情報生成部３１１は、記憶部３１５にデータを記憶する前に処理を実行している。しかしながら、シーン解析部３１０及び再生情報生成部３１１は、圧縮された動画像信号及び圧縮された音声信号と、撮影時の属性情報とを多重化して、一度記憶部３１５に記憶させ、当該データを記憶部３１５から読み出した後にシーン解析、又は再生情報の生成等を行うものであっても良い。

また、図２のハードウェア構成図と、図３Ａ及び図３Ｂの機能ブロック図との対応関係は、上記記載に限定するものではない。上記の説明は、本発明を実施するための一形態として示すものであって、機能構成とハードウェア構成とが異なる関係であってもよい。

＜２．撮影したシーンの解析、再生情報の生成＞
図４は、ビデオカメラ１００が撮影する動画像の構成を示す図である。撮影者が撮影開始を指示し、撮影の終了又は撮影の一時停止を指示するまでに撮影された動画像の単位を「クリップ」とする。撮影者が撮影の開始、撮影の終了又は一時停止を何度も繰り返すと、クリップが複数生成される。図４の例では、各クリップに、クリップ番号（Ｃｌｉｐ＃１〜＃Ｎ）が付与されている。

一つのクリップは、一つ又は複数の「シーン」から構成される。「シーン」は、論理的につながりのある一続きの動画像である。シーンは、任意に設定することが可能である。例えば、クリップを一つのシーンとして「１クリップ」＝「１シーン」と設定してもよい。また、画面が大きく変わることを境として「シーン」を設定してもよい。この場合には、動画像解析部３０６がフレーム間の動きベクトルを算出し、「動き」の大きさ（変化）が所定の値より大きい場合を、「シーン」の切り替え部分としてもよい。その他の撮影情報等に基づいて「シーン」を区切っても良い。

また、シーン解析部３１０は、その他の撮影情報等に基づいてシーンを区切ってもよい。例えば、撮影者からのボタン入力により「シーン」を区切っても良い。この場合に、撮影者の明確な意図で「クリップ」内の「シーン」を構成することが可能となる。１つのクリップに複数のシーンが含まれる場合、図４に示すように、各シーンには、シーン番号（Ｓｃｅｎｅ＃１〜＃ｎ）が付与される。

「シーン」は、一つ又は複数の「フレーム」から構成される。「フレーム」は動画像を構成する個々の静止画像である。図４に示すように、各フレームには、フレーム番号（Ｆｒａｍｅ＃１〜＃ｎ）付与される。

図５は、シーン解析部３１０が、クリップ内を複数のシーンに分割した場合の例を示す図である。シーン解析部３１０は、属性情報に含まれる撮影開始時刻及び撮影終了時刻等に基づいてクリップを分割する。図５では、それぞれのシーンを「開始時間」と「終了時間」とで定めているが、フレーム番号等でシーンの開始と終了とを定めても良い。

図６は、シーン解析部３１０が、それぞれのシーンを評価する際に用いる属性情報の種類と評価値とを対応付けた評価基準を示した図である。例えば、クリップイン（撮影の開始部分）又はクリップアウト（撮影の終了前部分）の部分を動画像の導入部分や重要部分と考えている場合は、撮影された動画像が持つ論理的な意味が高いと推論することができる。この例では、「クリップイン（Ａ）」及び「クリップアウト（Ｆ）」に対応付けられた評価値は、１００となっている。

その他にも、撮影時のカメラワークとして「ズームアップ（Ｄ）」及び「ズームダウン（Ｇ）」についても、特定の被写体への注目度を高めるとの観点から評価値を３０として対応付けている。このように、シーン解析部３１０は、予め属性情報の内容と、内容それぞれに対する数値化された評価値とを対応付けた評価基準を持っている。

なお、図６は、評価値が高いほど高い評価（好ましい）であることを示している。シーン解析部３１０は、図６の属性情報の内容と、評価値との関係に基づいて各シーンを評価する。

なお、一つのシーンに複数の属性情報が与えられている場合、シーン解析部３１０は、それぞれの属性情報に割り当てられている評価値を加算して、当該シーンの評価値としてもよい。また、一つのシーンに複数の属性情報が与えられている場合、シーン解析部３１０は、該当する属性情報の中から最も評価の高い評価値を当該シーンの評価値としてもよい。さらに、別の方法として、シーン解析部３１０は、複数の属性情報の評価値の平均値を、当該シーンの評価値としてもよい。さらに、より詳細に評価を行う場合には、シーンを構成するフレーム毎に評価をしてもよい。

また、シーン解析部３１０は、評価を好ましい項目（識別子Ａ〜Ｈ、Ｘ〜Ｚ）についてだけ評価を行う必要はない。例えば、撮影時の手振れ（Ｉ）は、動画像の視聴者に見づらい動画像となる可能性がある。こういった属性を持つシーンには、減点（マイナス点）の評価を行うものであってもよい。図６の例では、「手振れ（Ｉ）」に対応付けられた評価値は−２０、「地面（垂直下方向）撮影（Ｊ）」に対応付けられた評価値は−１０である。

なお、図６の属性情報の内容と評価値との関係は、一つに限定されるものではない。例えば、属性情報の種類と評価値との組み合わせを予め複数パターン用意しておき、ビデオカメラ１００の撮影者が撮影するモード（例えば、風景の撮影、人物（ポートレート）撮影、静物撮影等）によって切り換えるものであってもよい。また、予め複数の組み合わせデータを備えておき、撮影モードによって、複数のデータを合成（それぞれの評価値を一定の比率で加算等）したものであってもよい。この場合には、合成の比率を変えることで、動的に属性情報と評価との組み合わせデータを変更することが可能となる。

さらには、ユーザが、外部入力部３２３などを利用して、属性情報の項目及び評価値を変更してもよい。これにより、ユーザがより重要と考えている属性に対する評価を高めることができる。その結果、シーン解析部３１０は、よりユーザの意向に沿った評価を行うことができる。

図７は、シーン解析部３１０が、各シーンに評価値を割り当てた結果を示した図である。図７は、横軸に時間（シーン）を、縦軸に各シーンの評価値を示している。また、図７では、評価値が８０〜１００のシーンを「Ａ」、評価値が５０〜７９のシーンを「Ｂ」、評価値が３５〜４９のシーンを「Ｃ」、評価値が２６〜３４のシーンを「Ｄ」、評価値が０〜２５のシーンを「Ｅ」、評価値が−１〜−１０までのシーンを「Ｊ」、評価値が−１１以下のシーンを「Ｉ」で表している。

図７の時間０付近の「Ａ」の符号がつけられているシーンは、撮影を開始した直後であるため「クリップイン（Ａ）」の属性を持つ。図６に従えば、「クリップイン（Ａ）」属性の評価値は、１００である。

「Ｂ」の符号が付けられているシーンは、「特定音声の抽出（Ｂ）」の属性を持つ。特定音声の抽出は、音声解析部３１２等により得られるものである。図６に従えば、「特定音声の抽出（Ｂ）」属性の評価値は７０である。

「Ｃ」の符号が付けられているシーンは、撮影者がカメラをパン、ティルト等のビデオカメラ１００本体を動かして撮影した後に、静止して撮影することを意味する「（カメラワーク後に）静止して撮影（Ｃ）」の属性を持つ。このようなシーンは、静止して撮影する際の被写体に、動画像としての価値が高いと判断できる。図６に従えば、「（カメラワーク後に）静止して撮影（Ｃ）」属性の評価値は４０である。

「Ｄ」の符号が付けられているシーンは、ビデオカメラをズームアップ又はズームダウン等して撮影しているシーンである。図６に従えば、「ズームアップ（Ｄ）」及び「ズームダウン（Ｅ）」属性の評価値は３０である。

ただし、ズームアップとズームダウンとで評価値を変えることも可能である。例えば、ズームアップに対する評価値をズームダウンに対する評価値よりも高く設定してもよい。これにより、ズームアップで撮影されるシーン、つまり動画像の拡大倍率が大きくなるシーン（拡大されて撮影される被写体があるシーン）、については、比較的高い評価値を割り当てても良い。逆に、動画像の拡大倍率が小さくなるシーンについては、比較的低い評価値を割り当てることも可能である。

「Ｅ」の符号が付けられているシーンは、ビデオカメラ１００が「パン、ティルト（Ｅ）」等の動きをともなった撮影（カメラワーク）を行ったシーンである。図６に従えば、「パン、ティルト（Ｅ）」属性の評価値は２５である。

また、「Ｉ」の符号が付けられているシーンは、撮影時に「手振れ（Ｉ）」を伴って撮影されているシーンを示している。これらのシーンについては、動画像を視聴した際に画面が揺れる等、見づらいシーンとなっている可能性があるので、減点している。図６に従えば、「手振れ（Ｉ）」属性の評価値は、−２０である。

また、「Ｊ」の符号が付けられているシーンは、撮影者が、撮影を停止又は一時中断せずに誤ってカメラを持ったまま移動等している場合に起こりやすい、地面（垂直下方向）撮影（Ｊ）」をし続けているようなシーンを示す。図６に従えば、「地面（垂直下方向）撮影（Ｊ）」属性の評価値は、−１０である。

なお、同様の撮影ミスとして、低照度（ローライト）での撮影、逆光での撮影、ピンボケ（フォーカスはずれ）での撮影、白とびでの撮影、黒沈みでの撮影などがある。これらの撮影ミスについても、手振れ及び地面撮影と同様にマイナスの評価値で表現し、減点することができる。このように、撮影された画像の価値を高める属性情報（成功撮影）に正の評価値を対応付け、撮影された画像の価値を低下させる属性情報（ミス撮影）に負の評価値を対応付けてもよい。

この場合における各シーンの評価は、当該シーンの全ての属性情報（成功撮影及びミス撮影）に対応付けられた評価値を合計する。そして、当該合計された評価値と評価閾値とを比較し、合計された評価値が評価閾値を超えた場合に、静止画像を抽出するようにしてもよい。

以上より、シーン解析部３１０は、各シーンについて評価値を割り当てる。なお、図７の例では、シーンを単位として評価値を割り当てたが、シーン解析部３１０は、クリップ単位、又は、フレーム単位で上記の評価値の割り当てを行ってもよい。

シーン解析部３１０は、さらに、各シーンに割り当てられた評価値に基づいて、好ましいシーンのみを抽出する。具体的には、評価値が所定の閾値（評価閾値）を超えるような、評価の高いシーンのみを抽出する。例えば、図７において評価閾値を５０とした場合、この評価閾値よりも高い評価を得ている（ｉ）〜（ｉＶ）の部分のシーンのみを抽出する。

なお、抽出方法については、上記の方法以外にも、又、上記の方法と組み合わせて、抽出されたシーンの合計再生時間が所定の時間以内であること、又は、シーンの評価値が一定以上であること等、様々な観点で抽出をすることが可能である。

再生情報生成部３１１は、シーン解析部３１０で抽出されたシーンに従って、動画像再生の手順及び方法を示す再生情報を生成する。この再生情報とは、例えば、図８に示すような、再生対象となるシーンの開始時刻と終了時刻とで示されるものであってもよい。この場合、各シーンの中における代表的な静止画像（シーン中における最も評価の高い静止画像等）を特定するための「代表時間」等を別途記憶しておくと、参照用画面の検索にも有効である。

また、別の方法として、これらの動画像を記憶した記憶部３１５の記憶方法にしたがったシーン特定方法であってもよい。具体的には、各シーンが記憶部３１５にファイル単位で記憶されている場合等は、このファイルを識別することで、特定のシーンのみを選択して再生することが可能となる。

なお、再生情報の管理は上記の内容に限られず、他の方法であってもよい。例えば、フレーム番号による指定などでも可能である。また、再生情報生成部３１１が生成した再生情報を、ＭＰＥＧ等のＴＳ（ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）として多重化部３１４で多重化する場合等には、多重化時に用いられる時刻情報、より具体的には、ＰＴＳ（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅＳｔａｍｐ）またはＤＴＳ（ＤｅｃｏｄｉｎｇＴｉｍｅＳｔａｍｐ）等を用いて再生情報を記録することも可能である。Ｈ．２６４の場合にも同様に、所定の多重化時の時刻情報を用いてもよい。

さらに、一部のビデオカメラのデータ記録方式として用いられているＡＶＣＨＤ（ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｅｃＨｉｇｈＤｅｆｉｎｉｔｉｏｎ）等の規格を用いて動画像データを記録する場合には、ＰｌａｙＬｉｓｔファイル等に再生情報を記録する方法を用いても良い。

以上により、撮影した動画像からダイジェスト動画像（要約された映像）を自動的に生成することが可能となる。

＜３．静止画像の自動抽出について＞
＜３．１動画像のシーン毎の評価を利用する場合＞
静止画像解析部３２４は、シーン解析部３１０からシーンごとの評価値を取得し、その評価値に基づいて取得すべき静止画像を決定する。

まず、静止画像解析部３２４は、シーン解析部３１０がシーン毎に行った図７の評価値を取得する。次に、静止画像解析部３２４は、シーン毎の評価結果に基づいて、評価値が所定の評価閾値より大きいシーンを、静止画像取得対象のシーンとして決定する。図７の例では、例えば評価値が５０以上のシーンを静止画像取得の対象シーンとすると、「Ａ」又は「Ｂ」の符号が付されたシーンが対象となる。この場合、静止画像解析部３２４は、これらのシーンの中から、「Ａ」又は「Ｂ」の符号が付されたフレームを特定し、それらを静止画像として抽出する。

静止画像となるフレームをシーンから抽出する方法は、例えば、シーンを代表する代表画像（図６及び図８の「代表時間」で特定される静止画像）を静止画像として抽出してもよい。また、それ以外にも、シーンの中で撮影時のカメラの動きが比較的小さいフレームを抽出する方法がある。この場合は、撮影時のカメラの動きが小さいことから、比較的手振れの少ない静止画像を抽出することが可能となる。静止画像解析部３２４は、抽出した静止画像を、記憶部３１５に静止画像データとして記憶させる。

なお、静止画像解析部３２４は、抽出対象となる静止画像データを、動画像信号処理部３０３から出力されたデータ、又は動画像信号圧縮部３０４から出力されたデータのいずれからも取得することが可能である。しかし、動画像信号圧縮部３０４で符号化された後の動画像データから静止画像を抽出すると、符号化の際に一部のデータ（画像に関わるデータ）が削除される場合がある。そのため好ましくは、符号化される前の動画像信号処理部３０３から出力されたデータから静止画像データを抽出することが望ましい。

また、静止画像解析部３２４は、抽出した静止画像データをＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃｓＥｘｐｅｒｔｓＧｒｏｕｐ）等の静止画像圧縮技術を用いて記憶部３１５に記憶させてもよい。この場合には、非圧縮の場合と比較してデータ量を削減できるため、記憶部３１５に比較的高速に記憶処理を行うことが可能となる。

静止画像信号伸張部３２５は、記憶部３１５に記憶された静止画像データを読み出し、表示部３１８に出力する。また、静止画像データにＪＰＥＧ等の圧縮処理が施されている場合には、これらを伸張処理してから表示部３１８に出力する。

本実施の形態に示した構成により、ビデオカメラ１００は、動画像を撮影しながら、または、動画像撮影後に、シーン毎の評価を行う。そして、この評価結果を利用して、ダイジェスト（要約）再生の情報を生成するとともに、好適な静止画像の自動抽出も行うことが可能となる。

＜３．２動画像のシーン毎の評価とは独立した評価を利用する場合＞
上記の例では、ダイジェスト動画像を生成する場合のシーン毎の評価と、静止画像抽出の評価とを同じ評価基準で行っていた。しかしながら、動画像と静止画像とでは性質が異なるので、異なる評価基準で評価することが考えられる。例えば、ダイジェスト動画像の場合、音声を含んで記録することが考えられる。一方、静止画像の場合は、音声の記録はないものとして考えられる。そのため、動画像と静止画像とでは、音声データの価値が異なってくる。

そこで、本実施の形態の静止画像解析部３２４では、図９に示されるような属性の種類と評価値との関係を用いる。この場合は、例えば、「特定音声の抽出（Ｂ）」については、シーン評価の際に用いた図６の評価基準（７０点）と図９の評価基準（１０点）とで、大きく異なる内容となっている。

また、動画像の撮影中には、カメラを動作させながら撮影することも十分ありえる。一方、静止画像の場合、撮影する瞬間の画像のブレ等は、動画像の場合より好ましくないと考えられる場合がある。このような観点から、「（カメラワーク後に）静止して撮影（Ｃ）」については、図６の評価基準（４０点）と図９の評価基準（８０点）とで、大きく異なる内容となっている。また同様に、「ズームアップ（Ｄ）」、及び「パン、ティルト（Ｅ）」については、図６の評価基準（３０点）及び（２５点）と、図９の評価基準（４０点）及び（５点）とで、大きく異なる内容となっている。

静止画像解析部３２４は、図７と同様に、図９に例示する静止画像抽出用の評価基準に基づいて、撮影した動画像をフレーム毎に判定する。図１０は、その一例である。図１０は、フレーム毎に属性情報に基づいて評価した評価値を時間的に並べたグラフである。そして、静止画像解析部３２４は、図１０に示す静止画像抽出用の評価に基づいて、好適な静止画像の抽出を行う。

図１０において、静止画像解析部３２４は、評価値が４５より大きいシーンから静止画像を抽出すると仮定した場合、０：１３：３０〜０：１５：２０の間（ｉ）と、０：２０：５０〜０：２１：５０の間（ｉｉ）と、０：２３：００〜０：２３：４５の間（ｉｉｉ）とが対象シーンとなる。この場合、静止画像解析部３２４は、それぞれの区間から静止画像を抽出する。

例えば、０：１３：３０〜０：１５：２０の間（ｉ）から静止画像を抽出する場合、静止画像解析部３２４は、動画像撮影と同時に図１０に示す評価を行う。その場合、静止画像解析部３２４は、０：１０：００頃から評価値が増加し、０：１３：４５頃に評価値が第１回目の頂点になり、その後０：１４：００まで評価値は減少することを検出する。そこで、静止画像解析部３２４は、評価値が所定の値（この場合は、４５）より大きく、かつ、その評価値の変動率（増加率）が一定の大きさから小さくなった場合に、その時点での静止画像を撮影した動画像から抽出する。

静止画像解析部３２４は、第１回目の頂点となる０：１３：４５頃の動画像から静止画像を抽出する。こうすることで、図１０に示される評価値のグラフにおいて、第１回目の頂点近傍の静止画像として好適な画像を抽出することが可能となる。

なお、０：１３：３０〜０：１５：２０の間（ｉ）では、０：１３：４５以降の０：１４：４０頃に、再度評価値が上がり、第２回目の頂点となる。この場合、静止画像解析部３２４は、同様に０：１４：４５頃の動画像から静止画像を抽出するものであってもよい。

＜３．３静止画像の自動抽出の例外について＞
図１０の場合において、シーン０：１３：３０〜０：１５：２０の間（ｉ）では、０：１３：４５頃の動画像から抽出した静止画像と、０：１４：４５頃の動画像から抽出した静止画像とは、同一のシーンから抽出された静止画像である場合が多い。つまり、評価値だけで静止画像の抽出を行うと、抽出される複数の静止画像は、その被写体、被写体の背景、又は画角に対する構図が似通っている（類似の静止画像となる）場合がある。このような場合には、例え静止画像解析部３２４による評価が高評価であったとしても、類似の静止画像を抽出するのでは、不便な場合がある。

そこで、本実施の形態に係る静止画像解析部３２４は、先に静止画像として抽出され、記憶部３１５に記憶された第１の静止画像と、後から抽出された第２の静止画像との類似性を算出する。そして、その類似性の算出結果に基づいて、第１の静止画像及び第２の静止画像のいずれかのみを、記憶部３１５に記憶させることも考える。

この場合、静止画像解析部３２４は、例えば、図１０の評価を行った際の判断基準となった属性情報の種類等を比較するによって、両静止画像の類似性を判断することが考えられる。属性情報がすべて同一の場合は、両者に大きな差異が生じない場合があるからである。反対に属性情報が大きく異なる場合は、両者の画像内容が大きく異なることが考えられる。そのため、評価を行なった際の判断基準として用いた属性情報を利用することで、類似性を算出することが可能である。

さらに、静止画像解析部３２４は、両静止画像の画像内容を比較することも可能である。例えば、両静止画像の画像内容から輝度信号を抽出し、その輝度信号を両画像で比較することで、画像としての変化の大きさを検出することも可能である。

また、これ以外にも、両画像の構図を比較することで、差異の大きさを検出することも可能である。例えば、予め画像を所定の格子状に区切り、それぞれの格子（ブロック）単位で画像（画素値）を比較することで、両画像の構図の変化量を検出することも可能である。

この場合には、各格子単位で第１の静止画像と第２の静止画像との画素値を比較し、相違する画素が所定の数以上となる格子の数を算出する。そして、算出された格子数が予め定めた閾値以上あった場合に、構図が変化した（類似性が低い）として、両静止画像を抽出してもよい。

また、第１の静止画像と第２の静止画像との画素値を格子毎に比較し、相違する画素が所定の数以上となる格子の数が予め定めた閾値以上で、かつ、第１の静止画像と第２の静止画像との時間差（フレーム数の差）が所定内である場合に、構図が変化したとしてもよい。つまり、第１及び第２の静止画像の時間的な距離が近いほど閾値を小さくし、時間的な距離遠いほど閾値を大きくしてもよい。

さらに、それぞれの静止画像が属する動画像のシーンを比較することで、類似性を検討することも可能である。この場合は、静止画像を抽出した画像（フレーム）が属するシーンを特定し、そのシーンの差異に基づいて類似性を算出するものであってもよい。また、動画像の内容が大きく変わる位置をシーンの区切りとする場合には、第１及び第２の静止画像が同一のシーンに含まれていれば一方のみを記録し、第１及び第２の静止画像が互いに異なるシーンに含まれていれば両方を記録することもできる。

また、静止画像解析部３２４は、第１及び第２の静止画像の撮影時刻の差を考慮することも可能である。これは、第１及び第２の静止画像の撮影時間の差が僅かであればあるほど、両静止画像の内容が類似する可能性があるからである。例えば、ビデオカメラ１００で動画像を撮影していて、被写体やビデオカメラ１００に何も変化がない場合、評価値はあまり変動しない可能性が高くなることが考えられる。そのため、両静止画像の撮影時間も類似性の算出に考慮することが可能である。

これをより発展させた方法として、人物の顔を被写体とした場合に以下のように適用することができる。つまり、人物の顔を認識する技術である認識技術と、構図の変化量及び時間差等の情報を用いるものである。この技術を利用する方法を検討する。

静止画像解析部３２４は、図９に示すように、顔検出及び顔識別を行うことが可能である。この場合、静止画像解析部３２４は、予め登録した人物Ａの顔を撮影対象から識別する。人物Ａの顔に関する情報（顔情報）は、例えば、予め記憶部３１５等に記憶しておく。そして、静止画像解析部３２４は、撮影した動画像に写る被写体が、記憶部３１５に記憶された顔情報に基づいて、人物Ａであるか否かを判定する。

なお、図９に示されるように、人物Ａが被写体として写っている場合の評価値を１００とし、人物Ｂが写っている場合の評価値を８０とし、人物Ａ、人物Ｂ以外の登録されていない人物が写っている場合の評価値を４０とする。この場合、撮影した映像に人物Ａ、人物Ｂ、その他の人物が写っている場合は、最も高い評価値を得られる人物Ａを基準に評価値を設定してもよい。

この場合、登録されている人物Ａ及び人物Ｂは、撮影者にとって非常に関心の高い人物（被写体）と考えられる。そこで、静止画像の自動抽出にも、これらの関心の高さを反映したものであることが好ましい。図１１はその一例である。図１１は、被写体となる人物を識別する人物情報と、構図の変化量とに基づいて定められる最低待機時間の例を示す図である。なお、「最低待機時間」とは、静止画像解析部３２４が、第１の静止画像を撮影してから、第２の静止画像を撮影するまでに空けるべき時間（撮影の頻度）を示す。

図１１に示されるように、人物Ａの顔（最も評価値が高い）が被写体として写っている、かつ、構図の変化量が比較的大きい場合（構図の変化量が予め定めた変化量よりも大きい場合）、静止画像解析部３２４は、第１の静止画像を取得してから第２の静止画像を取得するまでの最低待機時間を１０秒とする。同様に、人物Ｂの顔が写っている場合の最低待機時間を３０秒、その他の人物の顔が写っている場合の最低待機時間を６０秒としている。一方、構図の変化量が比較的小さい場合（構図の変化量が予め定めた変化量よりも小さい場合）における最低待機時間は、人物Ａの顔が写っていたとしても６０秒、人物Ｂの顔の場合は１２０秒、その他の人物の顔の場合は３００秒とする。

つまり、図９に示される評価基準において、高い評価値が対応付けられている人物が写っているほど、最低待機時間を短くする。また、構図の変化量が大きいほど、最低待機時間を短くすればよい。

ここで、構図の変化量が比較的小さい場合に、静止画像解析部３２４が自動的に図９等の評価値のみだけで静止画像を取得すると、取得された静止画像は類似したものとなり、変化が少ないため面白みが少ない場合がある。その反面、構図の変化量が少ないことで、静止画像解析部３２４が全く静止画像を取得しないと、長時間の撮影にも拘わらず、静止画像はほとんど取得できない場合も生じる。

上記のような事象を防ぐため、静止画像解析部３２４は、撮影する構図の変化量と被写体として捉えられる人物の顔（人物情報）との少なくとも一方に基づいて、静止画像の取得間隔を変化させるものであってもよい。これにより、より関心のある人物の顔が被写体として写っている場合はより多くの静止画像を取得し、関心の低い人物の場合ほど取得する静止画像の数を減らすことが出来る。また、構図の変化量をも考慮することで、最も関心のある人物について、変化に富んだ静止画像をより多く取得できる。

また、図１１の表は、ビデオカメラ１００に予め複数の表を記憶させておき、撮影モード（例えば、人物撮影、動体被写体の撮影、マクロ撮影、風景の撮影）の切り替えにしたがって、その表(例えば、人物撮影用の表、動物被写体の撮影用の表等)を切替えるものであっても良い。この場合には、被写体の特性に応じてより好適に静止画像を取得することが可能となる。また、表を切替えるのではなく、複数の表を組み合わせて一つの表を撮影モード等に応じて生成して利用するものであってもよい。

なお、図１１の構図の変化量が比較的小さい場合において、人物Ａの顔、人物Ｂの顔、その他の人物の顔の場合の最低待機時間を、６０秒、１２０秒、３００秒とした。これは、固定値であってもよいし、動的に変化させるものであってもよい。例えば、第１の静止画像を撮影してから第２の静止画像を取得するまでの最低待機時間を、それぞれ６０秒、１２０秒、３００秒とし、第２の静止画像を取得してから第３の静止画像を取得するまでの最低待機時間を、それぞれ１２０秒、２４０秒、６００秒とする等、静止画像を取得するたびに最低待機時間を変化させても良い。こうすることで、類似の構図が続く場合には、似通った静止画像の取得をより抑制することが可能となる。

図１２は、構図の変化量が所定の値以下の状態（つまり、構図がほとんど変化しない）が継続している場合において、撮影する静止画像の枚数と、最低待機時間との関係の概略を示した図である。図１２の実線は、撮影された動画像に人物が写っている場合における最低待機時間の時間変化を示している。同様に、図１２の破線は、撮影された動画像に人物が写っていない場合における最低待機時間の時間変化を示している。

図１２を参照すれば明らかなように、実線及び破線で示される最低待機時間は、いずれも静止画像が抽出される度に長くなっている。これにより、構図の変化が少ない状態が長時間継続する場合には、前半部分における抽出頻度を高く、後半部分における抽出頻度を低くすることができる。

一方、図１２に示される最低待機時間の１回当たりの増加幅は、実線と破線とで異なっている。つまり、人物が写っている場合（実線）は、人物が写っていない場合（破線）より、増加幅が小さく設定されている。なお、図９の評価基準を用いて、評価値の高い人物が写っているほど、増加幅を小さくするようにしてもよい。これにより、関心の高い人物の抽出頻度を高く、関心の低い人物又は人物が写っていない場合の抽出頻度を低くすることができる。

また、図１１以外の方法として、図１０に示す静止画像の評価において、シーン(フレーム)を判定する際の評価閾値を、静止画像を抽出する度に変化させるものであってもよい。例えば、構図の変化量が所定の値以下の状態が継続している場合において、第１の静止画像を取得する際の評価閾値を４０点、第２の静止画像を取得する際の評価閾値を５０点にしてもよい。つまり、第１の静止画像を取得する際の評価閾値より大きい値、又は、同じ値を第２の静止画像を取得する際の評価閾値に設定する。これにより、被写体に人物の顔が写っていない場合の他のケースにも構図の変化量の大きさを考慮して、より好適な静止画像の取得を自動的に行うことが可能となる。

この場合、図１２に示される最低待機時間の時間変化を、評価閾値の時間変化にも応用することができる。図１２の実線は、撮影された動画像に人物の顔が写っている場合の評価閾値の時間変化を示している。同様に、図２の破線は、撮影された動画像に人物の顔が写っていない場合の評価閾値の時間変化を示している。

図１２のように、被写体の内容によって、その評価閾値を変えるものであってもよい。つまり、構図の変化量が所定の値以下の状態が継続している場合において、静止画像が抽出される度に評価閾値を所定の増加幅ずつ増加させてもよい。そして、動画像に写っている人物の評価値が高い程、１回あたりの増加幅を小さくしてもよい。

なお、撮影する動画像の構図が大きく変わった場合、すなわち、構図の変化量が所定量よりも大きい場合は、上記の変化させた最低待機時間、または、評価閾値の設定をリセット（すなわち、予め定めた初期値を設定）してもよい。

なお、被写体として予め登録された人物が写っている場合と、写っていない場合とで、リセットのタイミングを変えても良い。例えば、最低待機時間及び評価閾値には、所定の時間毎に予め定められた初期値が設定（リセット処理）される。そして、動画像に評価値の高い人物が写っているほど、及び／又は、構図の変化量が大きいほど、所定の時間（リセット間隔）を短くすることが考えられる。

次に、図３Ａ及び図１２を参照して、ビデオカメラ１００における静止画像抽出処理を説明する。なお、下記の例では、動画像を構成するシーン毎に評価を行う例を示すが、これに限ることなく、例えば、フィールド毎に評価を行ってもよい。

まず、静止画抽出処理は、動画像の撮影開始と共に開始される（Ｓ１１でＹｅｓ）。つまり、撮影者が図２に示される入力ボタン２０８を押下する等して、撮影の開始を指示したことによって開始される。そして、撮影が開始されると、撮影部１１０で撮影された動画像は、記録媒体１７０に記録されると共に、属性情報生成部１２０及び静止画像抽出部１４０に出力される。

次に、属性情報生成部１２０は、撮影部１１０で撮影された動画像の属性情報を、シーン毎に生成する（Ｓ１２）。なお、ここで生成される属性情報には、例えば、図９に示される評価基準の「属性情報種類」に対応する情報の他、当該シーンの構図の変化量等が含まれる。そして、生成された属性情報は、評価部１３０、閾値変更部１５０、及び抽出間隔変更部１６０に出力される。

上記の構図の変化量は、前述の方法によって算出する。このとき、例えば、現在処理対象となっているシーンの代表画像と、その直線のシーンの代表画像との間で構図の変化量を算出してもよい。または、現在処理対象となっているシーンの代表画像と、直前に抽出された静止画像との間で構図の変化量を算出してもよい。

次に、評価部１３０は、属性情報生成部１２０で生成された属性情報を、例えば、図９に示される評価基準に当てはめることによって、撮影部１１０で撮影された動画像をフレーム毎に評価する（Ｓ１３）。算出された評価値は、静止画像抽出部１４０に出力される。

次に、静止画像抽出部１４０は、評価部１３０で算出された評価値を、評価閾値と比較する（Ｓ１４）。なお、静止画像抽出処理開始時における評価閾値には、予め定められた初期値が設定されている。そして、評価値が評価閾値以下の場合（Ｓ１４でＮｏ）、静止画像抽出部１４０は、当該評価値に対応するシーンから静止画像を抽出することなく、以降の処理（Ｓ１５〜Ｓ１８）をスキップする。

一方、評価値が評価閾値を超えた場合（Ｓ１４でＹｅｓ）、当該シーンの中に静止画像として抽出すべき画像が存在すると判断する。ただし、静止画像を実際に抽出する前に、抽出間隔変更部１６０によって、最低待機時間算出処理が実行される（Ｓ１５）。この例では、図１１を用いて最低待機時間を算出するものとする。つまり、属性情報生成部１２０で生成された属性情報に含まれる人物情報及び構図の変化量に基づいて、最低待機時間を算出する。算出された最低待機時間は、静止画像抽出部１４０に出力される。一方、未だ静止画像の抽出が行われていない場合は、０（ｓｅｃ）が出力される。

次に、静止画像抽出部１４０は、直前に静止画像の抽出を行ってから現在までの経過時間が、最低待機時間を上回っているか否かを判断する（Ｓ１６）。そして、経過時間が最低待機時間以下である場合（Ｓ１６でＮｏ）、静止画像抽出部１４０は、以降の処理（Ｓ１７〜Ｓ１８）をスキップする。

一方、経過時間が最低待機時間を上回っている場合（Ｓ１６でＹｅｓ）、静止画像抽出部１４０は、該当するシーンから静止画像を抽出する（Ｓ１７）。ここで抽出される静止画像は、例えば、シーン中の代表時間に相当するフレームである。そして、抽出された画像は、記録媒体１７０に記録される。

次に、閾値変更部１５０は、評価閾値算出処理を実行する（Ｓ１８）。この例では、図１２を用いて評価閾値を算出するものとする。つまり、属性情報に含まれる構図の変化量が所定の値以下の状態が継続している間、静止画像が抽出される（Ｓ１７）度に評価閾値を所定の増加幅ずつ増加させる。そして、この増加幅は、属性情報に含まれる人物情報に対応付けられた評価値が高い程、小さな値となるように制御する。一方、構図の変化量が所定の値を上回った場合、閾値変更部１５０は、予め定められた初期値を出力する。

そして、ビデオカメラ１００は、上記の処理（Ｓ１２〜Ｓ１８）を、動画像を構成する全てのシーンに対して実行する（Ｓ１９）。これにより、好適な静止画像を自動的に抽出することができる。

なお、上記の最低待機時間算出処理（Ｓ１５）は、最低待機時間を変更する処理の一例であって、これに限定されない。他の例としては、例えば、図１２を用いて最低待機時間を算出することができる。具体的な処理内容は既に説明したので、省略する。また、この場合の最低待機時間算出処理は、静止画像を抽出（Ｓ１７）した後に実行される。

また、上記の評価閾値算出処理（Ｓ１８）は、評価閾値を変更する処理の一例であって、これに限定されない。他の例としては、例えば、図１１に類する表を用いて評価閾値を算出することができる。つまり、動画像に写っている人物と、構図の変化量と、評価閾値とを対応付けた対応表を予め用意しておく。この対応表は、動画像に写っている人物の評価値が高い程、又は構図の変化量が大きい程、評価閾値が小さくなるように調整されている。そして、閾値変更部１５０は、属性情報に含まれる人物情報及び構図の変化量に基づいて、この対応表から新たな評価閾値を決定し、静止画像抽出部１４０に出力してもよい。なお、この場合の評価閾値算出処理は、算出した評価値と評価閾値との比較（Ｓ１４）の前に実行される。

さらに、例えば静止画像を抽出する処理（Ｓ１４〜Ｓ１８）の後に、定期的に評価閾値をリセットする処理を追加してもよい。具体的には、評価閾値算出処理（Ｓ１８）で評価閾値が初期値から変更された時点からの経過時間を監視し、所定の時間経過したら評価閾値を初期値に戻す処理を実行してもよい。そして、所定の時間は、例えば、動画像に写っている人物の評価値が高い程、又は構図の変化量が大きい程、短くなるようにしてもよい。また、最低待機時間を定期的にリセットする処理を追加してもよい。具体的なリセット方法は、評価閾値のリセット方法と共通するので、説明は省略する。

本実施の形態に示した構成により、ビデオカメラ１００は、動画像を撮影しながら、シーン毎の評価を行い、当該評価結果に基づいて、ダイジェスト（要約）再生の情報を生成するとともに、好適な静止画像の自動抽出も行うことが可能となる。

また、本実施の形態により、抽出する静止画像が複数ある場合に、類似性の高い静止画像については無駄な静止画像の抽出を抑制することが可能となる。

なお、本実施の形態ではビデオカメラ１００を用いた場合を例として説明したが、本発明はこの実施の態様に限定されるものではない。例えば、デジタルスチルカメラにおいて、本発明を実施することも可能である。また、ネットワークカメラのような監視カメラ等においても、本発明を実施することができる。

さらに、本発明は、上記の実施の態様を方法として実現することができる。この場合は、上記の実施の形態等で示したビデオカメラ１００等における、制御方法として実現することも可能である。

（その他変形例）
なお、本発明を上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。

上記の各装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

上記の各装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成要素を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。ＲＡＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。ＩＣカードまたはモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。ＩＣカードまたはモジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ＩＣカードまたはモジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、コンピュータプログラムからなるデジタル信号であるとしてもよい。

また、本発明は、コンピュータプログラムまたはデジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されているデジタル信号であるとしてもよい。

また、本発明は、コンピュータプログラムまたはデジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、メモリは、上記コンピュータプログラムを記憶しており、マイクロプロセッサは、コンピュータプログラムにしたがって動作するとしてもよい。

また、プログラムまたはデジタル信号を記録媒体に記録して移送することにより、またはプログラムまたはデジタル信号をネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

上記実施の形態及び上記変形例をそれぞれ組み合わせてもよい。

以上、図面を参照してこの発明の実施形態を説明したが、この発明は、図示した実施形態のものに限定されない。図示した実施形態に対して、この発明と同一の範囲内において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。

本発明は、動画像を撮影しながら好適な静止画像を自動的に抽出（記録）する画像撮影装置に、有利に利用される。

１００ビデオカメラ
１１０撮影部
１２０属性情報生成部
１３０評価部
１４０静止画像抽出部
１５０閾値変更部
１６０抽出間隔変更部
１７０記録媒体
２００レンズ群
２０１撮像素子
２０２動画像ＡＤＣ
２０３動画像信号変換回路
２０４ＣＰＵ
２０５クロック
２０６レンズ制御モジュール
２０６ａレンズ制御用モータ
２０６ｂレンズ位置センサ
２０７姿勢検出センサ
２０７ａ，３０８ａ加速度センサ
２０７ｂ，３０８ｂ角速度センサ
２０７ｃ，３０８ｃ仰角・俯角センサ
２０８入力ボタン
２０９ディスプレイ
２１０スピーカー
２１１出力Ｉ／Ｆ
２１２圧縮伸張回路
２１３ＲＯＭ
２１４ＲＡＭ
２１５ＨＤＤ
２１６音声ＡＤＣ
２１７マイクロフォン
２１８メモリカード
３００レンズ部
３０１撮像部
３０２動画像ＡＤ変換部
３０３動画像信号処理部
３０４動画像信号圧縮部
３０５撮像制御部
３０６動画像解析部
３０７レンズ制御部
３０７ａズーム制御部
３０７ｂフォーカス制御部
３０７ｃ手振れ補正制御部
３０８姿勢検出部
３０９属性情報生成部
３１０シーン解析部
３１１再生情報生成部
３１２音声解析部
３１３音声信号圧縮部
３１４多重化部
３１５記憶部
３１６ダイジェスト再生部
３１７動画像信号伸張部
３１８表示部
３１９音声信号伸張部
３２０音声出力部
３２１音声ＡＤ変換部
３２２マイク部
３２３外部入力部
３２４静止画像解析部
３２５静止画像信号伸張部

Claims

画像撮影装置であって、
動画像を撮影する撮影部と、
前記撮影部で撮影された前記動画像の特徴を示す属性情報を生成する属性情報生成部と、
前記属性情報生成部で生成された前記属性情報を予め定められた評価基準に当てはめることによって、前記動画像の評価値を所定の時間幅毎に算出する評価部と、
前記評価部で算出された前記評価値が評価閾値を超えた場合に、前記動画像のうちの当該評価値に対応する前記時間幅から静止画像を抽出する静止画像抽出部と、
前記属性情報に含まれる情報のうち、前記動画像に含まれる人物を識別する人物情報、及び前記動画像の構図の変化量の少なくとも一方に基づいて、前記評価閾値を変更する閾値変更部とを備える
画像撮影装置。
前記閾値変更部は、前記構図の変化量が所定の値以下の状態が継続している間、前記静止画像抽出部で前記静止画像が抽出される度に、前記評価閾値を所定の増加幅ずつ増加させる
請求項１に記載の画像撮影装置。
前記評価基準には、前記人物情報と、前記動画像に当該人物が含まれていた場合の前記評価値との対応関係が含まれ、
前記閾値変更部は、前記属性情報に含まれる前記人物情報に対応付けられた前記評価値が高い程、前記所定の増加幅を小さくする
請求項２に記載の画像撮影装置。
前記閾値変更部は、
所定の時間毎に、予め定められた初期値を前記評価閾値に設定し、
さらに、前記人物情報及び前記構図の変化量の少なくとも一方に基づいて、前記所定の時間を変更する
請求項１〜３のいずれか１項に記載の画像撮影装置。
前記静止画像抽出部は、第１の静止画像を抽出してから、少なくとも最低待機時間を経過した後に第２の静止画像を抽出し、
該画像撮影装置は、さらに、前記人物情報及び前記構図の変化量の少なくとも一方に基づいて、前記最低待機時間を変更する抽出間隔変更部を備える
請求項１〜４のいずれか１項に記載の画像撮影装置。
前記評価基準には、前記人物情報と、前記動画像に当該人物が含まれていた場合の前記評価値との対応関係が含まれ、
前記抽出間隔変更部は、前記属性情報に含まれる前記人物情報に対応付けられた前記評価値が高い程、前記最低待機時間を短くする
請求項５に記載の画像撮影装置。
前記抽出間隔変更部は、前記構図の変化量が大きい程、前記最低待機時間を短くする
請求項５又は６に記載の画像撮影装置。
前記抽出間隔変更部は、前記構図の変化量が所定の値以下の状態が継続している間、前記静止画像抽出部で前記静止画像が抽出される度に、前記最低待機時間を所定の増加幅ずつ増加させる
請求項５に記載の画像撮影装置。
前記抽出間隔変更部は、前記構図の変化量が所定の値を上回った場合に、前記最低待機時間に予め定められた初期値を設定する
請求項５〜８のいずれか１項に記載の画像撮影装置。
画像撮影方法であって、
動画像を撮影する撮影ステップと、
前記撮影ステップで撮影された前記動画像の特徴を示す属性情報を生成する属性情報生成ステップと、
前記属性情報生成ステップで生成された前記属性情報を予め定められた評価基準に当てはめることによって、前記動画像の評価値を所定の時間幅毎に算出する評価ステップと、
前記評価ステップで算出された前記評価値が評価閾値を超えた場合に、前記動画像のうちの当該評価値に対応する前記時間幅から静止画像を抽出する静止画像抽出ステップと、
前記属性情報に含まれる情報のうち、前記動画像に含まれる人物を識別する人物情報、及び前記動画像の構図の変化量の少なくとも一方に基づいて、前記評価閾値を変更する閾値変更ステップとを含む
画像撮影方法。
コンピュータに、画像を撮影させるプログラムであって、
動画像を撮影する撮影ステップと、
前記撮影ステップで撮影された前記動画像の特徴を示す属性情報を生成する属性情報生成ステップと、
前記属性情報生成ステップで生成された前記属性情報を予め定められた評価基準に当てはめることによって、前記動画像の評価値を所定の時間幅毎に算出する評価ステップと、
前記評価ステップで算出された前記評価値が評価閾値を超えた場合に、前記動画像のうちの当該評価値に対応する前記時間幅から静止画像を抽出する静止画像抽出ステップと、
前記属性情報に含まれる情報のうち、前記動画像に含まれる人物を識別する人物情報、及び前記動画像の構図の変化量の少なくとも一方に基づいて、前記評価閾値を変更する閾値変更ステップとをコンピュータに実行させる
プログラム。
集積回路であって、
動画像を撮影する撮影部と、
前記撮影部で撮影された前記動画像の特徴を示す属性情報を生成する属性情報生成部と、
前記属性情報生成部で生成された前記属性情報を予め定められた評価基準に当てはめることによって、前記動画像の評価値を所定の時間幅毎に算出する評価部と、
前記評価部で算出された前記評価値が評価閾値を超えた場合に、前記動画像のうちの当該評価値に対応する前記時間幅から静止画像を抽出する静止画像抽出部と、
前記属性情報に含まれる情報のうち、前記動画像に含まれる人物を識別する人物情報、及び前記動画像の構図の変化量の少なくとも一方に基づいて、前記評価閾値を変更する閾値変更部とを備える
集積回路。