以下、本発明の実施の形態につき、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。
後に第1〜第4実施例を説明するが、まず、各実施例に共通する事項又は各実施例にて参照される事項について説明する。
図1は、本発明の実施の形態に係る撮像装置1の全体ブロック図である。撮像装置1は、動画像及び静止画像を撮影可能なデジタルビデオカメラである。但し、撮像装置1は、静止画像のみを撮影可能なデジタルスチルカメラであってもよい。
撮像装置1は、撮像部11と、AFE(Analog Front End)12と、映像信号処理部13と、マイク(音入力手段)14と、音声信号処理部15と、圧縮処理部16と、内部メモリの一例としてのSDRAM(Synchronous Dynamic Random Access Memory)17と、メモリカード18と、伸張処理部19と、VRAM(Video Random Access Memory)20と、音声出力回路21と、TG(タイミングジェネレータ)22と、CPU(Central Processing Unit)23と、バス24と、バス25と、操作部26と、表示部27と、スピーカ28と、を備えている。操作部26は、録画ボタン26a、シャッタボタン26b及び操作キー26c等を有している。撮像装置1内の各部位は、バス24又は25を介して、各部位間の信号(データ)のやり取りを行う。
まず、撮像装置1及び撮像装置1を構成する各部位の、基本的な機能について説明する。
TG22は、撮像装置1全体における各動作のタイミングを制御するためのタイミング制御信号を生成し、生成したタイミング制御信号を撮像装置1内の各部に与える。具体的には、タイミング制御信号は、撮像部11、映像信号処理部13、音声信号処理部15、圧縮処理部16、伸張処理部19及びCPU23に与えられる。タイミング制御信号は、垂直同期信号Vsyncと水平同期信号Hsyncを含む。
CPU23は、撮像装置1内の各部の動作を統括的に制御する。操作部26は、ユーザによる操作を受け付ける。操作部26に与えられた操作内容は、CPU23に伝達される。SDRAM17は、フレームメモリとして機能する。撮像装置1内の各部は、必要に応じ、信号処理時に一時的に各種のデータ(デジタル信号)をSDRAM17に記録する。
メモリカード18は、外部記録媒体であり、例えば、SD(Secure Digital)メモリカードである。尚、本実施形態では外部記録媒体としてメモリカード18を例示しているが、外部記録媒体を、1または複数のランダムアクセス可能な記録媒体(半導体メモリ、メモリカード、光ディスク、磁気ディスク等)で構成することができる。
図2は、図1の撮像部11の内部構成図である。撮像部11にカラーフィルタなどを用いることにより、撮像装置1は、撮影によってカラー画像を生成可能なように構成されている。
撮像部11は、光学系35と、絞り32と、撮像素子33と、ドライバ34を有している。光学系35は、ズームレンズ30及びフォーカスレンズ31を含む複数枚のレンズを備えて構成される。ズームレンズ30及びフォーカスレンズ31は光軸方向に移動可能である。ドライバ34は、CPU23からの制御信号に基づいて、ズームレンズ30及びフォーカスレンズ31の移動を制御し、光学系35のズーム倍率や焦点距離を制御する。また、ドライバ34は、CPU23からの制御信号に基づいて絞り32の開度(開口部の大きさ)を制御する。
被写体からの入射光は、光学系35を構成する各レンズ及び絞り32を介して、撮像素子33に入射する。光学系35を構成する各レンズは、被写体の光学像を撮像素子33上に結像させる。TG22は、上記タイミング制御信号に同期した、撮像素子33を駆動するための駆動パルスを生成し、該駆動パルスを撮像素子33に与える。
撮像素子33は、例えばCCD(Charge Coupled Devices)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサ等からなる。撮像素子33は、光学系35及び絞り32を介して入射した光学像を光電変換し、該光電変換によって得られた電気信号をAFE12に出力する。より具体的には、撮像素子33は、マトリクス状に二次元配列された複数の画素(受光画素;不図示)を備え、各撮影において、各画素は露光時間に応じた電荷量の信号電荷を蓄える。蓄えた信号電荷の電荷量に比例した大きさを有する各画素からの電気信号は、TG22からの駆動パルスに従って、後段のAFE12に順次出力される。
AFE12は、撮像部11(撮像素子33)から出力されるアナログ信号を増幅し、増幅されたアナログ信号をデジタル信号に変換する。AFE12は、このデジタル信号を、順次、映像信号処理部13に出力する。
映像信号処理部13は、AFE12の出力信号に基づいて、撮像部11によって撮影された画像(以下、「撮影画像」又は「フレーム画像」ともいう)を表す映像信号を生成する。映像信号は、撮影画像の輝度を表す輝度信号Yと、撮影画像の色を表す色差信号U及びVと、から構成される。
尚、映像信号処理部13は、撮影画像中のフォーカス検出領域内のコントラスト量に応じたAF評価値及び撮影画像の明るさに応じたAE評価値を検出し、それらをCPU23に伝達する。CPU23は、AF評価値に応じて図2のドライバ34を介してフォーカスレンズ31の位置を調節することにより、被写体の光学像を撮像素子33上に結像させる。また、CPU23は、AE評価値に応じて図2のドライバ34を介して絞り32の開度(及び必要に応じてAFE12における信号増幅の増幅度)を調節することにより、受光量(画像の明るさ)を制御する。
図1において、マイク14は、外部から与えられた音声(音)を、アナログの音声信号に変換して出力する。音声信号処理部15は、マイク14から出力されるアナログの音声信号をデジタルの音声信号に変換する。このデジタルの音声信号は、圧縮処理部16に送られる。
圧縮処理部16は、映像信号処理部13からの映像信号を、所定の圧縮方式を用いて圧縮する。動画像または静止画像撮影時において、圧縮された映像信号はメモリカード18に送られ、メモリカード18に記録される。また、圧縮処理部16は、音声信号処理部15からの音声信号を、所定の圧縮方式を用いて圧縮する。動画像撮影時において、映像信号処理部13からの映像信号と音声信号処理部15からの音声信号は、圧縮処理部16にて時間的に互いに関連付けられつつ圧縮され、圧縮後のそれらはメモリカード18に記録される。
撮像装置1の動作モードには、動画像または静止画像の撮影及び記録が可能な撮影モードと、メモリカード18に格納された動画像または静止画像を表示部27に再生表示する再生モードと、が含まれる。操作キー26cに対する操作に応じて、各モード間の遷移は実施される。録画ボタン26aに対する操作に従って動画像の撮影及び記録の開始又は終了が実施される。また、シャッタボタン26bに対する操作に従って静止画像の撮影及び記録が実施される。
再生モードにおいて、ユーザが操作キー26cに所定の操作を施すと、メモリカード18に記録された動画像または静止画像を表す圧縮された映像信号は、伸張処理部19に送られる。伸張処理部19は、受け取った映像信号を伸張し、伸張後の映像信号をVRAM20に書き込む。また、撮影モードにおいては、通常、動画像または静止画像を撮影しているか否かに拘らず、映像信号処理13による映像信号の生成が逐次行われており、その映像信号はVRAM20に書き込まれる。
表示部27は、液晶ディスプレイなどの表示装置であり、VRAM20に書き込まれた映像信号に応じた画像を表示する。即ち、表示部27は、現在のフレーム画像、または、メモリカード18に記録されている動画像若しくは静止画像を、表示する。
また、再生モードにおいて動画像を再生する際、メモリカード18に記録された動画像に対応する圧縮された音声信号も、伸張処理部19に送られる。伸張処理部19は、受け取った音声信号を伸張して音声出力回路21に送る。音声出力回路21は、与えられたデジタルの音声信号をスピーカ28にて出力可能な形式の音声信号(例えば、アナログの音声信号)に変換してスピーカ28に出力する。スピーカ28は、音声出力回路21からの音声信号を音声(音)として外部に出力する。
撮像装置1は、複数の静止画像を自動的に順次切り替えて再生表示を行うスライドショー再生を実行可能であり、このスライドショー再生において、特徴的な機能を有する。概略的に説明すると、スライドショー再生時における視聴者の盛り上がり度を評価し、現在の表示画像に対する関心が高く視聴者が盛り上がっていると判断される場合は、現在の表示画像の表示時間を比較的長くし、そうでない場合は表示時間を比較的短くする。
図3は、スライドショー再生を行う場合に形成される画像再生システムの構成外観図である。図3の画像再生システムは、撮像装置1と、液晶ディスプレイ表示装置又はプラズマディスプレイ表示装置などの表示装置2と、から形成される。撮像装置1に設けられた外部接続端子(不図示)にケーブル3が接続され、該ケーブル3を介して撮像装置1から各静止画像を表す映像信号が表示装置2に伝達される。勿論、撮像装置1から表示装置2へ無線で映像信号を伝達することも可能である。表示装置2は、撮像装置1から伝達された映像信号に基づき、各静止画像を順次切り替えつつ再生表示する。尚、図3における符号14は、図1のマイク14を表している。
スライドショー再生における画像切り替え動作の実施例として、以下に、第1〜第4実施例を説明する。或る実施例に記載した事項は、矛盾なき限り、他の実施例にも適用可能である。各実施例において「表示」と言った場合、特に断りなき限り、それは、表示装置2における「表示」を指すものとする。
また、図4に示す如く、図1のメモリカード18に、第1、第2、・・・、第pの静止画像(pは2以上の整数)が記録されているものとする。そして、各実施例のスライドショー再生時において、第1、第2、・・・、第pの静止画像の順番で各静止画像が1枚ずつ表示装置2の表示画面上に切り替え表示される場合を想定する。
<<第1実施例>>
まず、スライドショー再生に関する、本発明の第1実施例について説明する。図5は、第1実施例に係る画像切り替え動作に関与する部位のブロック図である。図5のマイク14は、図1のそれと同じものである。図5の音声パワー検出部51は、図1の音声信号処理部15に設けられ、図5の表示画像切替制御部52(以下、切替制御部52と略記する)は、図1のCPU23に設けられる。また、スライドショー再生を実行するに際し、図5に示されない、図1に示す各部位も必要に応じて利用される。
マイク14は、マイク14を中心とする周辺音(周囲の音)、換言すれば画像再生システムの周辺音を集音して、その周辺音を電気信号に変換する。この電気信号は、アナログの音声信号であり、それは、音声パワー検出部51に送られる。音声パワー検出部51は、マイク14からの音声信号に基づいて、定められた各期間における音声パワーを検出する。この検出を行うに当たり、アナログの音声信号は、適宜デジタルの音声信号に変換される。切替制御部52は、検出された音声パワーに基づいて、第1〜第pの静止画像間の表示切替制御を行う。本実施例及び後述する第2実施例において、単に音声信号といった場合、それは、マイク14から出力される音声信号を指すものとする。
図6を参照して、第1実施例に係るスライドショー再生の動作の流れを説明する。図6は、この動作の流れを表すフローチャートである。
撮像装置1に電源が投入されると、ステップS1において、図1のTG22から垂直同期信号が出力されたかが確認される。垂直同期信号は、所定のフレーム周期にて順次生成及び出力される。TG22から垂直同期信号が出力された場合はステップS2に移行し、出力されていない場合はステップS1の処理が繰り返される。
ステップS2では、スライドショー再生の開始指示が撮像装置1に与えられたかを確認し、その開始指示が与えられた場合はステップS3に移行する一方、与えられていない場合はステップS1に戻る。スライドショー再生の開始指示は、図1の操作部26に対する所定操作によって与えられる。
ステップS3において、音声パワー検出部51は、スライドショー再生が開始される直前の音声パワーを表す音声パワー基準値P0を算出する。
音声パワー基準値P0の算出法について説明する。図7は、スライドショー再生時における音声信号の振幅変化を示す図である。図7において、横軸は時間を表し、縦軸は音声信号の振幅を表している。音声信号の振幅は、マイク14に与えられる周辺音の大きさ(又は強さ)が大きくなるにつれて増大する。
今、スライドショー再生における1番目の表示画像、即ち、第1の静止画像が表示開始されるタイミングT0を基準として考え、そのタイミングT0から1秒、2秒、3秒、4秒、5秒、6秒、7秒、8秒、9秒及び10秒経過後のタイミングを、夫々、タイミングT1、T2、T3、T4、T5、T6、T7、T8、T9及びT10と呼ぶ。更に、タイミングT0より所定時間前のタイミングをTAにて表す。尚、タイミングT0とT1との間の期間を、タイミングT0−T1間と表記する。他のタイミング間についても同様である。
音声パワー検出部51は、タイミングTA−T0間の音声信号の振幅の平均値から、タイミングTA−T0間の音声パワーの平均値を算出し、この音声パワーの平均値を音声パワー基準値P0とする。或る時刻tにおける音声信号の振幅をx(t)で表すと、その時刻tにおける音声パワーは、log10(x(t)2)、で表される。従って、タイミングTA−T0間の音声信号の振幅の平均値が5であるとすると、音声パワー基準値P0は、log10(52)≒1.40、となる。尚、音声パワーの単位は、デシベル[dB]である。
音声パワー基準値P0の算出後、変数kに1を代入してから(ステップS4)、ステップS5において、切替制御部52は、第kの静止画像の表示時間(表示時間の長さ)を設定する。この表示時間の長さは、図1の操作部26に対する所定操作によっても設定可能であるが、今、この長さは1秒であるとする。
続くステップS6において、切替制御部52は、第kの静止画像を表示装置2に表示させる。これと同時に、ステップS7において、音声パワー検出部51は、現時点の音声パワーの測定を開始する。そして、ステップS8及びS9において、音声パワー検出部51は、音声パワーの測定開始時点から設定された表示時間の長さ(即ち、1秒)が経過した時点までの音声パワーの平均値を算出する。この平均値を、P1にて表す。
即ち例えば、ステップS7に至ったタイミングがタイミングT0である場合、タイミングT0からT1までの音声パワーの平均値を算出し、ステップS7に至ったタイミングがタイミングT1である場合、タイミングT1からT2での音声パワーの平均値を算出する。
その後、ステップS10において、切替制御部52は、不等式「P0×KC<P1」の成立/不成立を判断する。その不等式が成立する場合は、現在の表示画像に対する視聴者の関心度が高いと判断して、第kの静止画像の表示時間を再度設定してから(ステップS11)ステップS7に戻り、再度設定された表示時間(即ち1秒)中における音声パワーの測定を行って上述と同様の処理を行う。ここで、KCは、予め定められた定数であり、例えばKC=1.2である。
例えば、タイミングT0−T1間について算出された音声パワーの平均値P1に関して、上記不等式が成立する場合、ステップS11を介してステップS7に戻ってタイミングT1−T2間の音声パワーの平均値が算出され、それを新たにP1に代入した上で、再度、ステップS10の判断処理が実施される。
ステップS10において、不等式「P0×KC<P1」が成立しない場合は、ステップS12に移行して、再生表示されるべき全ての静止画像が表示されたかが確認される。全ての静止画像が表示されていない場合、すなわちk<pである場合は、変数kに1を加えて(ステップS13)ステップS5に戻る。一方、全ての静止画像が表示された場合、すなわちk=pである場合は、スライドショー再生を終了し、ステップS1に戻る。
図8に、各期間における音声信号の振幅の平均値と音声パワーの平均値の数値例を表すと共に、各期間に表示される静止画像の番号を示す。図8に示す数値例の場合、音声パワー基準値P0は1.40である。また、タイミングT0−T1間の音声信号の振幅の平均値が30であるため、タイミングT0−T1間の音声パワーの平均値は「log10(302)≒2.95」より、2.95である。また、KC=1.2、であるとする。
同様の演算を介して、タイミングT1−T2間、T2−T3間、T3−T4間、T4−T5間、T5−T6間、T6−T7間、T7−T8間、T8−T9間及びT9−T10間における音声パワーの平均値は、夫々、0.60、3.40、2.80、0.95、2.60、2.60、2.60、0.95、2.95、であったとする。
この数値例の場合、タイミングT0にて第1の静止画像が表示開始された後、タイミングT1にて「1.40×1.2<2.95」よりステップS10の不等式が成立するため、タイミングT1―T2間も引き続き第1の静止画像が表示される。この後、タイミングT2では、「1.40×1.2>0.60」よりステップS10の不等式が不成立となるため、表示装置2の表示画像は第1の静止画像から第2の静止画像に切り替えられる。
タイミングT2−T3間で第2の静止画像が表示されると、タイミングT2−T3間の音声パワーの平均値(3.40)についてステップS10の不等式の成立/不成立が判断される。「1.40×1.2>3.40」であるため、ステップS10の不等式が成立し、タイミングT3−T4間も引き続き第2の静止画像が表示される。同様の判断を経て、タイミングT4−T5間における表示画像は第2の静止画像となり、タイミングT5−T9間における表示画像は第3の静止画像となり、タイミングT9−T10間における表示画像は第4の静止画像となる。
スライドショーの視聴者にとって興味深い画像が表示されると、歓声が起こったり、何らかの意見の発声が生じたりすることが多い。これに鑑み、本実施例では、視聴者の盛り上がり度を表す指標として、各期間における音声パワーを検出し、その音声パワーに基づいて各静止画像間の表示切り替えタイミングを動的に変更する。これにより、視聴者の反応に応じて、自動的に且つ適切に、表示画像の切り替えがなされる。
尚、上述の例では、スライドショー再生開始前の音声パワーを検出して音声パワー基準値P0を算出し、これとスライドショー再生時の音声パワーとの対比に基づいて、各静止画像間の表示切り替えタイミングを決定している。このように処理することにより、画像再生システム周辺の音声環境を加味した盛り上がり度の適切な評価を行うことができるのであるが、音声パワー基準値P0を算出することなく、スライドショー再生時の音声パワーのみに基づいて各静止画像間の表示切り替えタイミングを決定することも可能である。
この場合、例えば、ステップS10にて不等式「PREF<P1」の成立/不成立を判断する。そして、該不等式が成立する場合にステップS11を介してステップS7に戻るようにし、該不等式が不成立の場合にステップS12に移行するようにするとよい。これによっても、視聴者の反応に応じた、自動的且つ適切な表示画像の切り替えがなされる。PREFは、予め設定される基準値である。
<<第2実施例>>
次に、スライドショー再生に関する、本発明の第2実施例について説明する。図9は、第2実施例に係る画像切り替え動作に関与する部位のブロック図である。図9のマイク14は、図1及び図5のそれと同じものである。図9の周波数分析部61は、図1の音声信号処理部15に設けられ、図9の表示画像切替制御部62(以下、切替制御部62と略記する)は、図1のCPU23に設けられる。また、スライドショー再生を実行するに際し、図9に示されない、図1に示す各部位も必要に応じて利用される。
マイク14にて生成されたアナログの音声信号は、周波数分析部61に送られる。周波数分析部61は、音声信号の周波数分析を行い、音声信号の所定周波数成分を抽出する。この抽出を行うに当たり、アナログの音声信号は、適宜デジタルの音声信号に変換される。切替制御部62は、抽出された成分の大きさに基づいて、第1〜第pの静止画像間の表示切替制御を行う。
図10を参照して、第2実施例に係るスライドショー再生の動作の流れを説明する。図10は、この動作の流れを表すフローチャートである。
スライドショー再生における1番目の表示画像、即ち、第1の静止画像が表示開始されるタイミングT0を基準として考え、第1実施例と同様、タイミングT1〜T10を定義する。
撮像装置1に電源が投入されると、ステップS1、S2、S4、S5及びS6の各処理が実施される。それらは、第1実施例におけるそれらと同様である。即ち、図1のTG22からの垂直同期信号の出力及びスライドショー再生の開始指示が確認されると(ステップS1及びS2)、ステップS4に移行して変数kに1を代入する。その後、ステップS5において、切替制御部62は、第kの静止画像の表示時間(表示時間の長さ)を設定する。今、この長さは、1秒であるとする。続くステップS6において、切替制御部62は、第kの静止画像を表示装置2に表示させる。
第2実施例では、ステップS6の表示処理と同時に、ステップS21において、周波数分析部61が音声信号の周波数分析を開始する。そして、ステップS22及びS23において、周波数分析部61は、周波数分析の開始時点から設定された表示時間の長さ(即ち、1秒)が経過した時点までの期間における短時間スペクトル(パワースペクトル)を算出すると共に、特定の周波数f0におけるスペクトルパワー(単位は[dB])を算出する。算出したスペクトルパワーを、SPWにて表す。
即ち例えば、ステップS21に至ったタイミングがタイミングT0である場合、タイミングT0からT1までの期間の短時間スペクトルを算出すると共に該短時間スペクトルからスペクトルパワーSPWを算出し、ステップS21に至ったタイミングがタイミングT1である場合、タイミングT1からT2までの期間の短時間スペクトルを算出すると共に該短時間スペクトルからスペクトルパワーSPWを算出する。
ここで、図11及び図12を参照して、スペクトルパワーSPWの算出方法を説明する。図11は、スライドショー再生時における音声信号の振幅変化を示す図である。図11において、横軸は時間を表し、縦軸は音声信号の振幅を表している。図12は、タイミングT0−T1間の音声信号の短時間スペクトル(パワースペクトル)を表す。図12において、横軸は周波数を表し、縦軸はスペクトルパワーを表す。
図12に示されるような短時間スペクトルは、音声信号を高速フーリエ変換することによって得られる。或る時刻tにおける音声信号の振幅をx(t)で表し、x(t)を高速フーリエ変換して得られる関数をX(f)にて表す。X(f)は周波数fの関数である。スペクトルパワーは、log10(X(f)2)、で表される。
ステップS21〜S23において、周波数分析部61は、予め定められた特定の周波数f0におけるスペクトルパワーSPWを算出する。SPWは、log10(X(f0)2)、によって表される。
スペクトルパワーSPWが算出された後、ステップS24において、切替制御部62は、不等式「SREF<SPW」の成立/不成立を判断する。その不等式が成立する場合は、現在の表示画像に対する視聴者の関心度が高いと判断して、第kの静止画像の表示時間を再度設定してから(ステップS25)ステップS21に戻り、再度設定された表示時間(即ち1秒)に対する音声信号の周波数分析を行って上述と同様の処理を行う。ここで、SREFは、予め定められた基準スペクトルパワー(単位は[dB])であり、例えば、80dBとされる。
例えば、タイミングT0−T1間について算出されたスペクトルパワーSPWに関して、上記不等式が成立する場合、ステップS25を介してステップS21に戻ってタイミングT1−T2間についての周波数f0のスペクトルパワーが算出され、それを新たにSPWに代入した上で、再度、ステップS24の判断処理が実施される。図12は、不等式「SREF<SPW」が成立する状態に対応している。
ステップS24において、不等式「SREF<SPW」が成立しない場合は、第1実施例と同様、ステップS12に移行して、再生表示されるべき全ての静止画像が表示されたかが確認される。全ての静止画像が表示されていない場合、すなわちk<pである場合は、変数kに1を加えて(ステップS13)ステップS5に戻る。一方、全ての静止画像が表示された場合、すなわちk=pである場合は、スライドショー再生を終了し、ステップS1に戻る。
スライドショーの視聴者にとって興味深い画像が表示されると、歓声が起こったり、何らかの意見の発声が生じたりすることが多い。これに鑑み、本実施例では、視聴者の盛り上がり度を表す指標として、各期間における特定の周波数f0のスペクトルパワーを検出し、そのスペクトルパワーの大きさに基づいて各静止画像間の表示切り替えタイミングを動的に変更する。これにより、視聴者の反応に応じて、自動的に且つ適切に、表示画像の切り替えがなされる。
視聴者の盛り上がり度を適切に評価すべく、周波数f0を、人の笑い声や拍手の音の周波数を基にして設定するとよい。例えば、人の笑い声や拍手の音を周波数分析することによって得られる短時間スペクトルにおいて900kHz(キロヘルツ)のスペクトルパワーが最大であるならば(或いは、人の笑い声や拍手の音が900kHzの周波数成分を比較的多く含むならば)、周波数f0を900kHz又は900kHz近傍の周波数とするよい。
また、或る限定された周波数成分(上述の例において、周波数f0の成分)のみに基づいて各静止画像間の表示切り替えタイミングを決定するのではなく、一定の幅を有する特定の周波数帯域成分に基づいて、各静止画像間の表示切り替えタイミングを決定するようにしてもよい。
即ち、例えば、ステップS21〜S23において、短時間スペクトルを算出すると共に特定の周波数帯域におけるスペクトルパワーの平均値を算出するようにする。より具体的には例えば、周波数(f0−f1)から周波数(f0+f1)の帯域内のスペクトルパワーの平均値を算出する。そして、この平均値をSPWと捉えて、上述のステップS24の処理を実行すればよい。ここで、f1は、正の所定値である(単位は[Hz])。
<<第3実施例>>
次に、スライドショー再生に関する、本発明の第3実施例について説明する。図13は、第3実施例に係る画像切り替え動作に関与する部位のブロック図である。図13の動き検出部71は、図1の映像信号処理部13に設けられ、図13の表示画像切替制御部72(以下、切替制御部72と略記する)は、図1のCPU23に設けられる。また、スライドショー再生を実行するに際し、図13に示されない、図1に示す各部位も必要に応じて利用される。
第3実施例及び後述する第4実施例では、スライドショー再生時において、撮像装置1が所定のフレーム周期(例えば、1/60秒)にて画像再生システムの周辺の被写体を撮影する。フレーム周期ごとに訪れる各フレームにおいて得られる撮影画像をフレーム画像という。この際、撮像装置1の撮影の被写体にスライドショーの視聴者が含まれるようにする。即ち、上記の「画像再生システムの周辺の被写体」に、スライドショーの視聴者を含ませる。但し、スライドショー再生時の撮影によって得られる画像は、メモリカード18に記録されない。順次取得されるフレーム画像(撮影画像)によって動画像が形成される。
動き検出部71は、例えば、公知の画像マッチング法(例えば、ブロックマッチング法や代表点マッチング法)を用い、隣接するフレーム画像間において映像信号を対比することにより、隣接するフレーム画像間における動きベクトルを検出する。この動きベクトルは、隣接するフレーム画像間における、画像の動きの大きさ及び向きを特定する。代表点マッチング法としては、例えば、特開昭61−201581号公報に開示されている手法を用いればよい。
切替制御部72は、特定の期間中における動きベクトルの大きさの総和に基づいて、第1〜第pの静止画像間の表示切替制御を行う。この総和は、特定の期間内における、画像の動き量に応じた値をとることになる。
図14を参照して、第3実施例に係るスライドショー再生の動作の流れを説明する。図14は、この動作の流れを表すフローチャートである。
スライドショー再生における1番目の表示画像、即ち、第1の静止画像が表示開始されるタイミングT0を基準として考え、第1実施例と同様、タイミングT1〜T10を定義する。
撮像装置1に電源が投入されると、ステップS1、S2、S4、S5及びS6の各処理が実施される。それらは、第1実施例におけるそれらと同様である。即ち、図1のTG22からの垂直同期信号の出力及びスライドショー再生の開始指示が確認されると(ステップS1及びS2)、ステップS4に移行して変数kに1を代入する。その後、ステップS5において、切替制御部72は、第kの静止画像の表示時間(表示時間の長さ)を設定する。今、この長さは、1秒であるとする。続くステップS6において、切替制御部72は、第kの静止画像を表示装置2に表示させる。この時点において、既に、各フレーム画像の順次撮影は開始されている。
第3実施例では、ステップS6の表示処理と同時に、ステップS31において、動き検出部71による動きベクトルの検出を開始する。第1、第2、第3、・・・フレーム画像が順次撮影される場合、第1及び第2フレーム画像間についての動きベクトル、第2及び第3フレーム画像間についての動きベクトル、・・・、が順次検出される。そして、ステップS32及びS33において、切替制御部72は、動きベクトル検出の開始時点から設定された表示時間の長さ(即ち、1秒)が経過した時点までに得られた動きベクトルの大きさの総和を算出する。
即ち例えば、ステップS31に至ったタイミングがタイミングT0である場合、タイミングT0−T1間における動きベクトルの大きさの総和を算出し、ステップS31に至ったタイミングがタイミングT1である場合、タイミングT1−T2間における動きベクトルの大きさの総和を算出する。算出した総和を、VSUMにて表す。
総和VSUMが算出された後、ステップS34において、切替制御部72は、不等式「VREF<VSUM」の成立/不成立を判断する。その不等式が成立する場合は、現在の表示画像に対する視聴者の関心度が高いと判断して、第kの静止画像の表示時間を再度設定してから(ステップS35)ステップS31に戻り、再度設定された表示時間(即ち1秒)中における動きベクトル検出を行って上述と同様の処理を行う。ここで、VREFは、予め定められた基準値である。
例えば、タイミングT0−T1間について算出された総和VSUMに関して、上記不等式が成立する場合、ステップS35を介してステップS31に戻ってタイミングT1−T2間における動きベクトルの大きさの総和が算出され、それを新たにVSUMに代入した上で、再度、ステップS34の判断処理が実施される。
ステップS34において、不等式「VREF<VSUM」が成立しない場合は、第1実施例と同様、ステップS12に移行して、再生表示されるべき全ての静止画像が表示されたかが確認される。全ての静止画像が表示されていない場合、すなわちk<pである場合は、変数kに1を加えて(ステップS13)ステップS5に戻る。一方、全ての静止画像が表示された場合、すなわちk=pである場合は、スライドショー再生を終了し、ステップS1に戻る。
スライドショーの視聴者にとって興味深い画像が表示されると、スライドショーの視聴者が拍手をしたり、発声や感情変化によって視聴者の表情が変わったりすることが多く、これらに起因して、上述の動きベクトルの大きさは比較的大きくなる。これに鑑み、本実施例では、視聴者の盛り上がり度を表す指標として、各期間における動きベクトルの大きさの総和を検出し、それに基づいて各静止画像間の表示切り替えタイミングを動的に変更する。これにより、視聴者の反応に応じて、自動的に且つ適切に、表示画像の切り替えがなされる。
<<第4実施例>>
次に、スライドショー再生に関する、本発明の第4実施例について説明する。図15は、第4実施例に係る画像切り替え動作に関与する部位のブロック図である。図15の顔領域検出部81及び顔領域差分値算出部83は、図1の映像信号処理部13に設けられ、図15の表示画像切替制御部82(以下、切替制御部82と略記する)は、図1のCPU23に設けられる。また、スライドショー再生を実行するに際し、図15に示されない、図1に示す各部位も必要に応じて利用される。
上述したように、第3実施例と同じく第4実施例でも、スライドショー再生時において、撮像装置1が所定のフレーム周期にて画像再生システムの周辺の被写体を撮影する。この「画像再生システムの周辺の被写体」に、スライドショーの視聴者が含まれる。
顔領域検出部81は、各フレーム画像を表す映像信号に基づき、各フレーム画像の中から人物の顔を検出して顔を含む顔領域を抽出する。画像中に含まれる顔を検出する手法として様々な手法が知られており、顔領域検出部81は何れの手法をも採用可能である。例えば、特開2000−105819号公報に記載の手法のようにフレーム画像から肌色領域を抽出することによって顔(顔領域)を検出しても良いし、特開2006−211139号公報又は特開2006−72770号公報に記載の手法を用いて顔(顔領域)を検出しても良い。
典型的には例えば、入力画像(即ち、フレーム画像)内に設定された着目領域の画像と予め登録された基準顔画像とを対比して両画像の類似度を判定し、その類似度に基づいて着目領域に顔が含まれているか否か(着目領域が顔領域であるか否か)を検出する。類似判定は、顔であるか否かを識別するのに有効な特徴量を抽出することによって行う。特徴量は、水平エッジ、垂直エッジ、右斜めエッジ、左斜めエッジ等である。
今、顔領域は、矩形領域として抽出されるとする。フレーム画像内における顔領域の位置(座標位置)を特定する情報は、顔領域差分値算出部83に伝達される。顔領域差分値算出部83は、隣接するフレーム画像間における、同一の顔領域に関する映像信号を対比することにより、顔領域差分値を算出する。
隣接するフレーム画像を前フレーム及び現フレームとして、顔領域差分値の算出法を説明する。まず、各フレーム画像内に1つの顔領域しか存在しない場合を考える。前フレームにおける顔領域内の画像と現フレームにおける顔領域内の画像との差分画像を定義する。この差分画像を形成する各画素の画素値は、前フレームの顔領域内の画像を形成する各画素の画素値と現フレームの顔領域内の画像を形成する各画素の画素値との差にて表される。そして、この差分画像を形成する各画素の画素値の絶対値を積算して得られる値を、顔領域差分値とする。
各フレーム画像内に複数の顔領域が存在する場合は、顔領域ごとに、差分画像を定義して差分画像を形成する各画素の画素値の絶対値の積算値を求める。そして、顔領域ごとに求められた積算値の総和を、顔領域差分値とする。尚、画素値とは、例えば、輝度信号の値、色差信号の値、或いは、RGB信号などの色信号の値である。
前フレームと現フレームとの間で算出された顔領域差分値は、前フレームと現フレームとの間における顔領域内の画像の動きの大きさに応じた値をとり、その大きさが増大するにつれて、通常、顔領域差分値は増大する。
切替制御部82は、特定の期間中における顔領域差分値の総和に基づいて、第1〜第pの静止画像間の表示切替制御を行う。この総和は、特定の期間内における、顔領域内の画像の動き量に応じた値をとることになる。
図16を参照して、第4実施例に係るスライドショー再生の動作の流れを説明する。図16は、この動作の流れを表すフローチャートである。
スライドショー再生における1番目の表示画像、即ち、第1の静止画像が表示開始されるタイミングT0を基準として考え、第1実施例と同様、タイミングT1〜T10を定義する。
撮像装置1に電源が投入されると、ステップS1、S2及びS4の各処理が実施される。それらは、第1実施例におけるそれらと同様である。即ち、図1のTG22からの垂直同期信号の出力及びスライドショー再生の開始指示が確認されると(ステップS1及びS2)、ステップS4に移行して変数kに1を代入する。
第4実施例では、ステップS4の後、ステップS40に移行して、各フレーム画像の順次撮影を開始すると共に顔領域を特定する。即ち、現時点のフレーム画像から顔領域を抽出し、その顔領域の位置(フレーム画像上の座標位置)を特定する。ここで位置が特定された顔領域としての矩形領域内の画素値に基づいて、以後、顔領域差分値が算出される。
ステップS40にて顔領域が特定された後、切替制御部82は、第kの静止画像の表示時間(表示時間の長さ)を設定する。今、この長さは、1秒であるとする。続くステップS6において、切替制御部82は、第kの静止画像を表示装置2に表示させる。
そして、ステップS6の表示処理と同時に、ステップS41において、顔領域差分値算出部83による顔領域差分値の算出を開始する。第1、第2、第3、・・・フレーム画像が順次撮影される場合、第1及び第2フレーム画像間についての顔領域差分値、第2及び第3フレーム画像間についての顔領域差分値、・・・、が順次算出される。そして、ステップS42及びS43において、切替制御部82は、顔領域差分値の算出開始時点から設定された表示時間の長さ(即ち、1秒)が経過した時点までに得られた顔領域差分値の総和を算出する。
即ち例えば、ステップS41に至ったタイミングがタイミングT0である場合、タイミングT0−T1間における顔領域差分値の総和を算出し、ステップS41に至ったタイミングがタイミングT1である場合、タイミングT1−T2間における顔領域差分値の総和を算出する。算出した総和を、DSUMにて表す。
総和DSUMが算出された後、ステップS44において、切替制御部82は、不等式「DREF<DSUM」の成立/不成立を判断する。その不等式が成立する場合は、現在の表示画像に対する視聴者の関心度が高いと判断して、第kの静止画像の表示時間を再度設定してから(ステップS45)ステップS41に戻り、再度設定された表示時間(即ち1秒)中における顔領域差分値の算出を行って上述と同様の処理を行う。ここで、DREFは、予め定められた基準値である。
例えば、タイミングT0−T1間について算出された総和DSUMに関して、上記不等式が成立する場合、ステップS45を介してステップS41に戻ってタイミングT1−T2間における顔領域差分値の総和が算出され、それを新たにDSUMに代入した上で、再度、ステップS44の判断処理が実施される。
ステップS44において、不等式「DREF<DSUM」が成立しない場合は、第1実施例と同様、ステップS12に移行して、再生表示されるべき全ての静止画像が表示されたかが確認される。全ての静止画像が表示されていない場合、すなわちk<pである場合は、変数kに1を加えて(ステップS13)ステップS5に戻る。一方、全ての静止画像が表示された場合、すなわちk=pである場合は、スライドショー再生を終了し、ステップS1に戻る。
スライドショーの視聴者にとって興味深い画像が表示されると、スライドショーの視聴者の発声や感情変化によって視聴者の顔の表情が変わることが多く、これに起因して、上述の顔領域差分値は比較的大きくなる。これに鑑み、本実施例では、視聴者の盛り上がり度を表す指標として、各期間における顔領域差分値の総和を検出し、それに基づいて各静止画像間の表示切り替えタイミングを動的に変更する。これにより、視聴者の反応に応じて、自動的に且つ適切に、表示画像の切り替えがなされる。
例として、顔領域差分値の基となる、対比する2つのフレーム画像201及び202を図17に示す。フレーム画像201及び202の夫々において、6つの顔領域が特定されており、6つの顔領域は、実線四角枠又は破線四角枠によって表されている。そして、実線四角枠に対応する顔領域は、表情の変化によって顔領域差分値の増大に寄与する。
<<変形等>>
上述の実施形態の変形例または注釈事項として、以下に、注釈1〜注釈6を記す。各注釈に記載した内容は、矛盾なき限り、任意に組み合わせることが可能である。
[注釈1]
上述した説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。
[注釈2]
上述した各実施例は、矛盾なき限り、任意に組み合わせることが可能である。例えば、タイミングT0−T1間で第1の静止画像を表示していた場合において、タイミングT1−T2間も継続して第1の静止画像を表示するか或いはタイミングT1−T2間では第2の静止画像を表示するかを、以下の合成評価値に基づいて決定するようにしてもよい。
合成評価値は、
タイミングT0−T1間における音声パワーの平均値P1に基づく第1評価値、
タイミングT0−T1間におけるスペクトルパワーSPWに基づく第2評価値、
タイミングT0−T1間における動きベクトルの大きさの総和VSUMに基づく第3評価値、
タイミングT0−T1間における顔領域差分値の総和DSUMに基づく第4評価値、の内の全部又は一部の評価値から算出される。
[注釈3]
また、上述の第1〜第4実施例で説明した手法と異なるが、スライドショー再生にて順次表示される静止画像の説明者(プレゼンター)による説明の発声切れ目を検出し、その発声切れ目において、表示画像を次の静止画像に切り替えるようにしても良い。
具体的には例えば、図5のマイク14及び音声パワー検出部51を利用するとよい。そして例えば、第1の静止画像を表示している場合において、音声信号から算出される音声パワーが所定期間継続して所定閾値以下となっているとき、表示画像を第1の静止画像から第2の静止画像に切り替えるようにする。
[注釈4]
第1及び第2実施例では、撮像装置1に設けられたマイク14を利用して、図3の画像再生システムの周辺音に応じた音声信号を生成するようにしているが、この音声信号を撮像装置1の外部のマイク(不図示)にて生成することも可能である。
[注釈5]
図1の撮像装置1は、ハードウェア、或いは、ハードウェアとソフトウェアの組み合わせによって実現可能である。特に、図5、図9、図13及び図15に示された各部位(但し、マイク14を除く)は、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせによって実現可能である。
ソフトウェアを用いて撮像装置1を構成する場合、ソフトウェアにて実現される部位についてのブロック図は、その部位の機能ブロック図を表すことになる。また、図5、図9、図13及び図15に示された各部位(但し、マイク14を除く)にて実現される機能の全部または一部を、プログラムとして記述し、該プログラムをプログラム実行装置(例えばコンピュータ)上で実行することによって、その機能の全部または一部を実現するようにしてもよい。
[注釈6]
図3に示す例では、画像再生システムが撮像装置1と表示装置2とから形成される。この場合、撮像装置1は、スライドショー再生を実行すべく映像信号を表示装置2に供給する映像信号供給装置として機能する。
但し、撮像装置1のみにて画像再生システムを形成することも可能である。この場合、スライドショー再生時において、撮像装置1に設けられた表示部27に各画像を順次切り替え表示すればよい。
また、上述のスライドショー再生を実行するために必要な撮像装置1の機能を表示装置2に設ければ、表示装置2のみによって画像再生システムを形成することも可能である。