JP2008277903A

JP2008277903A - 撮像装置及びフォーカス対象決定方法

Info

Publication number: JP2008277903A
Application number: JP2007115878A
Authority: JP
Inventors: Takashi Tsujimura; 貴辻村; Miyuki Okada; 深雪岡田; Makoto Noguchi; 誠野口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-04-25
Filing date: 2007-04-25
Publication date: 2008-11-13

Abstract

【課題】本発明は、簡易な操作でユーザ所望の検出顔領域をフォーカス対象に決定することができる。
【解決手段】本発明のカムコーダ１は、撮像対象の中から選定されたフォーカス対象に対して自動的にレンズの焦点を合わせるオートフォーカス機能を有しており、レンズ群７を介して取得した撮像光に基づいて生成された映像データから人物の顔領域ＦＡを検出顔領域として検出し、検出顔領域に対応するテキスト情報を映像データに重畳することにより、当該映像データに基づく撮像画像における検出顔領域に順位テキスト情報ＴＭを付加し、検出顔領域のうち、ユーザ所望の一の検出顔領域である選択顔領域に対応するテキスト情報を表す音声が入力された場合、当該テキスト情報に対応する検出顔領域をフォーカス対象に決定するようにした。
【選択図】図９

Description

本発明は、撮像装置及びフォーカス対象決定方法に関し、例えば動画像でなる撮像データを記録するカムコーダに適用して好適なものである。

従来、カムコーダでは、撮像対象となる人物の動きに合わせて焦点や露出、色補正などを自動的に調整するオートフォーカス機能を有するものがある。このオートフォーカス機能を有するカムコーダでは、例えば撮像データの中に複数の人物が存在し、その中の一の人物を中心にして撮像する場合には、ユーザ所望の一の人物の顔領域（以下、これを選択顔領域と呼ぶ）をオートフォーカス機能の対象となるフォーカス対象として設定する必要がある。

このカムコーダの中には、タッチパネル機能を有する表示部に撮像データに基づく撮像画像を表示してユーザに選択顔領域を触れさせ、ユーザが触れた部分から検出した人物の顔領域をフォーカス対象に決定するようになされたものがある（例えば、特許文献１参照）。
特開２００６−１０１１８６公報

ところでかかる構成のカムコーダでは、ユーザに選択顔領域を入力させるために、ユーザに片手でカムコーダを保持して選択顔領域を撮像させながら、ユーザに表示部を触れさせる必要があるため、ユーザに選択顔領域を入力させる操作が煩雑になってしまうという問題があった。

本発明は以上の点を考慮してなされたもので、簡易な操作でユーザ所望の一の検出顔領域をフォーカス対象に決定することができる撮像装置及びフォーカス対象決定方法を提案しようとするものである。

かかる課題を解決するため本発明においては、撮像対象の中から選定されたフォーカス対象に対して自動的にレンズの焦点を合わせるオートフォーカス部と、レンズを介して取得した撮像光に基づいて映像データを生成する映像データ生成部と、映像データに基づく撮像画像を表示する表示部と、映像データから人物の顔領域を検出顔領域として検出する顔領域検出部と、検出顔領域に対応するテキスト情報を映像データに重畳することにより、撮像画像における検出顔領域に対してテキスト情報を対応付けた状態で表示部に撮像画像を表示させるテキスト情報重畳部と、音声を入力する音声入力部と、検出顔領域のうち、ユーザ所望の一の検出顔領域に対応するテキスト情報を表す音声が音声入力部に入力された場合、当該テキスト情報に対応する検出顔領域をフォーカス対象に決定するフォーカス対象決定部とを設けるようにした。

これにより、ユーザの手を使用させることなく、ユーザに音声の入力によってユーザ所望の一の検出顔領域を入力させることができる。

また本発明においては、撮像対象の中から選定されたフォーカス対象に対して自動的にレンズの焦点を合わせ、レンズを介して取得した撮像光に基づいて映像データを生成し、映像データから人物の顔領域を検出顔領域として検出する顔領域検出ステップと検出顔領域に対応するテキスト情報を映像データに重畳することにより、撮像画像における検出顔領域に対してテキスト情報を対応付けた状態で映像データに基づく撮像画像を表示し、検出顔領域のうち、ユーザ所望の一の検出顔領域に対応するテキスト情報を表す音声が入力された場合、当該テキスト情報に対応する検出顔領域をフォーカス対象に決定するようにした。

本発明によれば、ユーザの手を使用させることなく、ユーザに音声の入力によってユーザ所望の一の検出顔領域を入力させることができ、かくして簡易な操作でユーザ所望の一の検出顔領域をフォーカス対象に決定することができる撮像装置及びフォーカス対象決定方法を実現できる。

以下、図面について、本発明の一実施の形態を詳述する。

（１）全体構成
（１−１）カムコーダの回路構成
図１において１は、全体としてカムコーダの回路構成ブロックを示し、図示しないＣＰＵ（Central Processing Unit ）、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）から構成される制御部２がカムコーダ１の全体を統括的に制御するようになされている。制御部２は、ＲＯＭ又はフラッシュメモリ４に格納されている各種基本プログラムやフォーカス対象決定プログラム等をＲＡＭに展開することによって、これらのプログラムに基づいて各種処理や後述するフォーカス対象決定処理を実行するようになされている。

カムコーダ１は、レンズ群７を介して取得した撮像光に基づいて映像データを生成する際に露光条件、焦点及びホワイトバランスなどの画像調整処理がユーザ所望の撮像対象に対して最適になるように自動制御するオートフォーカス機能を有している。

カムコーダ１は、このオートフォーカス機能を用いて撮像された映像データを音声データと共に撮像データとしてデータ記録部１５に記録する。またカムコーダ１は、データ記録部１５に記録された撮像データを再生したり、外部インターフェース１７を介して外部装置に送出するようになされている。

具体的に制御部２は、図示しない電源ボタンが押下されると、ユーザから記録開始指示を待ち受ける記録準備処理を実行する。

制御部２は、図示しない測距センサを用いて撮像対象までの距離を測定することにより、焦点が撮像対象に合致するようにレンズ群７を制御してレンズ群７から撮像光を取り込むと共に、当該レンズ群７を通過してイメージセンサ８上で結像した撮像光を当該イメージセンサ８によって光電変換し、映像信号として映像データ生成部９へ送出する。

制御部２は、図示しない光量検出センサに基づいてシャッタ速度や絞りなどの露光条件が最適になるような値を算出し、これを次の露光条件として設定し、図示しないシャッタ機構及びレンズ群７を制御する。

制御部２は、供給された撮像信号に対して、映像データ生成部９によってＡＧＣ（Auto Gain Control）処理、及びガンマ補正処理やホワイトバランス調整処理、カラープロセス処理などの画像調整処理を施すことにより、映像データを生成する。

さらに制御部２は、映像データを表示部１０へ送出することにより、表示部１０に当該映像データに基づく撮像画像を表示させる。これにより制御部２は、ユーザに撮像画像を視認させることができ、ユーザに撮像データの記録を開始する準備をさせ得るようになされている。

そしてユーザの操作部５を介した操作入力により、記録を開始する旨の要求信号が供給されると、制御部２は記録処理を開始し、映像データを画像ＲＡＭ１１に一時記憶すると共に、当該画像ＲＡＭ１１から当該映像データを読み出して圧縮処理部１２に供給する。

さらに制御部２は、マイク１３によって集音されたカムコーダ１周辺の音声を音声信号として音声信号処理部１４へ供給する。制御部２は、音声信号処理部１４によって音声信号に対して各種補正処理、ＡＧＣ処理及びアナログデジタル変換処理などを施すことにより音声データを生成し、当該音声データを圧縮処理部１２へ送出する。

制御部２は、圧縮処理部１２によって映像データ及び音声データに対してそれぞれ所定の圧縮処理を実行することにより撮像データを生成し、これをハードディスクドライブなどでなるデータ記録部１５に供給して記録するようになされている。

一方制御部２は、ユーザの操作部５に対する操作入力に応じて、撮像データを再生する旨の表示要求信号が操作部５から供給されると、再生処理を開始し、データ記録部１５から撮像データを読み出して圧縮処理部１２へ送出する。

制御部２は、圧縮処理部１２によって圧縮画像データを伸長して映像データ及び音声データをそれぞれ生成すると、当該映像データを表示部１０に供給する。この結果、表示部１０には、撮像データに基づく撮像画像が表示される。

さらに制御部２は、音声出力部１６によって音声データに対してデジタルアナログ変換処理などを施し、図示しないスピーカから当該音声データに基づく音声を出力させる。

他方制御部２は、外部インターフェース１７に例えばテレビジョンなどの外部機器（図示せず）が接続された状態で、撮像データを供給する旨の供給要求信号が当該外部インターフェース１７から供給されると、データ記録部１５から撮像データを読み出し、外部インターフェース１７を介して当該撮像データを外部機器に供給するようになされている。

また制御部２は、タッチパネル機能を有する表示部１０を介してユーザの要求を認識することができる。制御部２は、当該制御部２内の図示しないＲＯＭから読み出した画像データを表示部１０に送出することにより、選択ボタンを有する図示しない選択画面を表示部１０に表示する。

このとき制御部２は、表示部１０から供給されるユーザの接触を検出した旨を表す操作入力信号により、ユーザが表示部１０に表示された選択ボタンを介して操作入力したこと認識する。

また制御部２は、例えば表示部１０に表示された選択ボタンにカーソルが重ねられた状態で操作部５の図示しない決定ボタンが操作されることにより、操作部５から操作入力信号が供給されると、ユーザが表示部１０に表示された選択ボタンを介して操作入力したこと認識するようになされている。

（１−２）撮像対象モード
カムコーダ１では、風景や人物などの撮像対象となる撮像対象の種類に応じた複数の撮像対象モードを有している。カムコーダ１では、操作部５又は表示部１０に対する操作入力によりユーザに撮像対象モードを選択させる。そしてカムコーダ１は、当該撮像対象モードにおいて撮像されると想定される種類の撮像対象に対して最適になるように焦点や露光条件を設定すると共に、当該撮像対象に対して最適になるように画像調整処理を施して上述したオートフォーカス機能を実行するようになされている。

例えば撮像対象モードとして風景撮像対象モードが選択されていた場合、カムコーダ１は、映像データの全体をオートフォーカス機能の対象となるフォーカス対象に決定し、焦点深度が深くなるように露光条件を設定すると共に映像データの中心付近にある撮像対象に焦点を合わせ、さらに当該映像データの全体に対して最適になるように画像調整処理を施す。

これに対して撮像対象モードとして人物撮像対象モードが選択されていた場合には、カムコーダ１は、撮像対象としてユーザによって選択された一の人物の顔領域（以下、これを選択顔領域と呼ぶ）をフォーカス対象に決定し、当該フォーカス対象に対して最適な露光条件を設定すると共に、当該フォーカス対象に対して焦点を合わせ、当該フォーカス対象に対して最適になるように画像調整処理を施すようになされている。

本実施の形態では、撮像対象モードとして人物撮像対象モードが選択されていた場合、撮像データの記録処理を開始する際に、映像データから人物の顔領域を検出し、検出された顔領域（以下、これを検出顔領域と呼ぶ）に対してテキスト情報を対応付けて表示すると共に、選択顔領域に付加されたテキスト情報に基づいた音声をユーザに入力させることにより、当該選択顔領域をフォーカス対象に決定するようにしている。次に、かかるフォーカス対象決定処理について説明する。

（２）フォーカス対象決定処理
カムコーダ１の制御部２は、映像データから検出された各検出顔領域間の相対的な値である顔領域重要度に基づいて当該検出顔領域の順位付けを実行し、当該検出顔領域に対して対応付けられた順位をテキスト情報として表示する順位表示モードと、予め顔領域と当該顔領域の名称（以下、これを登録顔名称と呼ぶ）を対応付けて登録しておき、検出顔領域が当該登録された顔領域（以下、これを登録顔画像データと呼ぶ）と合致する場合に、当該登録顔画像データと対応付けられた登録顔名称を検証顔領域に対するテキスト情報として表示する顔名称表示モードとの２つの表示モードを有している。

制御部２は、記録準備処理を実行中に、撮像対象モードが人物撮像対象モードに設定されると、人物撮像対象モードに移行し、例えば表示部１０に２つの表示モード（順位表示モード及び顔名称表示モード）にそれぞれ対応する選択ボタンを表示させることにより、２つの表示モードからいずれかを選択するようにユーザに対して要求する。

制御部２は、ユーザの操作部５又は表示部１０に対する操作入力により、一の表示モードが選択されると、選択された表示モードに移行し、フォーカス対象決定処理を開始する。

（２−１）顔角度の定義
カムコーダ１の制御部２は、フォーカス対象決定処理として、まず映像データから顔領域を検出する顔領域検出処理を実行する。ここで制御部２は、映像データから検出顔領域を検出する際に、検出顔領域が表す顔の角度である顔角度を検出顔領域の撮像対象としての重要性を表すパラメータＰとして使用するようになされている。まず、この顔角度の定義について説明する。

図２（Ａ）及び（Ｂ）に示すように、顔角度のうち、映像データに基づく撮像画像が表示部１０に表示されたときに、当該撮像画像を有するＸＺ平面に垂直なＹ軸を中心に回転するロール（Ｒｏｌｌ）方向の角度をロール顔角度とする。

すなわち図３（Ａ）に示すように、ロール顔角度は、鉛直方向の鉛直軸ＳＰに対する顔領域ＦＡの２つの目の中間と口の中心を結ぶ上下方向の軸（以下、これを顔上下軸ＦＰと呼ぶ）の角度である。なお、当該顔上下軸ＦＰが鉛直軸ＳＰから時計回りに回転したときのロール顔角度を正、反時計回りに回転したときのロール顔角度を負とする。

例えば図３（Ｂ）に示すように、撮像画像におけるロール顔角度が時計回りに７０°回転しているため、このときのロール顔角度は＋７０°となる。

また図２に示すように、顔上下軸ＦＰを中心として回転する方向をヨー（Ｙａｗ）方向と定義し、このヨー方向における顔角度をヨー顔角度とする。このヨー顔角度は、目及び口を含んだ平面である顔領域ＦＡとＸＺ平面との成す角度と定義する。

すなわち図４（Ａ）に示すようにヨー顔角度は、顔領域ＦＡが正面を向いている（当該顔領域ＦＡがＸＺ平面上に存在する）ときに基準の０°となり、図２の顔領域ＦＡより下方向からみて時計回りに回転したときに正、反時計回りに回転したときに負の角度となる。なおこのヨー顔角度は顔上下軸ＦＰを回転軸としているため、図４（Ｂ）に示すように、上述したロール顔角度の変化に応じて顔上下軸ＦＰの方向がＸＺ平面内で変化することになる。

例えば図４（Ｃ）に示すように、−４０°のヨー角度を有する顔領域ＦＡ（破線で示す仮想平面ＹＰ上に存在）では、当該顔領域ＦＡの正面が実線で示すＸＺ平面と比してヨー方向に−４０°回転している。また、図４（Ｄ）に示すように、同じ−４０°のヨー顔角度を有する顔領域ＦＡであっても、顔上下軸ＦＰが変化するとその回転方向（ヨー方向）も同様に変化することになる。

（２−２）順位表示モード
（２−２−１）顔領域の検出
カムコーダ１の制御部２（図１）は、ユーザの表示部１０に対する操作入力により順位表示モードを選択する旨の要求がなされると、順位表示モードに移行し、フォーカス対象決定処理を開始する。

具体的に制御部２は、まず映像データから人物の顔領域を検出する顔領域検出処理を開始し、映像データ生成部９によって生成される映像データを表示部１０ではなく、顔検出ブロック２０の画像サイズ変換部２２（図５）へ供給する。

顔検出ブロック２０では、制御部２から供給される各種制御信号などに基づいてコントローラ２１が画像サイズ変換部２２、画像メモリ２３、相関判別部２４及び基準顔データ記憶部２５を制御することにより、映像データから人物の顔領域ＦＡを検出顔領域として検出する。

すなわち映像データ生成部９から撮像画像データが供給されると、画像サイズ変換部２２は、コントローラ２１から供給される倍率を表す画像サイズ信号に従って、撮像画像データが表す撮像画像を様々な画像サイズに変換してサイズ変換画像データを生成し、さらにこのサイズ変換画像データから例えば任意に抽出された基準点からの輝度差を算出することにより特徴画像データを生成する。

さらに画像サイズ変換部２２は、特徴画像データを中心部分から順に所定のサイズに切り出して、切出特徴画像データを生成し、元の特徴画像データにおける当該切出特徴画像データの位置を表す座標情報及び当該切出特徴画像データの拡大率又は縮小率を表す倍率情報を当該切出特徴画像データに付加し、当該切出特徴画像データを画像メモリ２３に送出する。

画像メモリ２３は、コントローラ２１から供給されるメモリアドレスに従って切出特徴画像データを一時記憶すると共に、当該コントローラ２１から供給されるタイミング信号及びメモリアドレスに従って当該切出特徴画像データを読み出し、相関判別部２４に送出する。

また基準顔データ記憶部２５には、切出特徴画像データの比較対象となる基準顔データとして、様々な顔角度（ただしロール顔角度は０°）でなる複数の基準顔データと、当該基準顔データのヨー顔角度（以下、これを基準顔角度情報と呼ぶ）及び当該基準顔データにおける人物の顔領域ＦＡの面積を表す基準顔面積情報とが対応付けられて記憶されている。この基準顔データは、例えば任意に抽出された基準点からの輝度差を表す特徴データとして記憶されている。

相関判別部２４は、基準顔データ記憶部２５に対して基準顔データを取得する旨の取得コマンドを送出する。基準顔データ記憶部２５は、要求された基準顔データを相関判別部２４に送出する。

そして相関判別部２４は、基準顔データ記憶部２５から基準顔データを順次取得すると共に、各基準顔データをロール方向における正又は負の方向（ＸＺ平面上で時計回り及び反時計回り）に例えば１°刻みの回転角度で±９０°まで回転させ、画像メモリ２３から取得した切出特徴画像データと比較する。相関判別部２４は、相関値が所定の一致閾値以上となる基準顔データが存在した場合には、この切出特徴画像データから検出顔領域が検出されたと判別する。

このように顔検出ブロック２０は、切出特徴画像データの基準顔データに対する相関値に基づいて、当該切出特徴画像データに検出顔領域が存在するか否かを判別し得るようになされている。

このとき相関判別部２４は、後述する顔領域重要度の算出に用いられるパラメータＰとして、倍率情報と基準顔面積情報とから検出顔領域の面積（以下、これを顔領域面積と呼ぶ）Ｐ１を算出する。また相関判別部２４は、倍率情報と切出特徴画像データの座標情報とを用いて、特徴画像データにおける中心から検出顔領域の中心点までの距離（以下、これを顔領域中心距離と呼ぶ）Ｐ２を算出する。さらに相関判別部２４は、基準顔データに付加された基準顔角度情報及び相関値を顔領域重要度のパラメータＰ（Ｐ３及びＰ４）としてそれぞれ使用する。

そして相関判別部２４は、検出顔領域が検出されたこと表す判別結果を制御部２に送出し、画像メモリ２３から次の切出特徴画像データを取得して基準顔データとの比較を継続する。このとき制御部２は、判別結果と共に相関判別部２４から供給された顔領域面積Ｐ１と、顔領域中心距離Ｐ２と、基準顔角度情報Ｐ３と、相関値Ｐ４と、座標情報と、検出顔領域が検出された切出特徴画像データ（以下、これを検出画像データと呼ぶ）とを対応付けて制御部２内の図示しないＲＡＭに記憶する。

これに対して全ての基準顔データ及び当該基準顔データを回転させて比較したにも拘らず、相関値が所定の一致閾値以上となる基準顔データが存在しない場合には、相関判別部２４は、当該特徴画像データに人物の顔領域が存在しないと判別し、画像メモリ２３から次の切出特徴画像データを取得して各基準顔データとの比較を継続する。

そして相関判別部２４は、全ての切出特徴画像データについて、基準顔データとの比較を終了すると、供給された映像データに対する人物の顔領域の検出を終了する。

このように顔検出ブロック２０は、基準顔データと映像データを比較して、当該映像データから基準顔データと合致する部分を検出することにより、映像データから検出顔領域を検出し得るようになされている。

なお制御部２は、図６に示すように、１つの撮像画像データに多数（１１人以上）の顔が存在する場合には、１０人の顔を検出した時点で顔領域検出処理を終了し、次の処理へ移行することにより、顔の検出に過大な時間を要してしまうことを防止するようになされている。なお、図では検出顔領域を斜線で示しており、以下に示す図７及び図８についても同様とする。

（２−２−２）顔領域重要度の算出
次に、パラメータＰ（Ｐ１〜Ｐ４）を用いて、検出顔領域の順位付けに用いられる顔領域重要度を算出する顔領域重要度算出処理について説明する。

すなわちカムコーダ１における制御部２の重要度算出部２Ａ（図１）は、検出顔領域が検出された検出画像データに対応付けられた顔領域面積Ｐ１、顔領域中心距離Ｐ２、基準顔角度情報Ｐ３及び相関値Ｐ４を制御部２内の図示しないＲＡＭから読み出す。

複数の人物が同時に撮像された映像データにおいては、図７に示すように、一般的に撮像の優先度が高い（すなわち撮像対象として撮像したい）人物がより手前にくることが多く、必然的に検出顔領域の面積が大きくなる。

従って、面積が大きい検出顔領域は他の検出顔領域と比較して、ユーザ（撮像者）が主に撮像したいと意図している可能性が高く、撮像対象としての重要性が高いと考えられる。そこで重要度算出部２Ａは、顔領域面積Ｐ１が大きい検出顔領域に対する値が高くなるように面積評価値を算出する。

すなわち重要度算出部２Ａは、顔領域面積Ｐ１に対して所定の重み付け係数Ｗ１を乗算することにより、各検出顔領域についての面積評価値を算出する。

また、複数の人物が同時に撮像された映像データにおいては、図７に示したように、一般的に撮像の主対象たる人物（図では人物Ｂ）が中心に位置することが多く、この主対象たる人物の検出顔領域の縦横方向は他の検出顔領域と比較して、ユーザが主に撮像したいと意図している可能性が高く、撮像対象としての重要性が高いと考えられる。

そこで重要度算出部２Ａは、映像データが表す当該映像データの中心点から検出顔領域の中心までの距離を表す顔領域中心距離Ｐ２を用い、当該中心点に近い検出顔領域に対する値が高くなるように中心評価値を算出する。

すなわち重要度算出部２Ａは、中心点に近い検出顔領域に対するレベルが高くなるように顔領域中心距離Ｐ２を例えば１０段階にレベル分けし、当該レベルに対して所定の重み付け係数Ｗ２を乗算することにより、各検出顔領域についての中心評価値を算出する。

さらに複数の人物が同時に撮像された映像データにおいては、図７に示したように、一般的に撮像の主対象たる人物が正面（カムコーダ１の方向）を向いているとき（すなわちヨー顔角度が０°のとき、図では人物Ｂ）に合わせて撮像されている可能性が高く、一方でただの通行人など、撮像しようとしていない人物（図では人物Ａ）は、全く異なる方向を向いている場合が多い。

従ってヨー顔角度の接待値が小さい検出顔領域は他の検出顔領域と比較して、ユーザが主に撮像したいと意図している可能性が高く、撮像対象としての重要性が高いと考えられる。そこで重要度算出部２Ａは、基準顔角度情報Ｐ３が表す検出顔領域のヨー顔角度を用い、当該ヨー角度が０°に近く、検出顔領域が正面に向いているほど高くなるように正面評価値を算出する。

すなわち重要度算出部２Ａは、検出顔領域が正面に向いているほど高くなるようにヨー顔角度の絶対値を例えば１０段階にレベル分けし、当該レベルに対して所定の重み付け係数Ｗ３を乗算することにより、各検出顔領域についての正面評価値を算出する。

またカムコーダ１は、基準顔データとの一致率を表す相関値Ｐ４が高いほど、検出顔領域が間違いなく人物の顔である可能性（すなわち人物の顔らしさ）が高くなり、撮像対象としての重要性が高いと考えられる。そこで重要度算出部２Ａは、検出顔領域についての相関値Ｐ４を用い、当該相関値Ｐ４が高いほど値が高くなるように相関評価値を算出する。

すなわち重要度算出部２Ａは、相関値Ｐ４に対して所定の重み付け係数Ｗ４を乗算することにより、各検出顔領域についての相関評価値を算出する。

なお重要度算出部２Ａは、各値に重み付け係数Ｗ１、Ｗ２、Ｗ３及びＷ４を乗算することにより、各評価値（面積評価値、中心評価値、相関評価値及び正面評価値）の水準を揃えると共に、各評価値を各評価値間における相対的な重要度に応じて重み付けするように重み付け係数Ｗ１、Ｗ２、Ｗ３及びＷ４の値を調整している。

そして重要度算出部２Ａは、各評価値を加算することにより、検出画像データが表す各検出顔領域ごとに、映像データにおける他の検出顔領域と比較したときの当該検出顔領域の撮像対象としての重要性を総合的に表す顔領域重要度を算出することができる。

例えば図７では、中心に最も近くて顔面積が最も大きく、かつ正面を向いている人物Ｂは、人物Ａや人物Ｃと相関値Ｐ４がほぼ同程度であれば、当該人物Ａや人物Ｃよりも高い顔領域重要度を得ることになる。

（２−２−３）順位の表示及び音声入力
次に、上述した顔領域重要度に基づいて検出顔領域を順位付けすると共に、検出顔領域に対して順位を表示し、この順位をユーザに音声入力させる順位音声入力処理について、３つの検出顔領域が検出された場合を表す図８を例にとって説明する。

カムコーダ１の制御部２は、フォーカス対象決定部２Ｂによって検出顔領域を顔領域重要度の高い順に並べ替え、検出顔領域の順位付けを行う。フォーカス対象決定部２Ｂは、例えば図８の検出顔領域に対して、第１順位が人物Ｂ、第２順位が人物Ｃ、第３順位が人物Ａというように順位付け、制御部２内のＲＡＭに記憶する。

フォーカス対象決定部２Ｂは、顔領域重要度に基づいて順位付けを実行することにより、撮像対象としての重要性が高く、ユーザが選択顔領域として選択する可能性の高い検出顔領域の順位を高くすることができる。

そしてフォーカス対象決定部２Ｂは、最高順位（第１順位）に順位付けされた検出顔領域を選択顔領域の第１候補として選定すると共に、各検出顔領域に対する順位を対応付けた状態で撮像画像を表示部１０に表示する。

すなわちフォーカス対象決定部２Ｂは、フラッシュメモリ４から検出顔領域に対応する顔領域面積Ｐ１及び座標情報を読み出し、当該顔領域面積Ｐ１及び座標情報に基づいて各検出顔領域よりも一回り大きくなるように枠画像データを生成すると共に、各検出顔領域の順位に応じて順位画像データを生成する。さらにフォーカス対象決定部２Ｂは、制御部２内の図示しないＲＯＭから選択要求画像データを読出し、当該枠画像データ、順位画像データ及び選択要求画像データを映像データに重畳して表示部１０に供給する。

この結果図９に示すように、表示部１０には、順位枠表示画面５０が表示される。この順位枠表示画面５０では、枠画像データに基づいて撮像画像における各検出顔領域（以下、これを検出顔画像と呼ぶ）ＤＦ（ＤＦａ〜ＤＦｃ）の周囲を囲むほぼ正方形でなる枠画像ＦＲ（ＦＲａ〜ＦＲｃ）が表示されると共に、順位画像データに基づいて各検出顔領域に付された順位を数字で示す順位テキストＯＰ（ＯＰａ〜ＯＰｃ）が枠画像ＦＲａ〜ＦＲｃと対応付けられて表示される。

また順位枠表示画面５０は、選択要求画像データに基づいて、「フォーカスする顔を音声で選択してください。」という文字列を有する選択要求メッセージＣＴが表示される。これによりフォーカス対象決定部２Ｂは、選択顔領域を音声によって選択可能であることをユーザに対して確実に認識させ得るようになされている。

順位枠表示画面５０は、検出顔画像ＤＦを囲む枠画像ＦＲの上中央に順位テキストＯＰが表示されている。これによりフォーカス対象決定部２Ｂは、枠画像ＦＲの端部分に順位テキストＯＰを表示する場合と比較して、近接する検出顔領域に付された枠と最大限離れた位置に当該順位を表示することができるため、多数の検出顔領域が存在するような場合であっても、各検出顔領域に対する順位をユーザに極力誤認識させずに済む。

また順位枠表示画面５０では、順位テキストＯＰとして数字のみが表示される。これによりフォーカス対象決定部２Ｂは、撮像画像を隠す領域を最小限に抑えることができる。

順位枠表示画面５０では、検出顔画像ＤＦに対して枠画像ＦＲが表示されている。これによりフォーカス対象決定部２Ｂは、どの人物の顔領域を選択顔領域として選択可能であるかをユーザに一目で認識させることができる。

順位枠表示画面５０では、第１順位である人物Ｂを除く他の人物Ａ及びＣに対する枠画像ＦＲ及び順位テキストＯＰが「赤色」及び「細枠」で表示されると共に、第１順位である枠画像ＦＲｂが他の枠画像ＦＲａ及びＦＲｃよりも太い「太枠」、かつ「青色」で表示されている。

フォーカス対象決定部２Ｂは、第１順位となる検出顔領域に対応する枠画像ＦＲを一つだけ異なる色や太さで表示することにより、第１順位の検出顔領域を他よりも目立たせ、選択顔領域の第１候補として選択されていることをユーザに認識させ得るようになされている。

フォーカス対象決定部２Ｂは、所定の選択時間（例えば５秒間）に渡って音声信号処理部１４（図１）によって生成される音声データを音声判別部３７に供給する。音声判別部３７は、所定の音声認識処理により、入力された音声が順位枠表示画面５０に表示中の順位（イチ、ニ、サン）に所定の語句「バン」を付加した文字列を表す「イチバン」、「ニバン」、「サンバン」であるか否かについて判別する。

音声判別部３７は、表示中の順位テキストＯＰに対応する順位を表す音声が入力されたと判別すると、この入力された順位を表す順位信号をフォーカス対象決定部２Ｂに送出する一方、選択時間中に順位を表す音声が入力されなかったと判別すると、表示中の順位テキストＯＰに対応する順位を表す音声が入力されなかった旨を表す無入力信号をフォーカス対象決定部２Ｂに送信する。

フォーカス対象決定部２Ｂは、順位信号が供給されると、当該順位信号が表す順位に対応する検出顔領域をフォーカス対象に決定し、入力された順位でなる検出顔領域に対して「青色」及び「太枠」で表示するように枠画像データを生成すると共に、制御部２内のＲＯＭから決定通知画像データを読み出し、これらを映像データに重畳して表示部１０に供給する。

この結果表示部１０には、図１０に示すように、決定通知画面５１が表示される。この決定通知画面５１は、例えばユーザによって「サンバン」と入力された場合を示しており、フォーカス対象が第３順位の人物Ａの検出顔領域に決定されたため、人物Ａの検出顔画像ＤＦａに対する枠画像ＦＲａが「青色」の「太枠」で表示されている一方、第１順位の人物Ｂの検出顔画像ＤＦｂに対する枠画像ＦＲｂが「細枠」の「赤色」で表示されている。さらに決定通知画面５１には、決定画像データに基づいて、「３番をフォーカスします。」という文字列を有する決定通知メッセージＤＴが表示される

フォーカス対象決定部２Ｂは、フォーカス対象として決定した顔検出領域（人物Ａ）についての枠画像ＦＲａを「青色」及び「太枠」で表示することにより、フォーカス対象が決定されたことをユーザに対して感覚的に認識させると共に、決定通知メッセージＤＴに表示された文字列によりフォーカス対象が決定されたことをユーザに対して確実に通知することができる。

またフォーカス対象決定部２Ｂは、選択時間中に順位テキストＯＰに対応する順位を表す音声が入力されず、音声判別部３７から無入力信号が供給された場合、第１順位である人物Ｂの検出顔領域をそのままフォーカス対象に決定する。このときフォーカス対象決定部２Ｂは、制御部２内のＲＯＭから決定画像データを読み出し、枠画像ＦＲ及び順位テキストＯＰを変更しないまま映像データに重畳することにより、「１番をフォーカスします。」という文字列を有するフォーカス対象決定画面（図示せず）を表示部１０に表示させるようになされている。

これによりフォーカス対象決定部２Ｂは、一の検出顔領域を選択顔領域の第１候補として選定し、ユーザによる音声入力がない場合に当該第１候補である人物Ａの検出顔領域をフォーカス対象として決定するため、当該第１候補をユーザが選択顔領域として選択する場合にユーザに何ら操作をさせることなく、フォーカス対象を決定し得るようになされている。

またフォーカス対象決定部２Ｂは、顔領域重要度に基づいて撮像対象としての重要性が高く、選択顔領域として選択される可能性の高い検出顔領域を当該選択顔領域の第１候補として選定するため、ユーザが選択顔領域を当該第１候補から変更するための音声入力を極力省略させ得るようになされている。

なおフォーカス対象決定部２Ｂは、ユーザに「イチ」、「ニ」、「サン」というように単に順位を表す数字をそのまま音声入力させるのではなく、「イチバン」、「ニバン」、「サンバン」というように数字に「バン」という短い語句を付加して入力させることにより、音声入力させる文字数を増加させて音声判別部３７による音声認識処理の精度を向上させるようになされている。

このように、カムコーダ１では、映像データから検出された検出顔領域を撮像対象としての重要性を表す顔領域重要度に基づいて順位付けした上で、各検出顔領域に対して順位を対応付けて順位テキストＯＰとして表示すると共に、表示された順位テキストＯＰをユーザに音声入力させることにより、簡易な操作でユーザに選択顔領域を選択させ得るようになされている。

（２−３）顔名称表示モード
次に、顔名称表示モードにおけるフォーカス対象決定処理について説明する。この顔名称表示モードでは、予め撮像対象情報として顔領域及び当該顔領域の名称を対応付けて登録しておき、検出顔領域が当該登録された顔領域（以下、これを登録顔画像データと呼ぶ）であった場合、当該登録顔画像データに対応付けられた名称（以下、これを登録顔名称と呼ぶ）をテキスト情報である顔名称テキストＮＭとして表示する。

またこの顔名称表示モードでは、ユーザ（撮像者）の登録顔名称を表す音声（以下、これを顔名称音声と呼ぶ）を予め登録しておき、所定の音声識別処理によって入力された音声がユーザの音声と合致するか否かを判別するようになされている。

（２−３−１）撮像対象データベースへの登録
まず、フォーカス対象決定処理に先立って実行される撮像対象情報登録処理について説明する。

この顔領域登録処理では、まずユーザに優先順位を表す登録優先順位ＲＮを選択させ、当該登録優先順位ＲＮに対応付けて「登録顔名称」を登録すると共に、当該登録優先順位ＲＮに対応付けて「登録顔画像データ」及び「顔名称音声」をそれぞれ登録するようになされている。

カムコーダ１のフラッシュメモリ４に（図１）は、撮像対象データベース（図示しない）が記録されている。この撮像対象データベースには、登録優先順位ＲＮに対して、登録顔画像データに付されたファイル名と、当該登録顔画像データの名称などを表す登録顔名称と、顔名称音声に付されたファイル名とが撮像対象情報として登録される。なおこの撮像対象データベースはユーザごとに作成されるようになされている。

カムコーダ１の制御部２（図１）は、ユーザによる操作部５又は表示部１０を介した操作入力により、撮像対象情報を登録する旨の要求がなされると、撮像対象登録処理を開始する。まず制御部２は、撮像対象情報登録部２Ｃによって撮像対象情報を対応付ける登録優先順位ＲＮをユーザに選択させる。

具体的に撮像対象情報登録部２Ｃは、フラッシュメモリ４から撮像対象データベースを読み出すと、当該撮像対象データベースに基づいて登録番号画像データを生成し、表示部１０に供給する。

この結果表示部１０には、図１１に示すように、登録番号画像データに基づく登録優先順位画面５５が表示される。登録優先順位画面５５では、登録優先順位ＲＮが表示情報として表示される登録優先順位欄ＳＮと、顔名称テキストＮＭ若しくは登録顔名称が未登録であることを表示情報として表示するテキスト表示欄ＳＴと、登録顔画像データの登録の有無が表示情報として表示される顔登録有無表示欄ＳＰと、顔名称音声の登録の有無が表示情報として表示される音声登録有無表示欄ＳＶとが設けられており、登録優先順位ＲＮごとにそれぞれ対応する表示情報が表示される。なお図１１では、撮像対象データベースにいずれの情報も登録されていない場合を示している。

また登録優先順位画面５５では、第１登録優先順位の登録優先順位ＲＮに対応する表示情報にカーソルＣＮが重ねられており、当該第１登録優先順位の登録優先順位ＲＮに対応する表示情報の周囲の色を他の登録優先順位ＲＮとは異なる色で表示している。撮像対象情報登録部２Ｃは、操作部５又は表示部１０を介してユーザにカーソルＣＮを移動させ、当該カーソルを任意の登録優先順位ＲＮに移動させるようになされている。

撮像対象情報登録部２Ｃは、一の登録優先順位ＲＮに対応する表示情報にカーソルＣＮが重ねられた状態で、操作部５又は表示部１０を介してユーザから当該一の登録優先順位ＲＮに顔領域を登録する旨の要求がなされると、ユーザに当該一の登録優先順位（以下、これを選択登録順位と呼ぶ）に対応する登録顔名称を登録させる。すなわち撮像対象情報登録部２Ｃは、制御部２内のＲＯＭからキーボード画像データを読み出し、これを表示部１０に供給する。

なお撮像対象情報登録部２Ｃは、撮像対象データベースにおける選択登録順位に既に他の撮像対象情報が登録されている場合には、当該選択登録順位以降に登録されている撮像対象情報の登録優先順位ＲＮを１つずつ繰り下げることにより、撮像対象情報を消去しないようになされている。

そして表示部１０には、キーボード画像データに基づくキーボード画面（図示しない）が表示される。このキーボード画面には、５０音順でなる平仮名がそれぞれに表示されたキーボードボタンと、入力されたテキストを登録顔名称として確定する旨を表す選択ボタンとが表示される。

撮像対象情報登録部２Ｃは、ユーザが表示部１０に表示されたキーボードボタンを押下することによりユーザがこれから登録しようとしている顔領域に対する名称が入力された後、選択ボタンが押下されたことを認識すると、入力された名称を選択登録順位に対応付け、登録顔名称として撮像対象データベースに登録する。

また撮像対象情報登録部２Ｃは、ユーザに選択登録順位に対応する顔領域を撮像させ、これを登録顔画像データとして登録するようになされている。

すなわち撮像対象情報登録部２Ｃは、制御部２内のＲＯＭから撮像確認画像データを読み出し、これを映像データに重畳して表示部１０に撮像確認画面（図示しない）を表示する。この撮像確認画面には、例えば「登録する顔の撮像を実行しますか」というユーザの登録顔画像データを撮像する意思を確認する文字列と、顔の撮像を実行する旨を表す選択ボタン及び顔の撮像を実行しない旨を表す選択ボタンが表示される。

撮像対象情報登録部２Ｃは、操作部５又は表示部１０を介してユーザが顔の撮像を実行する旨を表す選択ボタンを押下したことを認識すると、制御部２内のＲＯＭから撮像用画像データを読み出し、これを映像データに重畳して表示部１０に送出する。

この結果表示部１０には、図１２に示すように、登録顔撮像画面５６が表示される。この登録顔撮像画面５６では、撮像用画像データに基づいて、所定のサイズでなるほぼ正方形の枠である撮像用フレーム画像ＦＳと「枠内に顔が入るように撮像してください。」という、枠内に顔が入った状態で撮像するようにユーザを促す文字列を有する撮像要請画像ＰＴが表示される。

これにより撮像対象情報登録部２Ｃは、撮像要請画像ＰＴによって表示された枠内に人物の顔が入った状態で撮像するようにユーザを促すことができるため、撮像される顔領域の画像サイズを一定範囲内に収めることができ、登録するのに適した画像サイズでなる顔領域が含まれる映像データを取得できる。また、映像データのどの部分に顔領域が存在するかを推定できるため、当該映像データから顔領域をわざわざ検出しなくても、顔領域を有する画像データを切出すことができる。

なお撮像対象情報登録部２Ｃは、操作部５又は表示部１０を介して上述した撮像確認画面（図示しない）における顔の撮像を実行しない旨を表す選択ボタンが押下されたことを認識すると、顔領域の登録を中止し、ユーザに顔名称音声を登録させる（詳しくは後述する）。

そして操作部５を介してユーザから登録用の顔領域を撮像する旨の要求がなされると、撮像対象情報登録部２Ｃは、映像データから撮像用フレーム画像ＦＳよりも一回り大きいサイズで画像データを切り出すと共に、制御部２内のＲＯＭから登録顔確認画像データを読み出し、切り出した顔領域（以下、これを切出顔領域と呼ぶ）を重畳して表示部１０へ供給する。

この結果表示部１０には、図１３に示すように、登録顔確認画面５７が表示される。登録顔確認画面５７には、登録顔確認画像データに基づく登録顔確認画像ＣＲに対して、切出顔領域画像ＲＦが重ねられて表示される。

この登録顔画像データ確認画像ＣＲには、「この顔を登録しますか？」という登録の可否をユーザに確認する確認文字列ＲＴと、選択ボタンとしての了承ボタンＹＢ及び非了承ボタンＮＢとが表示されている。

撮像対象情報登録部２Ｃは、操作部５又は表示部１０からユーザが了承ボタンＹＢを押下したことを表す操作入力信号が供給されると、切出顔領域から例えば任意に抽出された基準点からの２点間の輝度差でなる特徴データを抽出し、これを登録顔画像データとしてフラッシュメモリ４に登録すると共に、当該登録顔画像データにファイル名を付し、当該登録顔画像データのファイル名を撮像対象データベースに登録する。

また撮像対象情報登録部２Ｃは、表示部１０からユーザが非了承ボタンＮＢを押下したことを表す操作入力信号が供給されると、登録顔画像データ撮像画面５６（図１２）を再表示してユーザに登録用の顔領域を撮像させ直すようになされている。

さらに撮像対象情報登録部２Ｃは、ユーザ（撮像者）に対し、選択登録順位にテキスト情報として登録している登録顔名称に対応する顔名称テキストＮＭを表示し、当該顔名称テキストＮＭを読み上げさせることによりユーザに音声入力させ、このときのユーザの音声に基づく音声データを顔名称音声として選択登録順位に対応付けて登録するようになされている。

すなわち撮像対象情報登録部２Ｃは、制御部２内のＲＯＭから音声登録確認画像データを読み出し、これを表示部１０に送出することにより音声入力確認画面（図示しない）を表示する。この音声入力確認画面には、例えば「音声データの登録を実行しますか」という顔名称音声を登録するユーザの意思を確認する文字列と、音声データの登録を実行する旨を表す選択ボタンと、音声データの登録を中止する旨を表す選択ボタンとが表示される。

撮像対象情報登録部２Ｃは、操作部５又は表示部１０を介して音声入力確認画面における実行ボタンが押下されたことを認識すると、撮像対象データベースに登録されている登録顔名称に基づいて音声入力要求画像データを生成し、表示部１０へ供給する。

この結果表示部１０には、音声入力要求画像データに基づく音声入力要求画面（図示しない）が表示される。この音声入力要求画面では、例えば登録顔名称が「たろう」であった場合、「たろうと言ってください」というように「たろう」を表す音声を入力するようにユーザを促す文字列が表示される。

このとき撮像対象情報登録部２Ｃは、音声信号処理部１４によって生成される音声データを音声判別部３７に供給することにより、音声判別部３７に所定の音声認識処理により、音声データから「たろう」という音声を表す部分を検出させる。

撮像対象情報登録部２Ｃは、検出された部分を顔名称音声としてフラッシュメモリ４に記録すると共に、当該顔名称音声にファイル名を付し、当該顔名称音声のファイル名を撮像対象データベースに登録して当該撮像対象データベースを更新する。撮像対象情報登録部２Ｃは、更新された撮像対象データベースに基づいて表示部１０に登録順位表示画面５５（図１１）を表示する。

なお撮像対象情報登録部２Ｃは、操作部５又は表示部１０を介して上述した音声入力確認画面に表示された中止を表す選択ボタンが押下されたことを認識した場合、顔名称音声の登録を中止し、音声の登録が終了したときと同様に撮像対象データベースに基づいて表示部１０に登録順位表示画面５５（図１１）を表示する。

このとき撮像対象情報登録部２Ｃは、ユーザに操作部５を介して新たに選択登録順位を選択させ、当該新たな選択登録順位に対応する「登録顔名称」「登録顔画像データ」「顔名称音声」を引き続き登録させ得るようになされている。

なお図１４に示す登録順位表示画面５８では、第１〜第３登録優先順位に対して、顔名称テキストＮＭ（「こうじ」、「たろう」及び「まま」）に対応する登録顔名称、登録画像データ及び顔名称音声がそれぞれ登録されている場合について示している。

そして撮像対象情報登録部２Ｃは、登録順位表示画面５８が表示部１０に表示された状態において、ユーザの操作部５を介した操作入力により、撮像対象情報の登録を終了する旨の要求がなされると、撮像対象情報登録処理を終了し、記録準備処理を再開するようになされている。

（２−３−２）ユーザの順位音声の登録
またこの顔名称表示モードにおいてカムコーダ１は、上述した登録顔画像データとして登録されていない顔領域を検出顔領域として検出した場合には、順位表示モードと同様に順位を表示する。この顔名称表示モードにおいてカムコーダ１は、ユーザ（撮像者）の順位を表す順位音声を予め登録しておき、所定の音声識別処理によって入力された音声が当該ユーザの音声と合致するか否かを判別するようになされている。次に、かかるユーザの順位音声の登録について説明する。

カムコーダ１の制御部２（図１）は、ユーザによる操作部５又は表示部１０を介した操作入力により、順位音声を登録する旨の要求がなされると、順位音声登録処理を開始する。

フラッシュメモリ４は、ユーザによって入力される音声に基づく音声データのファイル名と、順位とが対応付けられて登録される順位音声ベースを有している。

具体的に撮像対象情報登録部２Ｃは、フラッシュメモリ４から順位音声ベースを読み出すと、当該順位音声ベースに基づいて順位音声登録画像データを生成し、表示部１０に供給する。

この結果表示部１０には、図１５（Ａ）に示すように、順位音声登録画像データに基づく順位音声登録画面６０が表示される。順位音声登録画面６０では、「“いちばん”といってください」という、ユーザに対して音声の入力を要求する文字列を有する音声入力要求メッセージＥＴが表示されていると共に、順位を数字で表す順位数字を表示する順位数字表示欄ＥＮと、順位音声の登録有無を表す順位音声登録有無表示欄ＥＶとが表示されている。なお図１５（Ａ）では、順位音声ベースにいずれの情報も登録されていない場合を示している。

このとき撮像対象情報登録部２Ｃは、音声信号処理部１４によって生成される音声データを音声判別部３７に供給する。撮像対象情報登録部２Ｃは、所定の音声認識処理により、音声判別部３７に音声データから「イチバン」という音声を表す部分を検出させる。

撮像対象情報登録部２Ｃは、検出された部分を順位音声としてフラッシュメモリ４に記録すると共に、当該順位音声にファイル名を付し、当該順位音声のファイル名を順位音声ベースに登録する。

撮像対象情報登録部２Ｃは、図１５（Ｂ）に示すように、順位数字「１」に対応する順位音声登録有無表示欄ＥＶに「登録済み」と表示すると共に、「“にばん”といってください」という音声入力要求メッセージＥＴを表示することにより、次の順位数字についてユーザに音声の入力を順次要求する。

そして撮像対象情報登録部２Ｃは、ユーザによって例えば「１」〜「１０」までの順位数字を表す順位音声が入力されると、順位音声登録処理を終了する。

（２−３−３）顔名称表示モードにおけるフォーカス対象決定処理
カムコーダ１の制御部２（図１）は、記録準備処理中において、ユーザによる操作部５を介した操作入力により顔名称表示モードを選択する旨の要求がなされると、顔名称表示モードに移行し、フォーカス対象決定処理を開始する。

（２−３−３−１）登録顔画像データの検出
顔名称表示モードにおいてカムコーダの制御部２は、順位モードのときと同様に顔検出ブロック２０（図１）によって顔領域検出処理を実行し検出顔領域を検出すると、登録顔画像データ判別ブロック３０によって顔領域検出処理で検出した検出顔領域の中で、登録顔画像データとして登録されているものが存在するか否かについて判別する。

具体的に制御部２は、検出顔領域が検出された検出画像データを制御部２内のＲＡＭから読み出し、これを登録顔判別ブロック３０の画像サイズ変換部３２（図１６）に供給する。

顔検出ブロック３０では、制御部２から供給される各種制御信号などに基づいてコントローラ３１が画像サイズ変換部３２、画像メモリ３３、相関判別部３４及び登録顔データ記憶部３５を制御することにより、検出画像データから登録顔画像データを検出する。

すなわち制御部２内のＲＡＭからコントローラ３１を介して検出画像データ及び調整倍率情報が供給されると、画像サイズ変換部３２は、当該調整倍率情報に従って、サイズ変換検出画像データを生成し、検出顔領域の画像サイズを登録顔画像データの画像サイズに合わせる。

画像メモリ３３は、コントローラ３１から供給されるメモリアドレスに従ってサイズ変換検出画像データを一時記憶すると共に、当該コントローラ２１から供給されるタイミング信号及びメモリアドレスに従って当該サイズ変換検出画像データを読み出し、相関判別部３４に送出する。

また制御部２は、フラッシュメモリ４から登録顔画像データを読み出し、登録顔データ記憶部３５に供給する。

相関判別部２４は、登録顔データ記憶部３５に対して登録顔画像データを取得する旨の取得コマンドを送出する。登録顔データ記憶部３５は、取得要求された登録顔画像データを相関判別部２４に送出する。

そして相関判別部２４は、登録顔データ記憶部３５から登録顔画像データを順次取得すると共に、各登録顔画像データをロール方向における正及び負の方向（ＸＺ平面上で時計回り及び反時計回り）に例えば１°刻みの回転角度で±９０°まで回転させ、画像メモリ３３から取得したサイズ変換検出画像データと比較する。

相関判別部３４は、相関値が所定の登録閾値以上となるサイズ変換検出画像データが存在した場合には、サイズ変換検出画像データが表す検出顔領域と登録顔画像データとが合致したと判別し、合致判別結果を合致したと判別された登録顔画像データ（以下、これを合致登録顔画像データと呼ぶ）のファイル名と共に制御部２に送出する。

制御部２は、相関判別部２４から供給された合致登録顔画像データと当該合致登録顔画像データと合致した検出顔領域（以下、これを合致判別検出顔領域と呼ぶ）とを対応付けてフラッシュメモリ４に記憶する。

これに対してサイズ変換検出画像データを回転させて比較したにも拘らず、相関値が所定の登録閾値以上となる登録顔画像データが存在しない場合には、相関判別部３４は、当該サイズ変換検出画像データに合致する登録顔画像データが存在しないと判別し、画像メモリ３３から次のサイズ変換検出画像データを取得して各登録顔画像データとの比較を継続する。

そしてコントローラ３１は、全てのサイズ変換検出画像データと登録顔画像データとの比較を終了すると、登録顔画像データ検出処理を終了し、その旨を表す通知信号を制御部２に通知する。

（２−３−３−２）テキスト情報の表示及び音声の入力
顔名称表示モードにおいて、カムコーダ１の制御部２は、検出顔領域と合致すると判別された合致登録顔画像データに対応付けられた登録顔名称を顔名称テキストＮＭとして表示することにより、ユーザに登録顔名称を音声入力させ、当該登録顔名称に対応する検出顔領域をフォーカス対象に決定する。またこの顔名称表示モードでは、所定の音声識別処理により、音声入力された登録顔名称を表す音声が合致登録顔画像データに対応付けられたユーザの顔名称音声と合致する場合のみ当該登録顔名称に基づいてフォーカス対象を決定するようになされている。

すなわち制御部２は、登録顔判別ブロック３０のコントローラ３１から処理終了を表す通知信号が供給されると、フォーカス対象決定部２Ｂによって顔領域検出処理で検出された検出顔領域の全てが登録顔画像データであるか否かについて判別する。

フォーカス対象決定部２Ｂは、全ての検出顔領域が登録顔画像データであると判別した場合、撮像対象データベースから合致登録顔画像データに対応する登録顔名称を読み出すと共に、登録優先順位ＲＮに従って各検出顔領域を順位付けし、第１順位の検出顔領域を選択顔領域の第１候補に選定する。

これによりフォーカス対象決定部２Ｂは、ユーザが主に撮像したいと意図する機会が多く、撮像対象としての重要性が高いと判別したため、高い登録優先順位ＲＮに登録されている合致登録顔画像データに対応する合致判別検出顔領域を最高順位に順位付することができる。

フォーカス対象決定部２Ｂは、合致判別検出顔領域の顔領域面積Ｐ１及び倍率情報に基づいて、当該合致判別検出顔領域よりも一回り大きくなるように枠画像データを生成すると共に、読み出された登録顔名称に基づいて名称画像データを生成する。さらにフォーカス対象決定部２Ｂは、図示しないＲＯＭから選択要求画像データを読出し、当該枠画像データ、名称画像データ及び選択要求画像データを映像データに重畳して表示部１０に供給する。

この結果図１７に示すように、表示部１０には、名前枠表示画面６５が表示される。この名前枠表示画面６５では、順位枠表示画面５０と同様に枠画像データに基づいて、各検出顔画像ＤＦの周囲を囲むほぼ正方形でなる枠画像ＦＲ（ＦＲａ〜ＦＲｃ）が表示されると共に、名称画像データに基づいて顔名称テキストＮＭが表示されている。また順位枠表示画面５０と同様に、第１順位である枠画像ＦＲｂが他の枠画像ＦＲａ及びＦＲｃよりも太く、かつ異なる色で表示され、選択顔領域の選択を要求する選択要求メッセージＣＴが表示されている。

これによりフォーカス対象決定部２Ｂは、登録顔画像データの名称など、当該登録顔画像データに関連する顔関連情報である登録顔名称を顔名称テキストＮＭとして検出顔画像ＤＦに対応付けて表示するため、各検出顔領域に無機的な数字を付加する場合と比較して、ユーザに対して機械的な印象を与えないようになされている。

フォーカス対象決定部２Ｂは、所定の選択時間（例えば５秒間）に渡って音声信号処理部１４（図１）によって生成される音声データを音声判別部３７に供給する。またフォーカス対象決定部２Ｂは、フラッシュメモリ４から顔名称音声を読み出して音声判別部３７に供給する。

音声判別部３７は、所定の音声識別処理により音声信号処理部１４から入力される音声データから顔名称音声と合致する部分を検出する。ここで音声判別部３７は、入力された音声データの一部が顔名称音声と合致したと判別すると、合致判別結果及び合致した顔名称音声のファイル名をフォーカス対象決定部２Ｂに送出する。

フォーカス対象決定部２Ｂは、撮像対象データベースを読み出して顔名称音声が表す登録顔名称を特定し、当該登録顔名称に対応する検出顔領域をフォーカス対象に決定し、順位表示モードのときと同様にフォーカス対象についての枠画像ＦＲを「青色」の「太枠」で表示する。例えば図１８では、ユーザによって「たろう」と音声入力された場合の例を示している。

また音声判別部３７は、入力された音声データがいずれの顔名称音声とも合致しなかった場合、音声が入力されなかった旨を表す無入力信号をフォーカス対象決定部２Ｂに送出する。

フォーカス対象決定部２Ｂは、無入力信号が供給されると、第１順位である「こうじ」の検出顔領域をそのままフォーカス対象に決定すると、制御部２内のＲＯＭから決定画像データを読み出し、枠画像ＦＲ及び順位テキストＯＰを変更しないまま映像データに重畳することにより、「こうじをフォーカスします。」という文字列を有するフォーカス対象決定画面（図示せず）を表示部１０に表示させるようになされている。

このときフォーカス対象決定部２Ｂは、ユーザによって設定された登録顔名称を顔名称テキストＮＭとして表示し、これをユーザに音声入力させる。すなわち表示される顔名称テキストＮＭを予めユーザが知っているため、フォーカス対象決定部２Ｂは、例えば近接する検出顔画像ＤＦに対応付けられた顔名称テキストＮＭを読み上げさせることなく、ユーザが誤って音声入力してしまうことを防止でき、ユーザに登録顔名称を簡易に音声入力させ得るようになされている。

またフォーカス対象決定部２Ｂは、登録顔画像データと合致しない検出顔領域（以下、これを非合致判別検出顔領域と呼ぶ）が存在すると判別した場合、順位表示モードと同様にして顔領域重要度を算出し、当該顔領域重要度に基づいて当該非合致判別検出顔領域を順位付し、付された順位を当該非合致判別検出顔領域に対応する検出顔画像ＤＦに対応付け、順位テキストＯＰとして表示するようになされている。

この場合フォーカス対象決定部２Ｂは、上述した重要度算出処理によって各検出顔領域に対する顔領域重要度を算出する。そしてフォーカス対象決定部２Ｂは、合致判別検出顔領域を非合致判別検出顔領域よりも優先して各検出顔領域の順位付けを実行する。

すなわちフォーカス対象決定部２Ｂは、合致判別検出顔領域を撮像対象データベースに登録された登録優先順位ＲＮに従って並べ替え、非合致判別検出顔領域を顔領域重要度に従って並べ替える。

フォーカス対象決定部２Ｂは、非合致判別検出顔領域が合致判別検出顔領域の後になるように順位付けし、第１順位の検出顔領域を選択顔領域の第１候補として選定する。例えば合致判別検出顔領域が１つ、非合致判別検出顔領域が９つ存在する場合、フォーカス対象決定部２Ｂは、合致判別検出顔領域を第１順位とし、非合致判別検出顔領域を第２位〜第１０位に順位付けする。

これによりフォーカス対象決定部２Ｂは、複数の検出顔領域のうち、ユーザ（撮像者）にとって撮像対象としての重要性が高いため、わざわざ登録顔画像データとして登録されており、ユーザによって選択顔領域として選定される可能性の高い検出顔領域の順位を高くすることができる。

さらにフォーカス対象決定部２Ｂは、撮像対象データベースから合致判別検出顔領域に対応する登録顔名称を読み出すと、検出顔領域の顔領域面積Ｐ１、座標情報、読み出された登録顔名称及び順位に応じ、各検出顔領域に対して枠画像データ及び順位画像データを生成すると共に、制御部２内のＲＯＭから選択要求画像データを読出し、当該枠画像データ、名称画像データ、順位画像データ及び選択要求画像データを映像データに重畳して表示部１０に供給する。

この結果図１９に示すように、表示部１０に図６に対応する混合枠画面６７が表示される。この混合枠画面６７では、名前枠表示画面６５と同様に、合致判別検出顔領域に対しては名称画像データに基づく顔名称テキストＮＭが表示される一方、非合致判別検出顔領域に対しては順位画像データに基づく順位テキストＯＰが表示される。

フォーカス対象決定部２Ｂは、所定の選択時間（例えば５秒間）に渡って音声信号処理部１４（図１）によって生成される音声データを音声判別部３７に供給する。またフォーカス対象決定部２Ｂは、フラッシュメモリ４から顔名称音声を読み出して音声判別部３７に供給し、入力された音声データが撮像対象データベースに登録されている顔名称音声と合致するか、若しくは入力された音声データが順位音声データベースに登録されている順位音声と合致するか否かについて判別させる。

フォーカス対象決定部２Ｂは、ユーザによって顔名称テキストＮＭを表す音声が入力されたことにより、音声判別部３７から入力される音声データが顔名称音声と合致したことを表す合致判別結果及び顔名称音声のファイル名が供給された場合、合致した顔名称音声に対応する登録画像データに合致した合致判別検出顔領域をフォーカス対象に決定する。

一方フォーカス対象決定部２Ｂは、ユーザによって順位テキストＯＰを表す音声が入力されたことにより、音声判別部３７から入力される音声データが順位音声と合致したことを表す合致判別結果及び順位音声のファイル名が供給された場合、合致した順位音声に対応する登録画像データを特定し、当該登録画像データに対応する合致判別検出顔領域をフォーカス対象に決定する。

またフォーカス対象決定部２Ｂは、ユーザによる音声入力がなされなかったことにより、音声判別部３７から音声入力がなかった旨の無入力判別結果が供給された場合、最高順位の検出顔領域（図では「たろう」）をフォーカス対象に決定する。

これによりフォーカス対象決定部２Ｂは、ユーザによって予め設定された登録優先順位ＲＮに従って、ユーザが撮像する機会が多いため撮像対象としての重要性の高い人物の顔領域を選択顔領域の第１候補に選定でき、ユーザの音声入力を極力省略させることができる。

またフォーカス対象決定部２Ｂは、顔名称テキストＮＭだけでなく、非合致判別検出顔領域に対する順位テキストＯＰを表示するため、選択顔領域の選択肢を限定することなく、簡易な操作でユーザに選択顔領域を選択させることができる。

このように、カムコーダ１では、映像データから検出された検出顔領域のうち、合致判別検出顔領域に対し、撮像対象としての重要性を表す登録優先順位ＲＮに基づいて順位付けした上で、各検出顔領域に対応する検出顔画像ＤＦに対してユーザによって設定された登録顔名称に対応する顔名称テキストＮＭを付して表示すると共に、表示された顔名称テキストＮＭをユーザに音声入力させることにより、簡易な操作でユーザに選択顔領域を選択させ得るようになされている。

（３）フォーカス対象決定処理の手順
次に、フォーカス対象決定プログラムに従って実行される撮像対象情報登録処理及びフォーカス対象決定処理について、図２０、図２１、図２２及び図２３に示すフローチャートを用いて説明する。

（３−１）撮像対象情報登録処理手順
まず、顔名称表示モードに使用される撮像対象情報を撮像対象データベースに登録する撮像対象情報登録処理手順ＲＴ１（図２０）について説明する。

カムコーダ１における制御部２の撮像対象情報登録部２Ｃは、記録準備処理中において、ユーザから撮像対象情報（登録顔画像データ、登録顔名称及び顔名称音声）を登録する旨の要求がなされたことを認識すると、ステップＳＰ１へ移り、登録順位表示画面５５（図１１）を表示し、撮像対象情報を対応付ける一の登録優先順位ＲＮが選択登録順位としてユーザによって選択されると、次のステップＳＰ２へ移る。

ステップＳＰ２において、撮像対象情報登録部２Ｃは、選択登録順位に既に撮像対象情報が登録済みか否かについて判別し、否定結果が得られた場合、次のステップＳＰ４へ移る一方、肯定結果が得られた場合、ステップＳＰ３へ移って登録されている撮像対象情報を１順位ずつ繰り下げ、次のステップＳＰ４へ移る。

ステップＳＰ４において、撮像対象情報登録部２Ｃは、登録する予定の人物に対する名称をテキスト情報としてユーザに入力させると、このテキスト情報を登録顔名称として撮像対象データベースに登録し、次のステップＳＰ５へ移る。

ステップＳＰ５において、撮像対象情報登録部２Ｃは、実行及び中止を表す選択ボタンを有する撮像確認画面（図示しない）を表示することにより、ユーザに登録顔画像データの撮像を実行する意思があるか否かを判別する。

ここでユーザによって中止を表す選択ボタンが押下されると、このことはユーザに登録顔画像データの撮像を実行する意思がないことを表しており、このとき撮像対象情報登録部２Ｃは、次のステップＳＰ９へ移る。

これに対してステップＳＰ５において実行を表す選択ボタンが押下されると、このことはユーザに登録顔画像データの撮像を実行する意思があることを表しており、このとき撮像対象情報登録部２Ｃは、次のステップＳＰ６へ移る。

ステップＳＰ６において、撮像対象情報登録部２Ｃは、登録顔撮像画面５６（図１２）を表示してユーザに登録顔画像データとして登録したい顔領域を撮像させると、次のステップＳＰ７へ移る。

ステップＳＰ７において、撮像対象情報登録部２Ｃは、映像データから顔領域を切出顔領域として切り出し、この切出顔領域を了承ボタンＹＢ及び非了承ボタンＮＢを有する登録顔領域確認画面５７（図１３）に表示することにより、ユーザに当該切出顔領域を登録する意思があるか否かを判別する。

ここで否定結果が得られた場合、このことは切出顔領域を登録すべきでないことを表しており、このとき撮像対象情報登録部２Ｃは、ステップＳＰ６へ戻り、顔領域の撮像をやり直す。

これに対してステップＳＰ７において肯定結果が得られた場合、このことは切出顔領域を登録するべきであることを表しており、このとき撮像対象情報登録部２Ｃは、次のステップＳＰ８へ移る。

ステップＳＰ８において、撮像対象情報登録部２Ｃは、切出顔領域を登録顔画像データとして、撮像対象データベースにおける選択登録順位に対応付けて記録すると、次のステップＳＰ９へ移る。

ステップＳＰ９において、撮像対象情報登録部２Ｃは、顔名称音声の入力を実行する旨を表す選択ボタン及び顔名称音声の入力を中止する旨を表す選択ボタンを有する音声入力確認画面（図示せず）を表示することにより、ユーザに顔名称音声を入力する意思があるか否かについて判別する。

ここで否定結果が得られた場合、このことはユーザに音声を入力させる必要がないことを表しており、このとき撮像対象情報登録部２Ｃは、次のステップＳＰ１１へ移る。

これに対してステップＳＰ９において肯定結果が得られた場合、このことはユーザに音声を入力させる必要があることを表しており、このとき撮像対象情報登録部２Ｃは、次のステップＳＰ１０へ移る。

ステップＳＰ１０において、撮像対象情報登録部２Ｃは、ステップＳＰ４において選択登録順位に対応付けて登録した登録顔名称を顔名称テキストＮＭとして音声入力要求画面（図示しない）に表示し、ユーザに顔名称テキストＮＭを音声で入力させると、次のステップＳＰ１１へ移る。

ステップＳＰ１１において、撮像対象情報登録部２Ｃは、登録順位表示画面（図１４）を表示し、ユーザによって別の登録優先順位ＲＮが継続して選択されるか否かについて判別する。

ここで肯定結果が得られた場合、このことはユーザが撮像対象情報の登録を継続する意思を有していることを表しており、このとき撮像対象情報登録部２Ｃは、ステップＳＰ１へ戻り、処理を継続する。

これに対してステップＳＰ１１において否定結果が得られた場合、このことはユーザが撮像対象情報の登録を終了する意思を有していることを表しており、このとき撮像対象情報登録部２Ｃは、終了ステップへ移り、撮像対象情報登録処理手順ＲＴ１を終了する。

（３−２）順位音声登録処理手順
次に、顔名称表示モードに使用される順位音声を順位音声ベースに登録する順位音声登録処理手順ＲＴ２（図２１）について説明する。

カムコーダ１における制御部２の撮像対象情報登録部２Ｃは、記録準備処理中において、ユーザから順位音声を登録する旨の要求がなされたことを認識すると、ステップＳＰ１５へ移り、順位音声登録画面（図１５）を表示し、ユーザによって音声が入力されると、次のステップＳＰ１６へ移る。

ステップＳＰ１６において、撮像対象情報登録部２Ｃは、入力された音声に基づく音声データから登録対象となる順位数字を表す順位音声を検出できたか否かを判別し、否定結果が得られた場合にはステップＳＰ１５へ戻り、処理を継続する。

これに対してステップＳＰ１６において肯定結果が得られた場合、検出された順位音声をフラッシュメモリ４に記録すると共に、当該順位音声のファイル名を順位音声ベースに登録し、次のステップＳＰ１７に移る。

ステップＳＰ１７において、撮像対象情報登録部２Ｃは、１〜１０までの全ての順位数字について順位音声の登録が終了したか否かについて判別し、否定結果が得られた場合、ステップＳＰ１５に戻って処理を継続する一方、肯定結果が得られた場合には、終了ステップへ移り、順位音声登録処理手順ＲＴ２を終了する。

（３−３）順位表示モードにおけるフォーカス対象決定処理手順
次に、顔領域重要度に基づく順位を表示する順位表示モードにおけるフォーカス対象決定処理手順ＲＴ３（図２２）について説明する。

カムコーダ１の制御部２は、記録準備処理中において撮像対象モードが人物撮像対象モードに設定されると、順位表示モード又は顔名称表示モードのいずれかを選択するようにユーザに対して要求し、ステップＳＰ２１へ移り、順位表示モードが選択されたか否かについて判別し、否定結果が得られた場合、終了ステップへ移る。

ここで肯定結果が得られた場合、制御部２は、ステップＳＰ２２へ移り、顔領域検出ブロック２０によって映像データから人物の顔領域を検出顔領域として検出すると、次のステップＳＰ２３へ移る。

ステップＳＰ２３において、制御部２は、映像データから人物の顔領域として検出された検出顔領域が存在するか否かについて判別し、否定結果が得られた場合には終了ステップへ移る一方、肯定結果が得られた場合には、次のステップＳＰ２４へ移る。

ステップＳＰ２４において、制御部２は、顔領域重要度算出部２Ａによって各検出顔領域の面積（すなわち検出顔領域の大きさ）を表す顔領域面積Ｐ１、撮像画像の中心から各検出顔領域までの距離（すなわち映像データにおける検出顔領域の位置）を表す顔領域中心距離Ｐ２、各検出顔領域の顔上下軸ＦＰを軸とした回転（すなわち検出顔領域の正面度）を表すヨー顔角度（基準顔角度情報Ｐ３）、各検出顔領域の基準顔データに対する一致率（すなわち人物の顔らしさ）を表す相関値Ｐ４に基づいて、各評価値（面積評価値、中心評価値、正面評価値及び相関評価値）の値を算出すると、次のステップＳＰ２５へ移る。

ステップＳＰ２５において、制御部２は、顔領域重要度算出部２Ａによって各評価値を加算することにより、検出顔領域ごとに当該検出顔領域の撮像対象としての総合的な重要性を各検出顔領域間の相対値として表す顔領域重要度を算出すると、次のステップＳＰ２６へ移る。

ステップＳＰ２６において、制御部２は、フォーカス対象決定部２Ｂによって顔領域重要度に従って各検出顔領域を順位付けし、次のステップＳＰ２７へ移る。

ステップＳＰ２７において、制御部２は、フォーカス対象決定部２Ｂによって撮像画像における各検出顔領域である検出顔画像ＤＦに対して、順位を表す順位テキストＯＰを対応付けた順位枠表示画面５０（図９）を表示部１０に表示すると、次のステップＳＰ２８へ移る。

ステップＳＰ２８において、フォーカス対象決定部２Ｂは、所定の選択時間に渡って待ち受けた結果、表示された順位テキストＯＰを表す音声が入力されたか否かについて判別する。

ここで肯定結果が得られた場合、このことは入力された音声が表す順位に対応する検出顔領域をユーザが選択顔領域として選択したことを表しており、このとき制御部２は、次のステップＳＰ２９へ移り、音声に応じた検出顔領域をフォーカス対象に決定し、終了ステップに移る。

これに対してステップＳＰ２８において否定結果が得られた場合、このことはステップＳＰ２６において最高順位に順位付けた検出顔領域をユーザが選択顔領域として選択している可能性が高いことを表しており、このとき制御部２は、次のステップＳＰ３０へ移り、最高順位でなる検出顔領域をフォーカス対象に決定し、終了ステップに移る。

そして終了ステップにおいて、制御部２は、順位表示モードにおけるフォーカス対象決定処理手順ＲＴ３を終了する。

（３−４）顔名称表示モードにおけるフォーカス対象決定処理手順
次に、ユーザによって予め登録された顔名称テキストＮＭを表示する顔名称表示モードにおけるフォーカス対象決定処理手順ＲＴ４（図２１）について説明する。

カムコーダ１の制御部２（図１）は、記録準備処理中において撮像対象モードが人物撮像対象モードに設定されると、順位表示モード又は顔名称表示モードのいずれかを選択するようにユーザに対して要求し、ステップＳＰ４１へ移り、顔名称表示モードが選択されたか否かについて判別し、否定結果が得られた場合には、終了ステップへ移る。

ここで肯定結果が得られた場合、制御部２は、次のステップＳＰ４２へ移り、顔領域検出ブロック２０によって映像データから人物の顔領域を検出顔領域として検出すると、次のステップＳＰ４３へ移る。

ステップＳＰ４３において、制御部２は、映像データから人物の顔領域として検出された検出顔領域が存在するか否かについて判別し、否定結果が得られた場合には終了ステップへ移る一方、肯定結果が得られた場合には、次のステップＳＰ４４へ移る。

ステップＳＰ４４において、制御部２は、登録顔判別ブロック３０（図１６）によって登録顔画像データと合致する検出顔領域を検出する。さらに制御部２は、全ての検出顔領域が登録顔画像データと合致した合致判別検出顔領域であるか否かについて判別する。

ここで肯定結果が得られた場合、このことは全ての検出顔領域が登録優先順位ＲＮを用いて順位付け可能であるため、顔領域重要度を算出する必要がないことを表しており、このとき制御部２は、次のステップＳＰ４７へ移る。

これに対してステップＳＰ４４において否定結果が得られた場合、このことは登録顔画像データと合致しない非合致判別検出顔領域に対して顔領域重要度による順位付けを要することを表しており、このとき制御部２は、次のステップＳＰ４５へ移る。

ステップＳＰ４５において、制御部２は、顔領域重要度算出部２Ａによって顔領域面積Ｐ１、顔領域中心距離Ｐ２、ヨー顔角度（基準顔角度情報Ｐ３）、相関値Ｐ４に基づいて、各評価値（面積評価値、中心評価値、正面評価値及び相関評価値）の値を算出すると、次のステップＳＰ４６へ移る。

ステップＳＰ４６において、制御部２は、顔領域重要度算出部２Ａによって各評価値を加算することにより、検出顔領域ごとに顔領域重要度を算出すると、次のステップＳＰ４７へ移る。

ステップＳＰ４７において、制御部２は、フォーカス対象決定部２Ｂによって非合致判別検出顔領域よりも合致判別検出顔領域の順位が高くなるように、登録優先順位ＲＮを顔領域重要度よりも優先させて順位付けすると、次のステップＳＰ４８へ移る。

ステップＳＰ４８において、制御部２は、フォーカス対象決定部２Ｂによって撮像画像における各検出顔領域である検出顔画像ＤＦに順位を表す順位テキストＯＰ又は登録顔名称を表す顔名称テキストＮＭを対応付けて表示すると、次のステップＳＰ４９へ移る。

ステップＳＰ４９において、制御部２は、フォーカス対象決定部２Ｂによって所定の選択時間の間に音声入力がなされた否かを判別し、否定結果が得られた場合には、ステップＳＰ５４へ移る一方、肯定結果が得られた場合には、ステップＳＰ５０へ移る。

ステップＳＰ５０において、制御部２は、フォーカス対象決定部２Ｂによって音声判別部３７によって音声識別処理を実行し、次のステップＳＰ５１へ移る。

ステップＳＰ５１において、制御部２は、フォーカス対象決定部２ＢによってステップＳＰ４９において入力された音声に基づく音声データが顔名称テキストＮＭを表す顔名称音声と合致するか否かについて判別し、否定結果が得られた場合、次のステップＳＰ５２へ移る。

ステップＳＰ５２において、制御部２は、フォーカス対象決定部２Ｂによって入力された音声が検出顔画像ＤＦに対して表示した順位テキストＯＰを表すユーザの顔名称音声と合致するか否かについて判別する。

これに対してステップＳＰ５２において肯定結果が得られた場合、このことは入力された音声が表す順位に対応する検出顔領域をユーザが選択顔領域として選択したことを表しており、このとき制御部２は、次のステップＳＰ５３へ移る。

またステップＳＰ５１において肯定結果が得られた場合、このことは入力された音声が表す登録顔名称に対応する登録画像データと合致した合致判別検出顔領域を、ユーザが選択顔領域として選択したことを表しており、このとき制御部２は、次のステップＳＰ５３へ移る。

ステップＳＰ５３において、制御部２は、フォーカス対象決定部２Ｂによって音声に応じた検出顔領域をフォーカス対象に決定し、終了ステップに移る。

これに対してステップＳＰ５２において否定結果が得られた場合、このことは入力された音声が登録されたユーザの音声でないことを表しており、このとき制御部２は次のステップＳＰ５４へ移る。

ステップＳＰ５４において、制御部２は、フォーカス対象決定部２Ｂによってユーザが選択顔領域として選択している可能性が高い最高順位に順位付けた検出顔領域をフォーカス対象に決定すると、終了ステップへ移る。

そして終了ステップにおいて、制御部２は、顔名称表示モードにおけるフォーカス対象決定処理手順ＲＴ４を終了する。

（４）動作及び効果
以上の構成において、カムコーダ１は、撮像対象の中から選定されたフォーカス対象に対して自動的にレンズの焦点を合わせるオートフォーカス機能を有し、レンズ群７を介して取得した撮像光に基づいて生成された映像データから人物の顔領域ＦＡを検出顔領域として検出し、検出顔領域に対応するテキスト情報を映像データに重畳することにより、当該映像データに基づく撮像画像における検出顔領域にテキスト情報を対応付けた状態で撮像画像を表示させ、検出顔領域のうち、ユーザ所望の一の検出顔領域である選択顔領域に対応するテキスト情報を表す音声が入力された場合、当該テキスト情報に対応する検出顔領域をフォーカス対象に決定するようにした。

これによりカムコーダ１は、従来のカムコーダ１を保持して撮像対象を撮像しているユーザに対して撮像画像が表示された表示部１０を触れさせたり、操作部５を操作させる方法と比較して、手を用いた操作入力を必要としないため、選択顔領域に対応するテキスト情報をユーザに音声入力させるだけの簡易な操作で選択顔領域をフォーカス対象に決定することができるため、選択顔領域を入力する際のユーザの誤操作を防止することができる。

またカムコーダ１は、検出顔領域を撮像対象としての重要性に基づいて順位付けし、テキスト情報を表す音声が入力されなかった場合に、最高順位に順位付した検出顔領域をフォーカス対象に決定するようにしたことにより、ユーザが主に撮像したいと考える撮像対象としての重要性が高く、選択顔領域としてユーザに選択される可能性の高い検出顔領域を最高順位に順位付けすることができ、ユーザに音声を入力させる操作を極力省略させることができる。

さらにカムコーダ１は、各検出顔領域間における撮像対象としての重要性の相対的な値である顔領域重要度に基づいて検出顔領域を順位付けし、当該検出顔領域に付された順位をテキスト情報である順位テキストＯＰとして対応付けて表示することにより、検出顔領域の中でユーザが主に撮像したかった可能性の高い検出顔領域を最高順位に順位付することができ、ユーザによって音声入力されない場合であっても、ユーザの意思に合う可能性の高い撮像対象をフォーカス対象に決定することができる。

またカムコーダ１は、撮像対象として予め登録された登録顔画像データと当該顔画像データに関する文字情報としての顔関連情報である登録顔名称とを対応付けて記録しておき、検出顔領域が登録顔画像データと合致するか否かを判別し、登録顔画像データと合致すると判別された合致判別検出顔領域に対応する登録顔名称をテキスト情報である顔名称テキストＮＭとして表示するようにした。

これによりカムコーダ１は、ユーザ自身によって設定された登録顔名称をユーザに音声入力させれば良いため、ユーザが画面に表示された文字（顔名称テキストＮＭ）を正確に読んでいなくても人物の名前を呼ぶだけでフォーカス対象を決定することができるため、ユーザにわざわざ表示部１０を注視させて選択顔領域に付されたテキスト情報を読み上げさせる必要がなく、例えば老眼で細かい文字を認識しづらいユーザに対してテキスト情報を認識させる負荷を軽減することができる。

またカムコーダ１は、登録顔名称として任意の名称をユーザに登録させることができるため、例えば「まま」のように、登録顔名称としてユーザが人物に対して日常使用している呼称や愛称を登録させることができる。これによりカムコーダ１は、ユーザに登録顔名称を表す顔名称テキストＮＭを違和感なく音声入力させることができる。

さらにカムコーダ１は、ユーザによって設定された登録顔画像データの優先順位を表す登録優先順位ＲＮを登録顔画像データと対応付けて記録し、合致判別検出顔領域に対応する登録優先順位ＲＮに従って検出顔領域を順位付することにより、ユーザ所望の選択顔領域を最高順位に順位付することができる。

またカムコーダ１は、合致判別検出顔領域に対しては当該合致判別検出顔領域に対応する登録優先順位ＲＮに基づいて顔名称テキストＮＭを表示し、登録顔画像データと合致しないと判別された非合致判別検出顔領域に対しては、顔領域重要度に基づいて順位テキストＯＰを表示することにより、合致判別検出顔領域に対応する顔名称テキストＮＭのみを表示する場合と比較して、選択顔領域として選択可能な検出顔領域を制限しないでユーザ自身によって設定された顔名称テキストＮＭをユーザに音声入力させることができる。

さらにカムコーダ１は、非合致判別検出顔領域よりも合致判別検出顔領域を優先して順位付することにより、合致判別検出顔領域の撮像対象としての重要性を非合致判別検出顔領域よりも高く設定したため、例えば運動会や合唱発表会のように多数の人物を撮像するような場合であっても、予め登録された撮像機会の多い合致判別検出顔領域を最高順位にすることができ、ユーザが音声を入力する操作を極力省略させることができる。

以上の構成によれば、カムコーダ１は、検出顔領域に対してテキスト情報を対応付けて表示し、ユーザ所望の選択顔領域に対応する当該テキスト情報をユーザに読み上げさせることにより音声が入力されると、当該音声が表すテキスト情報に対応する検出顔領域をフォーカス対象に決定することにより、撮像中のユーザに手を使用させることなく選択顔領域を入力させることができるため、簡易な操作でユーザ所望の選択顔領域をフォーカス対象に決定することができる撮像装置及びフォーカス対象決定方法を実現することができる。

（５）他の実施の形態
なお上述の実施の形態においては、撮像対象の重要性である顔領域重要度又は登録優先順位ＲＮに基づいて検出顔領域を順位付けするようにした場合について述べたが、本発明はこれに限らず、必ずしも検出顔領域を順位付ける必要はなく、例えば検出顔領域の右端から順に番号を振るようにしても良い。

また上述の実施の形態においては、順位表示モードにおいて、音声認識処理によって入力された音声データから順位を表す音声データを検出するようにした場合について述べたが、本発明はこれに限らず、順位音声登録処理によって入力された音声がフラッシュメモリ４に記録された順位音声と合致するか否かを判別し、合致した場合にのみ当該音声が表す順位をフォーカス対象とするようにしても良い。

さらに上述の実施の形態においては、顔名称表示モードにおいて、入力された音声が予め登録された順位音声と合致するか否かを判別するようにした場合について述べたが、本発明はこれに限らず、例えば音声認識処理により、入力された音声から登録された登録顔名称を表す音声が入力されたか否かを判別し、入力されたと判別した場合にのみ当該音声が表す順位をフォーカス対象とするようにしても良い。

さらに上述の実施の形態においては、顔名称表示モードにおいて、登録優先順位ＲＮに従って合致判別検出顔領域を順位付けするようにした場合について述べたが、本発明はこれに限らず、顔領域重要度に基づいて順位付けしても良い。

さらに上述の実施の形態においては、顔名称表示モードにおいて、合致判別検出顔領域を非合致判別検出顔領域よりも優先して順位付けするようにした場合について述べたが、本発明はこれに限らず、例えば登録優先順位ＲＮの逆数に対して所定の重み付け係数Ｋを乗算し、当該乗算値と顔領域重要度とに従って順位付するようにしても良く、このとき重み付け係数Ｋの設定によって、合致判別検出顔領域の重要性を非合致判別検出顔領域よりも高く設定することができる。

さらに上述の実施の形態においては、決定したフォーカス対象に対して自動的に焦点、露出条件及び画像調整処理を合わせるようにした場合について述べたが、本発明はこれに限らず、例えば図２４に示すように、レンズ群７を制御することにより、フォーカス対象を自動的にズームアップするようにしても良い。また、例えばフォーカス対象に焦点のみを合わせるようにすることもできる。

さらに上述の実施の形態においては、順位枠表示画面５０に枠画像ＦＲを表示し、当該枠画像ＦＲの上に順位テキストＯＰを表示するようにした場合について述べたが、本発明はこれに限らず、必ずしも枠画像ＦＲを表示する必要はなく、検出顔領域の近傍に順位テキストＯＰのみを表示するようにしても良い。

またカムコーダ１は、例えば図２５に示す順位枠表示画面７０のように、枠画像ＦＲｚの端、右上部分に順位テキストＯＰを表示しても良い。これにより、順位テキストＯＰと検出顔領域とを同じ枠画像ＦＲｚの内部に表示することができるため、図１９のように多数の検出顔領域が存在する場合であっても、ユーザが順位を誤認識することを確実に防止することができる。

さらにカムコーダ１は、例えば図２６に示す順位枠表示画面７１のように、真円又は楕円でなる枠画像ＦＲｙを表示しても良い。このときカムコーダ１のフォーカス対象決定部２Ｂは、枠画像ＦＲｙの外側部分にフェーズ処理を施した映像データに対して枠画像データ、順位テキストデータ及び選択要求画像データを重畳しても良い。これによりカムコーダ１は、検出顔領域、順位テキストＯＰ及び選択要求画像ＣＴを明確に、他の部分を曇らせて表示することができるため、検出顔領域、順位テキストＯＰ及び選択要求画像ＣＴを順位枠表示画面７１から浮き立たせ、ユーザに視認させやすくできる。また順位テキストＯＰとして、ユーザに音声入力させる「イチバン」「ニバン」と同じ音声を表す「１番」「２番」を表示しても良い。

さらに上述の実施の形態においては、順位を表す「イチ、ニ、サン」に対して「バン」を付加した音声をユーザに入力させるようにした場合について述べたが、本発明はこれに限らず、順位を表す「イチ、ニ、サン」をそのままユーザに音声入力させるようにしても良い。

さらに上述の実施の形態においては、ユーザ（撮像者）ごとに撮像対象情報データベース及び順位音声ベースを有するようにした場合について述べたが、本発明はこれに限らず、各一つの撮像対象情報データベース及び順位音声ベース内に音声を入力するユーザを対応付けるようにしても良い。

さらに上述の実施の形態においては、顔関連情報として、登録顔画像データの名称である登録顔名称をユーザに登録させるようにした場合について述べたが、本発明はこれに限らず、例えば登録顔画像データを連想させる言葉や、当該登録顔画像データの略称など、登録顔画像データに関連するようなテキスト情報をユーザに登録させるようにしても良い。

さらに上述の実施の形態においては、順位音声登録処理において、１番〜１０番までの順位音声を登録するようにした場合について述べたが、本発明はこれに限らず、例えば「“バン”と言ってください。」と表示された図示しない音声登録画面を表示部１０に表示することにより、ユーザに「バン」と発音させ、これをフラッシュメモリ４に登録するようにしても良い。このときカムコーダ１は、順位数字部分（イチ、ニ・・・）を音声認識処理によって検出すると共に、「バン」部分が登録されているユーザの音声データと合致するか否かを判別することができる。これによりカムコーダ１は、ユーザの音声入力の回数を低減させることができる。

さらに上述の実施の形態においては、１０以上の検出顔領域が存在する映像データについては、１０までの検出顔領域を検出するようにした場合について述べたが、本発明はこれに限らず、例えば５までの検出顔領域を検出したり、全ての検出顔領域を検出するようにしても良い。

さらに上述の実施の形態においては、基準顔データに予め付加された円又は楕円状でなる顔領域ＦＡを検出するようにした場合について述べたが、本発明はこれに限らず、例えば顔の一部分でなる顔領域ＦＡを四角形状に検出したり、顔よりも大きい顔領域ＦＡを顔領域ＦＡとして検出するようにしても良い。

さらに上述の実施の形態においては、検出顔領域の大きさと、映像データにおける検出顔領域の位置と、検出顔領域の正面度（ヨー顔角度）と、人物の顔らしさとに基づいて、検出顔領域の重要度を総合的に表す顔領域重要度を算出するようにした場合について述べたが、本発明はこれに限らず、少なくともいずれか一つに基づいて顔領域重要度を算出すれば良く、その組み合わせに制限はない。また、他の重要度の因子（例えばロール顔角度など）を用いて顔領域重要度を算出するようにしても良い。

さらに上述の実施の形態においては、検出顔領域の大きさとして、検出顔領域の面積を用いるようにした場合について述べたが、本発明はこれに限らず、例えば検出顔領域の縦又は横の最大長さなどを用いるようにしても良い。

さらに上述の実施の形態においては、映像データにおける検出顔領域の位置として撮像画像の中心から各検出顔領域までの中心距離を用いるようにした場合について述べたが、本発明はこれに限らず、例えば検出顔領域の座標などを用いるようにしても良い。

さらに上述の実施の形態においては、検出顔領域の正面度として、ヨー顔角度を用いるようにした場合について述べたが、本発明はこれに限らず、例えば検出顔領域が有する２つの目における黒目部分及び白目部分の相対的な位置関係（すなわち黒目が目全体のどの位置にあるか）とヨー顔角度から、当該検出顔領域を有する人物が実際に見ている方向を目線角度として算出し、これを検出顔領域の正面度として用いるようにしても良い。

さらに上述の実施の形態においては、人物の顔らしさとして基準顔データとの一致率を表す相関値Ｐ４を用いるようにした場合について述べたが、本発明はこれに限らず、例えば検出顔領域と人物の顔と比較的類似している犬、猫などの顔データとを比較し、これらとの一致率を相関値Ｐ４から減算するようにしても良い。

さらに上述の実施の形態においては、フォーカス対象決定プログラムをＲＯＭ又はフラッシュメモリ４に予め格納するようにした場合について述べたが、本発明はこれに限らず、メモリースティック（ソニー株式会社の登録商標）などの外部記憶媒体からフラッシュメモリ４などにインストールするようにしても良い。また、フォーカス対象決定プログラムをＵＳＢ（Universal Serial Bus）やＥｔｈｅｒｎｅｔ（登録商標）、ＩＥＥＥ（Institute of Electrical and Electronics Engineers）８０２．１１ａ／ｂ／ｇなどの無線ＬＡＮ（Local Area Network）を介して外部から取得するようにしても良い。

さらに上述の実施の形態においては、オートフォーカス部としての制御部２と、映像データ生成部としての映像データ生成部９と、表示部としての表示部１０と、顔領域検出部としての顔検出ブロック２０と、テキスト情報重畳部及びフォーカス対象決定部としてのフォーカス対象決定部２Ｂと、音声入力部としてのマイク１３とによって撮像装置としてのカムコーダ１を構成するようにした場合について述べたが、本発明はこれに限らず、その他種々の構成でなるオートフォーカス部と、映像データ生成部と、表示部と、顔領域検出部と、テキスト情報重畳部と、フォーカス対象決定部とによって本発明の撮像装置を構成するようにしても良い。

本発明は、例えばデジタルスチルカメラ及び携帯電話など撮像機能を有する種々の電子機器に利用することができる。

カムコーダの回路構成を示す略線的ブロック図である。方向の定義の説明に供する略線図である。ロール顔角度の定義の説明に供する略線図である。ヨー顔角度の定義の説明に供する略線図である。顔検出ブロックの構成を示す略線図である。多数の顔が存在する場合の説明に供する略線図である。顔領域重要度の算出の説明に供する略線図である。検出顔領域の順位付けの説明に供する略線図である。順位の表示の説明に供する略線図である。順位表示モードにおけるフォーカス対象の決定の説明に供する略線図である。登録順位の選択の説明に供する略線図である。登録する顔領域の撮像の説明に供する略線図である。登録顔画像データの登録の説明に供する略線図である。登録完了の確認の説明に供する略線図である。順位音声の登録の説明に供する略線図である。登録顔判別ブロックの説明に供する略線図である。名前枠表示画面を示す略線図である。顔名称表示モードにおけるフォーカス対象の決定の説明に供する略線図である。非合致判別検出顔領域が存在する場合の説明に供する略線図である。撮像対象情報登録処理手順の説明に供するフローチャートである。順位音声登録処理手順の説明に供するフローチャートである。順位表示モードにおけるフォーカス対象決定処理手順の説明に供するフローチャートである。顔名称表示モードにおけるフォーカス対象決定処理手順の説明に供するフローチャートである。フォーカス対象へのズームアップの説明に供する略線図である。他の実施の形態による順位枠表示画面（１）の説明に供する略線図である。他の実施の形態による順位枠表示画面（２）の説明に供する略線図である。

符号の説明

１……カムコーダ、２……制御部、２Ａ……顔領域重要度算出部、２Ｂ……フォーカス対象決定部、２Ｃ……撮像対象情報登録部、４……フラッシュメモリ、５……操作部、７……レンズ群、８……イメージセンサ、９……映像データ生成部、１０……表示部、１２……圧縮処理部、１３……マイク、１４……音声信号処理部、２０……顔検出ブロック、３０……登録顔判別ブロック、３７……音声判別部、ＮＭ……顔名称テキスト、ＦＲ……枠画像、ＯＰ……順位テキスト、ＦＰ……顔上下軸。

Claims

撮像対象の中から選定されたフォーカス対象に対して自動的にレンズの焦点を合わせるオートフォーカス部と、
上記レンズを介して取得した撮像光に基づいて映像データを生成する映像データ生成部と、
上記映像データに基づく撮像画像を表示する表示部と、
上記映像データから人物の顔領域を検出顔領域として検出する顔領域検出部と、
上記検出顔領域に対応するテキスト情報を上記映像データに重畳することにより、上記撮像画像における上記検出顔領域に対して上記テキスト情報を対応付けた状態で上記表示部に上記撮像画像を表示させるテキスト情報重畳部と、
音声を入力する音声入力部と、
上記検出顔領域のうち、ユーザ所望の一の検出顔領域に対応する上記テキスト情報を表す音声が上記音声入力部に入力された場合、当該テキスト情報に対応する上記検出顔領域を上記フォーカス対象に決定するフォーカス対象決定部と
を具えることを特徴とする撮像装置。
上記検出顔領域を上記撮像対象としての重要性に基づいて順位付けする順位付部
を具え、
上記フォーカス対象決定部は、
所定の選択時間内に上記音声入力部に上記テキスト情報を表す音声が入力されなかった場合、上記順位付けした検出顔領域のうち、最高順位に順位付けした検出顔領域を上記フォーカス対象に決定する
ことを特徴とする請求項１に記載の撮像装置。
各上記検出顔領域間における上記重要性の相対的な値である顔領域重要度を算出する算出部
を具え、
上記順位付部は、
上記顔領域重要度に基づいて上記検出顔領域を順位付けし、
上記テキスト情報重畳部は、
各上記検出顔領域に付された順位に基づいて上記テキスト情報を対応付ける
ことを特徴とする請求項２に記載の撮像装置。
上記撮像対象として予め登録された登録顔画像データと当該登録顔画像データに関する文字情報である顔関連情報とを対応付けて記憶する記憶部と、
上記検出顔領域が上記登録顔画像データと合致するか否かを判別する登録顔判別部と
を具え、
上記テキスト情報表示部は、
上記登録顔画像データと合致すると判別された上記検出顔領域に対して、上記顔関連情報に基づく上記テキスト情報を対応付ける
ことを特徴とする請求項１に記載の撮像装置。
上記撮像対象として予め登録された登録顔画像データと上記ユーザによって設定された当該登録顔画像データの優先順位を表す登録優先順位とを対応付けて記憶する記憶部と、
上記検出顔領域が上記登録顔画像データと合致するか否かを判別する登録顔判別部と
を具え、
上記順位付部は、
上記登録顔画像データに対応する上記登録優先順位に従って上記検出顔領域を順位付けする
ことを特徴とする請求項２に記載の撮像装置。
上記撮像対象として予め登録された上記テキスト情報を表す上記ユーザの音声データを記憶する記憶部と、
上記検出顔領域が上記登録顔画像データと合致するか否かを判別する登録顔判別部と、
上記音声入力部に入力された入力音声が上記ユーザの音声データと合致するか否かを判別する音声判別部と
を具え、
上記フォーカス対象決定部は、
上記入力音声が上記ユーザの音声データと合致した場合、当該音声が表す上記テキスト情報に対応する上記検出顔領域をフォーカス対象に決定する
ことを特徴とする請求項２に記載の撮像装置。
上記フォーカス対象決定部は、
所定の選択時間内に入力された上記入力音声が上記ユーザの音声データと合致しない場合、上記順位付けした顔領域のうち、最高順位に順位付けした顔領域を上記フォーカス対象に決定する
ことを特徴とする請求項６に記載の撮像装置。
撮像対象として予め登録された登録顔画像データとユーザによって設定された当該登録顔画像データの優先順位を表す登録優先順位と、当該登録顔画像データに関連する顔関連情報とを対応付けて記憶する記憶部と、
上記検出顔領域が上記登録顔画像データであるか否かを判別する登録顔判別部と
を具え、
上記テキスト情報重畳部は、
上記登録顔画像データであると判別された上記検出顔領域に対しては上記登録顔画像データに対応する顔関連情報を対応付け、上記登録顔画像データでないと判別された上記検出顔領域に対しては、各上記検出顔領域間における上記重要性の相対的な値である顔領域重要度に基づいて上記テキスト情報を対応付ける
ことを特徴とする請求項２に記載の撮像装置。
上記順位付部は、
上記登録顔画像データと合致すると判別された上記検出顔領域に対する上記重要性を上記登録顔画像データと合致しないと判別された上記検出顔領域に対する上記重要性よりも高く設定する
を具えることを特徴とする請求項８に記載の撮像装置。
上記テキスト情報重畳部は、
上記撮像画像における上記検出顔領域の周囲を囲む枠画像を付加した状態で上記表示部に上記撮像画像を表示させる
ことを特徴とする請求項１に記載の撮像装置。
上記順位付部は、
上記検出顔領域の大きさに基づいて上記顔領域重要度を算出する
を具えることを特徴とする請求項３に記載の撮像装置。
上記順位付部は、
上記映像データにおける上記検出顔領域の位置に基づいて上記顔領域重要度を算出する
ことを特徴とする請求項３に記載の撮像装置。
上記順位付部は、
上記検出顔領域の正面度に基づいて上記顔領域重要度を算出する
ことを特徴とする請求項３に記載の撮像装置。
上記順位付部は、
上記検出顔領域の顔らしさに基づいて上記顔領域重要度を算出する
ことを特徴とする請求項３に記載の撮像装置。
上記テキスト情報重畳部は、
上記撮像画像における上記検出顔領域の周囲を囲む枠画像を上記撮像画像に付加した状態で上記表示部に上記撮像画像を表示させ、上記最高順位に順位付けした上記検出顔領域についての上記枠画像として、他の検出顔領域についての上記枠画像と異なる枠画像を付加する
ことを特徴とする請求項２に記載の撮像装置。
上記フォーカス対象決定部は、
上記テキスト情報を表す音声として、上記テキスト情報に対して所定の語句が付加された文字列に応じた音声が上記音声入力部に入力された場合、当該テキスト情報に対応する上記検出顔領域を上記フォーカス対象に決定する
ことを特徴とする請求項１に記載の撮像装置。
撮像対象の中から選定されたフォーカス対象に対して自動的にレンズの焦点を合わせ、上記レンズを介して取得した撮像光に基づいて映像データを生成する映像データ生成ステップと、
上記映像データから人物の顔領域を検出顔領域として検出する顔領域検出ステップと、
上記検出顔領域に対応するテキスト情報を上記映像データに重畳することにより、上記撮像画像における上記検出顔領域に対して上記テキスト情報を対応付けた状態で上記映像データに基づく撮像画像を表示するテキスト情報重畳ステップと、
上記検出顔領域のうち、ユーザ所望の一の検出顔領域に対応する上記テキスト情報を表す音声が入力された場合、当該テキスト情報に対応する上記検出顔領域を上記フォーカス対象に決定するフォーカス対象決定ステップと
を具えることを特徴とするフォーカス対象決定方法。