JP2010192956A

JP2010192956A - 撮像装置および話し手認識方法

Info

Publication number: JP2010192956A
Application number: JP2009032303A
Authority: JP
Inventors: Eiji Yoshimatsu; 栄二吉松
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2009-02-16
Filing date: 2009-02-16
Publication date: 2010-09-02

Abstract

【課題】本発明は、動画撮影時に、話し手となる人物（被写体）の認識を高精度に行うことのできる撮像装置および話し手認識方法を提供することを目的とする。
【解決手段】本発明の撮像装置（１１〜３２）は、画像解析手段（１１）と、音声解析手段（１１）と、話し手認識手段（１１）を備え、画像解析手段は、連続的に取得される画像から人物の顔領域中の口唇領域を検出すると共に、その口唇領域のデータから口唇動作の特徴を抽出する。また、音声解析手段は、画像と同期して取得される音声データから音声の特徴を抽出する。そして、話し手認識手段は、画像解析手段により抽出された口唇動作の特徴と、音声解析手段により抽出された音声の特徴とに基づき、画像に写る複数の人物から話し手となる人物を認識する。
【選択図】図１

Description

本発明は、動画撮影が可能な撮像装置について、特に、動画撮影時に、話し手となる被写体（人物）を認識することができる撮像装置およびその話し手認識方法に関する。

複数の人物を被写体とした動画撮影では、一般に、話し手となる人物のピントや明るさが最も良好となるように撮影されることが望まれる。

そこで、動画撮影時に、話し手となる人物（被写体）を認識する従来技術の一例として、例えば、特許文献１には、撮影により取得された画像から被写体の顔の特徴量を検出し、また、取得された音声から音声の特徴量を検出する。そして、それらの特徴量を、顔と音声との対応を示す特徴量データと比較することで、話し手となる人物（被写体）を認識するという技術が開示されている。

特開２００７−２７９９０号公報

この従来技術によれば、例えば、画像から「Ａさん」と「Ｂさん」の顔の特徴量が検出され、また、音声から「Ｂさん」の音声の特徴量が検出された場合には、話し手となる人物は「Ｂさん」であると認識される。

ところで、動画撮影時の画像から人物の口唇の動き具合などを特徴量として検出して、その口唇動作の特徴量と、音声から検出した音声の特徴量とを比較すれば、話し手となる人物の認識の精度を向上させることができる。

本発明の目的は、動画撮影時に、話し手となる人物（被写体）の認識を高精度に行うことのできる撮像装置および話し手認識方法を提供することである。

第１の発明の撮像装置は、画像解析手段と、音声解析手段と、話し手認識手段を備え、画像解析手段は、連続的に取得される画像から人物の顔領域中の口唇領域を検出すると共に、その口唇領域のデータから口唇動作の特徴を抽出する。また、音声解析手段は、画像と同期して取得される音声データから音声の特徴を抽出する。そして、話し手認識手段は、画像解析手段により抽出された口唇動作の特徴と、音声解析手段により抽出された音声の特徴とに基づき、画像に写る複数の人物から話し手となる人物を認識する。

第２の発明は、第１の発明において、話し手認識手段が、口唇動作の特徴と音声の特徴とに基づきスコア情報を求め、画像に写る複数の人物のうち、スコア情報の値が最も高い人物を話し手となる人物として認識する。

第３の発明は、第２の発明において、話し手認識手段が、口唇動作の特徴から求めた開口のタイミングと、音声の特徴から求めたアクセントのタイミングとの一致度を、スコア情報として求める。

第４の発明は、第１ないし第３の発明の何れか一の発明において、話し手認識手段が認識した話し手となる人物に合焦させるように光学系の焦点調節を行う制御手段を更に備える。

第５の発明は、第１ないし第４の発明の何れか一の発明において、制御手段は、話し手認識手段が認識した話し手となる人物が適正露出となるように露出条件を決定する。

第６の発明は、第１ないし第５の発明の何れか一の発明において、制御手段は、話し手認識手段が認識した話し手となる人物の像を拡大させるようにズーム調節を行う。

第７の発明は、第１ないし第６の発明の何れか一の発明において、画像を表示する表示手段を有し、制御手段は、画像に写る話し手認識手段が認識した話し手となる人物の顔の部分に、話し手であることを示す情報を重畳させると共に、その重畳後の画像を表示手段に表示させる。

第８の発明の話し手認識方法は、画像解析手順と、音声解析手順と、話し手認識手順とを備え、画像解析手順は、連続的に取得される画像から人物の顔領域中の口唇領域を検出すると共に、その口唇領域のデータから口唇動作の特徴を抽出する。また、音声解析手順は、画像と同期して取得される音声データから音声の特徴を抽出する。そして、話し手認識手順は、画像解析手順により抽出された口唇動作の特徴と、音声解析手順により抽出された音声の特徴とに基づき、画像に写る複数の人物から話し手となる人物を認識する。

第９の発明は、第８の発明において、話し手認識手順が、口唇動作の特徴と音声の特徴とに基づきスコア情報を求め、画像に写る複数の人物のうち、スコア情報の値が最も高い人物を話し手となる人物として認識する。

第１０の発明は、第９の発明において、話し手認識手順が、口唇動作の特徴から求めた開口のタイミングと、音声の特徴から求めたアクセントのタイミングとの一致度を、スコア情報として求める。

本発明では、連続的に取得される画像から人物の顔領域中の口唇領域を検出すると共に、その口唇領域のデータから口唇動作の特徴を抽出する。また、画像と同期して取得される音声データから音声の特徴を抽出する。そして、抽出された口唇動作の特徴と音声の特徴とに基づき、画像に写る複数の人物から話し手となる人物を認識する。

従って、本発明を利用すれば、動画撮影時に、話し手となる人物（被写体）の認識を高精度に行うことができる。

本発明の実施形態のデジタルカメラの構成を示すブロック図である。デジタルカメラの話し手認識の動作を示す流れ図である。話し手認識動作のイメージ図である。

以下、本発明の実施形態を説明する。本実施形態は、デジタルカメラの実施形態である。なお、本実施形態のデジタルカメラは、動画撮影機能を有している。

図１は、本実施形態のデジタルカメラの構成を示すブロック図である。

デジタルカメラの各ブロックの動作は、制御回路１１によって統括制御される。制御回路１１は、所定のプログラムを実行することにより、デジタルカメラが行う撮影などの各種の動作を制御する。

ＲＯＭ１２には、制御回路１１によって実行される各種のプログラムや、プログラムの実行に必要となるデータなどが予め格納される。

バッファメモリ１３は、画像データや音声データの一時記憶領域などとして使用される。このバッファメモリ１３は、ＳＤＲＡＭ等によって構成される。

なお、これらＲＯＭ１２及びバッファメモリ１３は、バス１４を介して制御回路１１と接続される。

操作部材１５は、モード設定ボタン、動画撮影ボタン、レリーズボタン、メニューボタンなどの各種の操作部材を含む。操作部材１５は、撮影者等のユーザーが行う部材操作の内容に応じた操作信号を制御回路１１へ送る。制御回路１１は、その操作信号に基づいて、デジタルカメラの各部を制御し、例えば、レンズ駆動制御、撮影動作制御、画像処理制御、画像データの記録制御、画像データの表示制御などを行う。

なお、モード設定ボタンは、撮影モードや再生モードなど、デジタルカメラの動作モードを設定するための操作部材である。また、動画撮影ボタンは、動画の撮影に係る指示を行うための操作部材であり、最初の押下により動画の撮影開始を指示し、その後もう一度押下することにより動画の撮影終了を指示する。また、レリーズボタンは、静止画の撮影に係る指示を行うための操作部材であり、半押し時にＯＮとなるスイッチのＳＷ１と、全押し時にＯＮとなるスイッチのＳＷ２とを有する二段ストローク式のスイッチで構成される。また、メニューボタンは、表示装置１６の画面上にメニュー画面を表示させる指示を行うための操作部材である。

表示装置１６は、カラー表示可能なＬＣＤディスプレイ等で構成されている。

表示装置１６は、撮影時には、画角等の確認用の電子ファインダーとして利用することができる。また、表示装置１６は、ユーザインターフェース用の表示画面としても利用される。その場合、表示装置１６には、必要に応じて、メニューや選択項目、設定内容などの各種の情報が表示される。

記録インターフェース（Ｉ／Ｆ）１７には、記録媒体１８を接続するためのコネクタが形成されている。記録Ｉ／Ｆ１７は、そのコネクタに接続された記録媒体１８にアクセスして、動画や静止画の画像データの書き込みや読み出しを行う。

制御回路１１は、この記録Ｉ／Ｆ１７を介して、動画や静止画の画像データを記録媒体１８へ記録する。なお、記録媒体１８は、半導体メモリを内蔵したメモリカードや、小型のハードディスクなどである。

次に、デジタルカメラの撮影に係るブロックについて説明する。

ユーザーによるモード設定ボタンの操作によりデジタルカメラが撮影モードに設定されると、ＣＣＤ固体撮像素子（以下、単に、ＣＣＤと呼ぶ。）１９を含む撮像部に電源が供給される。これにより、デジタルカメラは、撮影が可能な状態となる。

レンズユニット２０は、撮影レンズと絞り兼用シャッターとを含む光学ユニットである。レンズユニット２０は、制御回路１１により制御されるレンズ駆動回路２１によって駆動され、ズーム制御、フォーカス制御及びアイリス制御が行われる。

レンズユニット２０を通過した被写体光は、ＣＣＤ１９の受光面に結像される。なお、ＣＣＤ１９の受光面には、多数のフォトダイオード（受光素子）が二次元状に配列されると共に、各フォトダイオードに対応して、赤（Ｒ）、緑（Ｇ）、青（Ｂ）の原色カラーフィルタが所定の配列構造（ベイヤー、Ｇストライプなど）で配置されている。これにより、ＣＣＤ１９が出力する信号には、Ｒ、Ｇ、Ｂの３種類の成分が含まれることになる。また、ＣＣＤ１９は、各フォトダイオードの電荷蓄積時間を制御する電子シャッター機能を有している。制御回路１１は、タイミングジェネレータ（ＴＧ）２２を介して、ＣＣＤ１９の電荷蓄積時間の制御を行う。

なお、デジタルカメラでは、ＣＣＤ１９に代えて、ＭＯＳ型など他の方式の撮像素子を用いることもできる。

ＣＣＤ１９の受光面に形成された被写体像は、各フォトダイオードによって入射光量に応じた量の信号電荷に変換されて蓄積される。ここで、ＣＣＤ１９の各フォトダイオードに蓄積された信号電荷を画像信号（信号電荷に応じた電圧信号）として読み出すには、制御回路１１は、ＴＧ２２を駆動する。この駆動により、各フォトダイオードに蓄積された信号電荷は、ＴＧ２２から与えられる駆動パルスに基づき、所定のフレームレート（例えば、３０ｆｐｓなど）で、画像信号として順次読み出される。

ＣＣＤ１９から順次出力される画像信号（ＲＧＢ信号）は、信号処理回路２３により、ＣＤＳ（相関二重サンプリング）、増幅（ゲイン調整）、Ａ／Ｄ変換などの信号処理が施された後に、デジタル信号の画像データとして画像入力回路２４へ出力される。

なお、信号処理回路２３は、そのゲイン調整の調整量（増幅率）を制御回路１１の指令に基づき設定し、それによってＩＳＯ感度に相当する撮影感度の調整を行う。

また、信号処理回路２３は、ＴＧ２２から与えられる駆動パルスに基づいて前記動作を行う。

画像入力回路２４は、入力されるデジタル信号のＲＧＢの画像データを、制御回路１１の指令に従い、画像処理回路２５、ＡＥ／ＡＷＢ回路２７、ＡＦ回路２８へ出力する。

画像入力回路２４を介して画像処理回路２５に入力されるＲＧＢの画像データは、画像処理回路２５において、輝度信号（Ｙ信号）及び色差信号（Ｃｒ，Ｃｂ信号又はＵＶ信号）の画像データに変換される。また、変換後の画像データには、ガンマ補正、輪郭補正、ホワイトバランス補正等の所定の画像処理が画像処理回路２５によって施される。そして、その画像処理後の画像データは、画像処理回路２５によりバッファメモリ１３へ出力される。なお、このような画像処理回路２５での輝度／色差信号変換を含む画像処理は、制御回路１１の指令に従って行われる。

このようにして、１フレーム分の画像データが、順次、バッファメモリ１３へ格納されて取得される。

ここで、画像データを表示装置１６へモニタ出力する場合、制御回路１１は、前述のように格納される画像データをバッファメモリ１３から順次読み出し、それをバス１４を介して表示制御回路２６へ出力する。そして、表示制御回路２６は、入力された画像データを表示用の所定方式の信号（例えば、ＮＴＳＣ方式の複合映像信号）に変換して表示装置１６へ出力する。

このように、バッファメモリ１３の画像データを基に生成される映像信号が表示装置１６へ出力されることで、被写体の映像がリアルタイムに表示装置１６に表示される。ユーザーは、この表示により撮影画角等を確認することができる（ライブビュー機能）。

また、ユーザーによりレリーズボタンが半押しされると、デジタルカメラは、ＡＥ及びＡＦ動作を開始する。

なお、デジタルカメラのＡＥ及びＡＦ制御は、制御回路１１の指令に従い、ＡＥ／ＡＷＢ回路２７及びＡＦ回路２８が、ＣＣＤ１９から出力され画像入力回路２４を介して入力されるＲＧＢの画像データを基に以下のような動作を行うことによって行われる。

ＡＥ／ＡＷＢ回路２７は、入力される画像データの画面を複数のエリア（例えば、縦１６エリア×横１６エリアの合計２５６エリアなど）に分割し、分割エリアごとにＲＧＢ信号を積算すると、その積算値を制御回路１１に提供する。制御回路１１は、ＡＥ／ＡＷＢ回路２７から得た積算値に基づいて被写体の明るさ（被写体輝度）を検出すると共に、撮影の露出値（ＥＶ値）を算出する（ＡＥ演算）。また、制御回路１１は、算出したＥＶ値と所定のプログラム線図（ＲＯＭ１２に予め格納される）とに基づき、絞り値やシャッタースピードなどの露出条件を決定する。そして、制御回路１１は、その露出条件の下で、ＣＣＤ１９の電子シャッター機能及びレンズユニット２０のアイリス、信号処理回路２３のゲインなどを制御することで適正な露光量を得る。

また、ＡＥ／ＡＷＢ回路２７は、分割エリアごとにＲＧＢ信号の色別の平均積算値を算出し、その算出結果を制御回路１１に提供する。制御回路１１は、算出結果であるＲの積算値、Ｂの積算値、Ｇの積算値を得て、Ｒ／Ｇ及びＢ／Ｇの比を求めると共に、そのＲ／Ｇ及びＢ／Ｇの比の値と上述のＡＥ演算によるＥＶ値とに基づいてシーン判別（光源種の判別）を行う。そして、制御回路１１は、判別したシーンに対応する所定のホワイトバランス調整値に基づき、各比の値がおよそ１（つまり、１画面においてＲＧＢの積算比率がＲ：Ｇ：Ｂ≒１：１：１）となるようにホワイトバランス調整回路（不図示）のアンプゲインを制御して各色チャネルの信号を補正する。

なお、シーン判別においては、上述したＲ／Ｇ及びＢ／Ｇの比の値に代えて、色差信号のＣｒ（Ｒ−Ｙ）及びＣｂ（Ｂ−Ｙ）の値などを用いてもよい。

デジタルカメラが行うＡＦ制御には、例えば、画像データのＧ信号の高周波成分が極大になるように不図示のフォーカシングレンズ（撮影レンズを構成するレンズ光学系のうちのフォーカス調整用の移動レンズ）を移動させるコントラストＡＦが適用される。

よって、ＡＦ回路２８は、入力される画像データのＧ信号の高周波成分のみを通過させるハイパスフィルタ処理、絶対値化処理、画面内（例えば、画面中央部など）に設定されたフォーカス対象エリア（ＡＦエリア）内の信号を切り出すＡＦエリア抽出処理を実行する。そして、ＡＦ回路２８は、それら処理の実行により抽出したＡＦエリア内の信号の絶対値を積算すると、その積算値を制御回路１１に提供する。制御回路１１は、レンズ駆動回路２１を駆動して、不図示のフォーカシングレンズを移動させながら、複数のＡＦ検出ポイントで焦点評価値（ＡＦ評価値）を演算すると共に、そのＡＦ評価値が極大となるレンズ位置を合焦位置として決定する。

このようなＡＦ制御により、フォーカシングレンズ（不図示）の焦点調節が行われる。

なお、ＡＦ評価値の演算には、画像データのＧ信号を利用する代わりに、輝度信号（Ｙ信号）を利用してもよい。

また、デジタルカメラが行うＡＦ制御には、このような公知のコントラスト方式のＡＦに加えて、公知の瞳分割方式による位相差ＡＦを適用してもよい。

なお、後述の話し手認識ＡＦ機能が有効に設定されている場合には、画像中の話し手となる被写体（特に、その顔の部分）に対してＡＦ制御、ＡＥ制御が行われる。

また、ユーザーによりレリーズボタンが全押しされると、デジタルカメラは、静止画の撮影動作を開始する。一方、ユーザーにより動画撮影ボタンが押下されると、デジタルカメラは、動画の撮影動作を開始する。なお、動画撮影ボタンが押下された場合には、デジタルカメラは、一旦、上述したＡＥ及びＡＦ動作を行った後で、以下の撮影動作を行う。

制御回路１１は、静止画撮影時においては、全画素読み出しで１フレーム分の画像が取得されるようにＴＧ２２を駆動する。これによりＣＣＤ１９は、１フレーム分の画像信号を出力する。一方、動画撮影時においては、制御回路１１は、所定のフレームレートで記録用の画像が順次取得されるようにＴＧ２２を駆動する。これによりＣＣＤ１９は、画像信号をそのフレームレートに応じて順次出力する。

ＣＣＤ１９から出力される画像信号は、上述したように画像処理回路２５によって輝度／色差信号変換を含む画像処理が施された後に、バッファメモリ１３へ格納される。そして、その格納された輝度／色差信号の画像データは、圧縮／伸張回路２９により所定の形式に従って圧縮処理された後、記録Ｉ／Ｆ１７を介して記録媒体１８へ記録される。ここで、静止画の撮影時には、バッファメモリ１３の画像データは、例えば、ＪＰＥＧ（Joint Photographic Experts Group）形式等に従って圧縮される。一方、動画の撮影時には、画像データは、例えば、ＭＰＥＧ（Moving Picture Experts Group）形式やモーションＪＰＥＧ形式等に従って圧縮される。

なお、画像処理回路２５での輝度／色差信号変換を含む画像処理及び圧縮／伸張回路２９での圧縮処理は、制御回路１１の指令に従って行われる。また、圧縮処理後の画像データは、制御回路１１により記録Ｉ／Ｆ１７を介して記録媒体１８へ記録される。

また、制御回路１１は、必要に応じて、バッファメモリ１３に格納された画像データを、表示制御回路２６を介して表示装置１６に表示させる。この表示により、ユーザーは、静止画撮影時には撮影された静止画像の出来映えを、また、動画撮影時には撮影中の動画の内容を確認することができる。

デジタルカメラは、動画撮影中には、所謂「山登り方式」の連続的なＡＦ（コンティニアスＡＦ）動作を行う。つまり、不図示のフォーカシングレンズを光軸に沿って前後方向に微小移動させて、焦点評価値（ＡＦ評価値）の増減をチェックしながら、ＡＦ評価値が極大となる点まで、徐々にフォーカシングレンズ（不図示）を移動させる。

なお、後述の話し手認識ＡＦ機能が有効に設定されている場合には、デジタルカメラは、画像中の話し手となる被写体（特に、その顔の部分）に焦点が合うようにコンティニアスＡＦ動作を行う。

また、動画撮影中には、上記のＡＥ制御が行われる。

また、動画撮影時には、マイク３０により音声が検出され、その検出信号（音声信号）が、Ａ／Ｄ変換器３１によりデジタル信号（音声データ）に変換されて、音声信号処理回路３２へ出力される。音声信号処理回路３２は、制御回路１１の指令に従って、入力の音声データを所定の形式に変換する。

このようにして生成された音声データは、音声信号処理回路３２によりバッファメモリ１３へ格納される。なお、音声データは、撮影により取得されたバッファメモリ１３中の画像データと同期が取られている。そして、その音声データは、バッファメモリ１３の画像データと共に圧縮／伸張回路２９で圧縮処理された後に、記録Ｉ／Ｆ１７を介して記録媒体１８へ記録される。

また、動画撮影中に、もう一度、ユーザーによって動画撮影ボタンが押下されると、デジタルカメラは、動画の撮影動作を停止する。

ところで、本実施形態のデジタルカメラは、動画撮影時に、話し手となる被写体を検出して、その話し手の被写体に合焦させるようにＡＦ動作を行う機能（話し手認識ＡＦ機能）を有している。

以下、その機能について、本実施形態のデジタルカメラが行う動作を、図２の流れ図を参照して説明する。図２のフローチャートは、例えば、話し手認識ＡＦ機能が有効に設定されている場合に、ユーザーが動画撮影ボタンを押下してデジタルカメラに動画の撮影開始を指示したときに実行されるものである。

ステップ１０１（Ｓ１０１）：制御回路１１は、ＡＦ回路２８を駆動して、上述したＡＦ動作を開始する。このとき、制御回路１１は、例えば、デジタルカメラの近くに居る被写体（ここでは、人物）に焦点を合わせるようにＡＦ動作を開始する。

ステップ１０２：制御回路１１は、バッファメモリ１３に蓄積された所定時間分の画像データから人物の顔領域を検出する。ここでは、複数の人物の顔領域が検出されてよい。なお、顔領域の検出は、例えば、特開２００１−３０９２２５号公報や特開２００６−１５５０９６号公報などで開示されるパターンマッチング手法などの従来技術を利用して行なえる。

そして、制御回路１１は、検出した全ての顔領域からそれぞれ口唇領域を検出すると共に、その口唇領域のデータから口唇の動き（口唇動作）の特徴を抽出する。ここでは、検出した全ての口唇領域についてそれぞれ口唇動作の特徴を抽出する。なお、口唇動作の特徴としては、口唇の開き具合（開口量）や口唇の形状などの情報が抽出される。なお、口唇動作の特徴の抽出は、例えば、特開２００８−２８７３４０号公報などで開示される従来技術を利用して行なえる。

ステップ１０３：制御回路１１は、バッファメモリ１３に蓄積された所定時間分の音声データから音声周波数成分のみを抽出する。そして、制御回路１１は、抽出した音声周波数成分のデータから音声の特徴を抽出する。なお、音声の特徴としては、発音内容（「あ」、「い」、「う」など）やアクセントなどの情報が抽出される。なお、音声の特徴の抽出は、例えば、特開２００２−３５１４９０号公報などで開示される従来技術を利用して行なえる。

ステップ１０４：制御回路１１は、画像データから抽出した口唇動作の特徴と音声データから抽出した音声の特徴とに基づき、画像データに写った被写体のうち、どの被写体が話し手であるのかを認識する。即ち、話し手となる被写体を認識する。

具体的には、制御回路１１は、抽出した口唇動作の特徴を時系列に解析することにより求められる開口のタイミングと、抽出した音声の特徴を時系列に解析することにより求められるアクセントのタイミングとの一致度をスコア情報として求める。或いは、口唇の開き具合（開口量）や口唇の形状の情報と発音内容の情報とを紐付けしたデータベースを予め用意しておき、画像データから抽出した口唇動作の特徴および音声データから抽出した音声の特徴とデータベースの情報との一致度をスコア情報として求める。

なお、ここでは、検出した全ての被写体（人物）についてそれぞれスコア情報を求める。

そして、制御回路１１は、スコア情報の値が所定の閾値を超える被写体（人物）を話し手として認識する。但し、複数の被写体を話し手として認識した場合には、制御回路１１は、スコア情報の値が最も高い（大きい）被写体を話し手として認識するようにする。

ステップ１０５：制御回路１１は、話し手となる被写体（人物）を認識できない場合には、現在検出されている被写体よりも遠くに居る、即ち、現在の被写界深度を外れた遠くの位置に居る被写体（人物）に焦点を合わせるようにＡＦ動作を行った後、ステップ１０２へ移行して上記の処理を繰り返す。

一方、制御回路１１は、話し手となる被写体（人物）を認識できた場合には、ステップ１０６へ移行する。

なお、ここまでのデジタルカメラの動作イメージを図３に示す。

先ず、図３の（１）に示すように、例えば、被写界に、被写体（人物）Ａ、Ｂ、Ｃが存在するものとする。そして、被写体Ｃは、被写体Ａ、Ｂの後ろに居て、被写体Ａ、Ｂが含まれる被写界深度を外れた遠い位置に居るものとする。

このような前提の下、デジタルカメラにより話し手認識の動作が行われると、先ず、図３の（２）に示すように、デジタルカメラの近くに居る被写体（図３の例では、被写体ＡとＢ）に焦点を合わせるようにＡＦ動作が開始される。

次に、そのＡＦ動作により、図３の（３）に示すように焦点が合うと、被写体ＡとＢについて顔領域の口唇領域が検出されて、その口唇領域のデータから口唇動作の特徴が抽出される。また、それらの画像データと同期して取得された音声データから音声の特徴が抽出される。

そして、抽出された口唇動作の特徴と音声の特徴とに基づき、図３の（３）の被写体Ａが話し手の被写体（人物）として認識される。この場合、被写体Ａは、「あ」と発音しており、一方、被写体Ｂは、何も発音せずに笑っているのである。このため、画像と同期して取得された音声データからは「あ」との発音内容が、そのアクセントの情報とも合わせて音声の特徴として抽出されるので、画像から抽出された口唇動作の特徴とのタイミングを含めた一致度合いから、被写体Ａが話し手であると認識される。

このようにして、被写体（人物）Ａが話し手として認識されると、その時点で、デジタルカメラは、話し手（被写体Ａ）が含まれる被写界深度を外れた位置に、未だサーチしていない被写体（図３では、被写体Ｃ）が存在していても、そのサーチのためのフォーカシングレンズ（不図示）移動などのＡＦ動作を終わらせる。

ステップ１０６：制御回路１１は、認識した話し手に合焦させるべくＡＦ動作を行う。この場合、特に、話し手の顔の部分に合焦させる。

また、制御回路１１は、話し手の特に顔の部分が適正露出となるようにＡＥ動作を行う。

また、制御回路１１は、所定のフレームレートで記録用の画像が順次取得されるようにＴＧ２２を駆動する。

ステップ１０７：制御回路１１は、認識した話し手（特に、その顔の部分）に合焦させ続けるようにコンティニアスＡＦ動作を行いながら、順次取得される画像データ及び音声データを、ＭＰＥＧ形式などに圧縮した後に記録Ｉ／Ｆ１７を介して記録媒体１８へ記録する。

また、制御回路１１は、必要に応じて、話し手（特に、その顔の部分）が適正露出となるようにＡＥ動作を行う。

また、制御回路１１は、必要に応じて、順次取得される画像データを、表示制御回路２６を介して表示装置１６に表示させる。このとき、制御回路１１は、画像データ中の話し手の特に顔の部分に、認識したことを示す情報（例えば、検出枠など）を重畳させて表示させる。

なお、話し手の位置が急に変化するなどして話し手に合焦させることができなくなった場合には、制御回路１１は、バッファメモリ１３に蓄積された所定時間分の記録用の画像データ及び音声データに基づき、上記の話し手認識の処理を再度実行して、見失った話し手を画像中から見つけ出す。但し、これは、話し手の人物が変わらないことが前提である。

ステップ１０８：制御回路１１は、ユーザーにより、もう一度、動画撮影ボタンが押下されたか、即ち、動画の撮影終了が指示されたか否かを判定する。

制御回路１１は、動画の撮影終了が指示された場合にはステップ１０９へ移行し、一方、撮影終了が指示されていない場合には、ステップ１０７へ移行する。

ステップ１０９：制御回路１１は、動画の撮影動作を停止する（動画撮影終了）。

（実施形態の補足事項）
なお、上記では、デジタルカメラが、認識した話し手（特に、その顔の部分）に合焦させるようにＡＦ動作を行い、また、話し手（特に、その顔の部分）が適正露出となるようにＡＥ動作を行うことを説明した。しかし、それだけでなく、認識した話し手（特に、その顔の部分）を動画撮影中の画角から外れない範囲でズームアップ（拡大）するようにしてもよい。なお、話し手（特に、その顔の部分）のズームアップは、光学系のズーム調節により行ってもよいし、画像処理（解像度変換）による電子ズームにより行っても良い。

また、上記では、デジタルカメラに近い側から遠い側に向けて話し手となる被写体（人物）をサーチするようにＡＦ動作を行うことを説明した。しかし、そのサーチの方向はこれに限定されず、デジタルカメラに遠い側から近い側に向けて話し手となる被写体（人物）をサーチするようにしてもよい。

また、上記では、話し手となる人物（図３の例では、被写体Ａ）が認識された時点で、その話し手が含まれる被写界深度を外れた位置に未だサーチしていない人物（図３の例では、被写体Ｃ）が存在していても、そのサーチのためのフォーカシングレンズ（不図示）移動などのＡＦ動作を終わらせるようにした。しかし、被写界中の撮影される人物（図３の例では、被写体Ａ〜Ｃ）を全てサーチして、上述した話し手認識の処理を実行するようにしてもよい。但し、そうした場合、話し手認識の処理により、複数の被写体（人物）が話し手として認識された場合には、そのうちのスコア情報の値が最も高い（大きい）被写体を話し手として認識するようにする。

また、上記では、動画撮影時に取得される画像データ中の複数の被写体（人物）から話し手となる人物を認識した。しかし、話し手となる人物を認識し、さらに、その人物が特定の人物であるかを認証して、認証ＯＫの場合、即ち、特定の人物である場合に、その人物（特に、その顔の部分）に対して、ＡＦ制御、ＡＥ制御、またズームアップを行うようにしてもよい。なお、人物（被写体）の認証は、例えば、検出した被写体の顔領域のデータとデジタルカメラに予め登録されている顔のデータとが一致するか、或いは、一致すると見做せるかを調べることなどによって被写体の認証（顔認証）を行う。この顔認証には、例えば、特開２００６−１５５０９６号公報などで開示される従来技術を利用することができる。また、顔認証の際には、音声データの特性から話者を識別し、その識別情報に基づき顔認証に使用する顔のデータを絞り込むようにしてもよい。なお、話者の識別には、例えば、特開平７−２７１３９２号公報や特開平９−１９８０８６号公報などで開示される従来技術を利用することができる。

また、上記では、ＡＦ制御にコントラストＡＦを適用した場合を説明した。しかし、ＡＦ制御には、コントラストＡＦに加えて、位相差ＡＦを適用するようにしてもよい。そうした場合、位相差ＡＦにより、一旦、被写体（人物）を検出し、その検出した全ての被写体（人物）に対して、上記のコントラストＡＦによる話し手認識の処理を行うようにする。そうすれば、コントラストＡＦのみの場合よりも話し手の認識を早く行なえるようになる。

また、上記では説明しなかったが、デジタルカメラのマイク３０にステレオマイクを用いるようにしてもよい。その場合には、ステレオマイクから出力される音声信号に基づき被写体の声の方向を推定するようにし、そして、画像データ中におけるその方向の被写体に対して、優先的に、上述した話し手認識の処理を実行するとよい。そうすれば、声の方向を推定しない場合よりも話し手の認識を早く行なえるようになる。

また、上記では、デジタルカメラが、動画撮影時に、話し手の認識を行うことを説明した。しかし、ライブビュー中にも、話し手の認識を行うようにしてもよい。そうした場合には、ライブビューの動作中に、マイク３０、Ａ／Ｄ変換器３１、音声信号処理回路３２を駆動して音声データを取得するようにし、画像データとその音声データとに基づいて話し手認識の処理を行うようにする。また、そうした場合には、表示装置１６に表示される映像中の話し手の特に顔の部分に、認識したことを示す情報（例えば、検出枠など）を重畳するようにしてもよい。

また、上記では、制御回路１１が話し手認識の処理を実行するようにしたが、この形態に限定されず、専用の回路を別に設けて、その回路が、制御回路１１の指令に従って話し手認識の処理を行うようにしてもよい。また、その場合、処理速度の観点から、専用の回路では、上記ステップ１０２での口唇動作の特徴を抽出する処理と、上記ステップ１０３での音声の特徴を抽出する処理とを並行して実行するようにしてもよい。

（実施形態の作用効果）
以上、本実施形態のデジタルカメラでは、動画撮影時に、連続的に取得され、バッファメモリ１３に蓄積された所定時間分の画像データから、被写体（人物）の顔領域中の口唇領域が検出されると共に、その口唇領域のデータから口唇の動き（口唇動作）の特徴が抽出される。

また、その画像データと同期して取得され、バッファメモリ１３に蓄積された所定時間分の音声データから音声の特徴が抽出される。

そして、抽出された口唇動作の特徴と音声の特徴とに基づき、画像データに写った複数の人物から話し手となる人物が認識される。具体的には、口唇動作の特徴と音声の特徴とに基づきスコア情報を求め、画像データに写った複数の人物のうち、そのスコア情報の値が最も高い人物が話し手となる人物として認識される。

なお、話し手の認識に用いるスコア情報であるが、本実施形態のデジタルカメラでは、口唇動作の特徴から求めた開口のタイミングと、音声の特徴から求めたアクセントのタイミングとの一致度をスコア情報として用いている。しかし、口唇の開き具合（開口量）や口唇の形状の情報と発音内容の情報とを紐付けしたデータベースを予め用意しておき、口唇動作の特徴および音声の特徴とデータベースの情報との一致度をスコア情報として用いてもよい。

したがって、本実施形態のデジタルカメラによれば、動画撮影時に、話し手となる人物（被写体）の認識を高精度に行うことができる。

また、本実施形態のデジタルカメラでは、動画撮影時に、連続的に取得される画像から話し手となる人物（被写体）を認識した場合には、その話し手となる人物が良好に撮影され続けるように、ＡＦ制御やＡＥ制御などが行われる。

したがって、本実施形態のデジタルカメラによれば、複数の人物を被写体とした動画撮影時に、複数の人物のうち、話し手となる人物（被写体）のピントや明るさが最も良好な動画を撮影することできる。

一般に、デジタルビデオカメラでは、被写界深度が深いため、ピントが多少ズレたとしても撮影された動画像にはその影響があまり出ないが、デジタルスチルカメラで動画を撮影する場合には、被写界深度が浅いために、ピントのズレにより撮影された動画像に与える影響が大きい。しかし、本実施形態のデジタルカメラ（デジタルスチルカメラ）によれば、動画撮影時に、話し手として認識された人物（被写体）のピントが良好に保たれるので、そのような問題は生じない。

また、本実施形態のデジタルカメラでは、動画撮影時に、連続的に取得される画像から話し手となる人物（被写体）を認識した場合には、その時点で、話し手が含まれる被写界深度を外れた位置に未だサーチしていない人物が存在していても、そのサーチのためのフォーカシングレンズ（不図示）移動などのＡＦ動作を終わらせて、認識した話し手の人物に合焦させる。

したがって、本実施形態のデジタルカメラによれば、動画撮影時に、話し手の人物（被写体）に対する合焦動作を短時間で行うことができる。

（その他）
なお、上述したデジタルカメラの動作に係るプログラムのうち、特に、ステップ１０２〜ステップ１０４の処理については、コンピュータなどの外部処理装置に実行させてもよい。その場合、必要なプログラムがＣＤ−ＲＯＭ等のコンピュータ読み取り可能な記憶媒体やインターネット等の通信網などを介して外部処理装置へインストールされる。

また、上記ではデジタルカメラの実施例を説明したが、本発明は、動画撮影が可能な、或いはライブビュー機能を有した他の機器、例えば、携帯電話機やデジタルビデオカメラなどにも適用することができる。さらに、本発明は、焦点調節用の撮像素子を備えた電子双眼鏡などにも適用することができる。

１１…制御回路，１２…ＲＯＭ，１３…バッファメモリ，１４…バス，１５…操作部材，１６…表示装置，１７…記録インターフェース（Ｉ／Ｆ），１８…記録媒体，１９…ＣＣＤ固体撮像素子（ＣＣＤ），２０…レンズユニット，２１…レンズ駆動回路，２２…タイミングジェネレータ（ＴＧ），２３…信号処理回路，２４…画像入力回路，２５…画像処理回路，２６…表示制御回路，２７…ＡＥ／ＡＷＢ回路，２８…ＡＦ回路，２９…圧縮／伸張回路，３０…マイク，３１…Ａ／Ｄ変換器，３２…音声信号処理回路

Claims

連続的に取得される画像から人物の顔領域中の口唇領域を検出すると共に、前記口唇領域のデータから口唇動作の特徴を抽出する画像解析手段と、
前記画像と同期して取得される音声データから音声の特徴を抽出する音声解析手段と、
前記画像解析手段により抽出された口唇動作の特徴と、前記音声解析手段により抽出された音声の特徴とに基づき、前記画像に写る複数の人物から話し手となる人物を認識する話し手認識手段と
を備えることを特徴とする撮像装置。
請求項１に記載の撮像装置において、
前記話し手認識手段は、前記口唇動作の特徴と前記音声の特徴とに基づきスコア情報を求め、前記複数の人物のうち前記スコア情報の値が最も高い人物を話し手となる人物として認識する
ことを特徴とする撮像装置。
請求項２に記載の撮像装置において、
前記話し手認識手段は、前記口唇動作の特徴から求めた開口のタイミングと、前記音声の特徴から求めたアクセントのタイミングとの一致度を、前記スコア情報として求める
ことを特徴とする撮像装置。
請求項１ないし請求項３の何れか一項に記載の撮像装置において、
前記話し手認識手段が認識した話し手となる人物に合焦させるように光学系の焦点調節を行う制御手段を更に備える
ことを特徴とする撮像装置。
請求項１ないし請求項４の何れか一項に記載の撮像装置において、
前記制御手段は、前記話し手認識手段が認識した話し手となる人物が適正露出となるように露出条件を決定する
ことを特徴とする撮像装置。
請求項１ないし請求項５の何れか一項に記載の撮像装置において、
前記制御手段は、前記話し手認識手段が認識した話し手となる人物の像を拡大させるようにズーム調節を行う
ことを特徴とする撮像装置。
請求項１ないし請求項６の何れか一項に記載の撮像装置において、
前記画像を表示する表示手段を有し、
前記制御手段は、前記画像に写る前記話し手認識手段が認識した話し手となる人物の顔の部分に、話し手であることを示す情報を重畳させると共に、その重畳後の画像を前記表示手段に表示させる
ことを特徴とする撮像装置。
連続的に取得される画像から人物の顔領域中の口唇領域を検出すると共に、前記口唇領域のデータから口唇動作の特徴を抽出する画像解析手順と、
前記画像と同期して取得される音声データから音声の特徴を抽出する音声解析手順と、
前記画像解析手順により抽出された口唇動作の特徴と、前記音声解析手順により抽出された音声の特徴とに基づき、前記画像に写る複数の人物から話し手となる人物を認識する話し手認識手順と
を備えることを特徴とする話し手認識方法。
請求項８に記載の話し手認識方法において、
前記話し手認識手順は、前記口唇動作の特徴と前記音声の特徴とに基づきスコア情報を求め、前記複数の人物のうち前記スコア情報の値が最も高い人物を話し手となる人物として認識する
ことを特徴とする話し手認識方法。
請求項９に記載の話し手認識方法において、
前記話し手認識手順は、前記口唇動作の特徴から求めた開口のタイミングと、前記音声の特徴から求めたアクセントのタイミングとの一致度を、前記スコア情報として求める
ことを特徴とする話し手認識方法。