JP2010192956A - 撮像装置および話し手認識方法 - Google Patents

撮像装置および話し手認識方法 Download PDF

Info

Publication number
JP2010192956A
JP2010192956A JP2009032303A JP2009032303A JP2010192956A JP 2010192956 A JP2010192956 A JP 2010192956A JP 2009032303 A JP2009032303 A JP 2009032303A JP 2009032303 A JP2009032303 A JP 2009032303A JP 2010192956 A JP2010192956 A JP 2010192956A
Authority
JP
Japan
Prior art keywords
speaker
image
person
features
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009032303A
Other languages
English (en)
Inventor
Eiji Yoshimatsu
栄二 吉松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nikon Corp
Original Assignee
Nikon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nikon Corp filed Critical Nikon Corp
Priority to JP2009032303A priority Critical patent/JP2010192956A/ja
Publication of JP2010192956A publication Critical patent/JP2010192956A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 本発明は、動画撮影時に、話し手となる人物(被写体)の認識を高精度に行うことのできる撮像装置および話し手認識方法を提供することを目的とする。
【解決手段】 本発明の撮像装置(11〜32)は、画像解析手段(11)と、音声解析手段(11)と、話し手認識手段(11)を備え、画像解析手段は、連続的に取得される画像から人物の顔領域中の口唇領域を検出すると共に、その口唇領域のデータから口唇動作の特徴を抽出する。また、音声解析手段は、画像と同期して取得される音声データから音声の特徴を抽出する。そして、話し手認識手段は、画像解析手段により抽出された口唇動作の特徴と、音声解析手段により抽出された音声の特徴とに基づき、画像に写る複数の人物から話し手となる人物を認識する。
【選択図】 図1

Description

本発明は、動画撮影が可能な撮像装置について、特に、動画撮影時に、話し手となる被写体(人物)を認識することができる撮像装置およびその話し手認識方法に関する。
複数の人物を被写体とした動画撮影では、一般に、話し手となる人物のピントや明るさが最も良好となるように撮影されることが望まれる。
そこで、動画撮影時に、話し手となる人物(被写体)を認識する従来技術の一例として、例えば、特許文献1には、撮影により取得された画像から被写体の顔の特徴量を検出し、また、取得された音声から音声の特徴量を検出する。そして、それらの特徴量を、顔と音声との対応を示す特徴量データと比較することで、話し手となる人物(被写体)を認識するという技術が開示されている。
特開2007−27990号公報
この従来技術によれば、例えば、画像から「Aさん」と「Bさん」の顔の特徴量が検出され、また、音声から「Bさん」の音声の特徴量が検出された場合には、話し手となる人物は「Bさん」であると認識される。
ところで、動画撮影時の画像から人物の口唇の動き具合などを特徴量として検出して、その口唇動作の特徴量と、音声から検出した音声の特徴量とを比較すれば、話し手となる人物の認識の精度を向上させることができる。
本発明の目的は、動画撮影時に、話し手となる人物(被写体)の認識を高精度に行うことのできる撮像装置および話し手認識方法を提供することである。
第1の発明の撮像装置は、画像解析手段と、音声解析手段と、話し手認識手段を備え、画像解析手段は、連続的に取得される画像から人物の顔領域中の口唇領域を検出すると共に、その口唇領域のデータから口唇動作の特徴を抽出する。また、音声解析手段は、画像と同期して取得される音声データから音声の特徴を抽出する。そして、話し手認識手段は、画像解析手段により抽出された口唇動作の特徴と、音声解析手段により抽出された音声の特徴とに基づき、画像に写る複数の人物から話し手となる人物を認識する。
第2の発明は、第1の発明において、話し手認識手段が、口唇動作の特徴と音声の特徴とに基づきスコア情報を求め、画像に写る複数の人物のうち、スコア情報の値が最も高い人物を話し手となる人物として認識する。
第3の発明は、第2の発明において、話し手認識手段が、口唇動作の特徴から求めた開口のタイミングと、音声の特徴から求めたアクセントのタイミングとの一致度を、スコア情報として求める。
第4の発明は、第1ないし第3の発明の何れか一の発明において、話し手認識手段が認識した話し手となる人物に合焦させるように光学系の焦点調節を行う制御手段を更に備える。
第5の発明は、第1ないし第4の発明の何れか一の発明において、制御手段は、話し手認識手段が認識した話し手となる人物が適正露出となるように露出条件を決定する。
第6の発明は、第1ないし第5の発明の何れか一の発明において、制御手段は、話し手認識手段が認識した話し手となる人物の像を拡大させるようにズーム調節を行う。
第7の発明は、第1ないし第6の発明の何れか一の発明において、画像を表示する表示手段を有し、制御手段は、画像に写る話し手認識手段が認識した話し手となる人物の顔の部分に、話し手であることを示す情報を重畳させると共に、その重畳後の画像を表示手段に表示させる。
第8の発明の話し手認識方法は、画像解析手順と、音声解析手順と、話し手認識手順とを備え、画像解析手順は、連続的に取得される画像から人物の顔領域中の口唇領域を検出すると共に、その口唇領域のデータから口唇動作の特徴を抽出する。また、音声解析手順は、画像と同期して取得される音声データから音声の特徴を抽出する。そして、話し手認識手順は、画像解析手順により抽出された口唇動作の特徴と、音声解析手順により抽出された音声の特徴とに基づき、画像に写る複数の人物から話し手となる人物を認識する。
第9の発明は、第8の発明において、話し手認識手順が、口唇動作の特徴と音声の特徴とに基づきスコア情報を求め、画像に写る複数の人物のうち、スコア情報の値が最も高い人物を話し手となる人物として認識する。
第10の発明は、第9の発明において、話し手認識手順が、口唇動作の特徴から求めた開口のタイミングと、音声の特徴から求めたアクセントのタイミングとの一致度を、スコア情報として求める。
本発明では、連続的に取得される画像から人物の顔領域中の口唇領域を検出すると共に、その口唇領域のデータから口唇動作の特徴を抽出する。また、画像と同期して取得される音声データから音声の特徴を抽出する。そして、抽出された口唇動作の特徴と音声の特徴とに基づき、画像に写る複数の人物から話し手となる人物を認識する。
従って、本発明を利用すれば、動画撮影時に、話し手となる人物(被写体)の認識を高精度に行うことができる。
本発明の実施形態のデジタルカメラの構成を示すブロック図である。 デジタルカメラの話し手認識の動作を示す流れ図である。 話し手認識動作のイメージ図である。
以下、本発明の実施形態を説明する。本実施形態は、デジタルカメラの実施形態である。なお、本実施形態のデジタルカメラは、動画撮影機能を有している。
図1は、本実施形態のデジタルカメラの構成を示すブロック図である。
デジタルカメラの各ブロックの動作は、制御回路11によって統括制御される。制御回路11は、所定のプログラムを実行することにより、デジタルカメラが行う撮影などの各種の動作を制御する。
ROM12には、制御回路11によって実行される各種のプログラムや、プログラムの実行に必要となるデータなどが予め格納される。
バッファメモリ13は、画像データや音声データの一時記憶領域などとして使用される。このバッファメモリ13は、SDRAM等によって構成される。
なお、これらROM12及びバッファメモリ13は、バス14を介して制御回路11と接続される。
操作部材15は、モード設定ボタン、動画撮影ボタン、レリーズボタン、メニューボタンなどの各種の操作部材を含む。操作部材15は、撮影者等のユーザーが行う部材操作の内容に応じた操作信号を制御回路11へ送る。制御回路11は、その操作信号に基づいて、デジタルカメラの各部を制御し、例えば、レンズ駆動制御、撮影動作制御、画像処理制御、画像データの記録制御、画像データの表示制御などを行う。
なお、モード設定ボタンは、撮影モードや再生モードなど、デジタルカメラの動作モードを設定するための操作部材である。また、動画撮影ボタンは、動画の撮影に係る指示を行うための操作部材であり、最初の押下により動画の撮影開始を指示し、その後もう一度押下することにより動画の撮影終了を指示する。また、レリーズボタンは、静止画の撮影に係る指示を行うための操作部材であり、半押し時にONとなるスイッチのSW1と、全押し時にONとなるスイッチのSW2とを有する二段ストローク式のスイッチで構成される。また、メニューボタンは、表示装置16の画面上にメニュー画面を表示させる指示を行うための操作部材である。
表示装置16は、カラー表示可能なLCDディスプレイ等で構成されている。
表示装置16は、撮影時には、画角等の確認用の電子ファインダーとして利用することができる。また、表示装置16は、ユーザインターフェース用の表示画面としても利用される。その場合、表示装置16には、必要に応じて、メニューや選択項目、設定内容などの各種の情報が表示される。
記録インターフェース(I/F)17には、記録媒体18を接続するためのコネクタが形成されている。記録I/F17は、そのコネクタに接続された記録媒体18にアクセスして、動画や静止画の画像データの書き込みや読み出しを行う。
制御回路11は、この記録I/F17を介して、動画や静止画の画像データを記録媒体18へ記録する。なお、記録媒体18は、半導体メモリを内蔵したメモリカードや、小型のハードディスクなどである。
次に、デジタルカメラの撮影に係るブロックについて説明する。
ユーザーによるモード設定ボタンの操作によりデジタルカメラが撮影モードに設定されると、CCD固体撮像素子(以下、単に、CCDと呼ぶ。)19を含む撮像部に電源が供給される。これにより、デジタルカメラは、撮影が可能な状態となる。
レンズユニット20は、撮影レンズと絞り兼用シャッターとを含む光学ユニットである。レンズユニット20は、制御回路11により制御されるレンズ駆動回路21によって駆動され、ズーム制御、フォーカス制御及びアイリス制御が行われる。
レンズユニット20を通過した被写体光は、CCD19の受光面に結像される。なお、CCD19の受光面には、多数のフォトダイオード(受光素子)が二次元状に配列されると共に、各フォトダイオードに対応して、赤(R)、緑(G)、青(B)の原色カラーフィルタが所定の配列構造(ベイヤー、Gストライプなど)で配置されている。これにより、CCD19が出力する信号には、R、G、Bの3種類の成分が含まれることになる。また、CCD19は、各フォトダイオードの電荷蓄積時間を制御する電子シャッター機能を有している。制御回路11は、タイミングジェネレータ(TG)22を介して、CCD19の電荷蓄積時間の制御を行う。
なお、デジタルカメラでは、CCD19に代えて、MOS型など他の方式の撮像素子を用いることもできる。
CCD19の受光面に形成された被写体像は、各フォトダイオードによって入射光量に応じた量の信号電荷に変換されて蓄積される。ここで、CCD19の各フォトダイオードに蓄積された信号電荷を画像信号(信号電荷に応じた電圧信号)として読み出すには、制御回路11は、TG22を駆動する。この駆動により、各フォトダイオードに蓄積された信号電荷は、TG22から与えられる駆動パルスに基づき、所定のフレームレート(例えば、30fpsなど)で、画像信号として順次読み出される。
CCD19から順次出力される画像信号(RGB信号)は、信号処理回路23により、CDS(相関二重サンプリング)、増幅(ゲイン調整)、A/D変換などの信号処理が施された後に、デジタル信号の画像データとして画像入力回路24へ出力される。
なお、信号処理回路23は、そのゲイン調整の調整量(増幅率)を制御回路11の指令に基づき設定し、それによってISO感度に相当する撮影感度の調整を行う。
また、信号処理回路23は、TG22から与えられる駆動パルスに基づいて前記動作を行う。
画像入力回路24は、入力されるデジタル信号のRGBの画像データを、制御回路11の指令に従い、画像処理回路25、AE/AWB回路27、AF回路28へ出力する。
画像入力回路24を介して画像処理回路25に入力されるRGBの画像データは、画像処理回路25において、輝度信号(Y信号)及び色差信号(Cr,Cb信号又はUV信号)の画像データに変換される。また、変換後の画像データには、ガンマ補正、輪郭補正、ホワイトバランス補正等の所定の画像処理が画像処理回路25によって施される。そして、その画像処理後の画像データは、画像処理回路25によりバッファメモリ13へ出力される。なお、このような画像処理回路25での輝度/色差信号変換を含む画像処理は、制御回路11の指令に従って行われる。
このようにして、1フレーム分の画像データが、順次、バッファメモリ13へ格納されて取得される。
ここで、画像データを表示装置16へモニタ出力する場合、制御回路11は、前述のように格納される画像データをバッファメモリ13から順次読み出し、それをバス14を介して表示制御回路26へ出力する。そして、表示制御回路26は、入力された画像データを表示用の所定方式の信号(例えば、NTSC方式の複合映像信号)に変換して表示装置16へ出力する。
このように、バッファメモリ13の画像データを基に生成される映像信号が表示装置16へ出力されることで、被写体の映像がリアルタイムに表示装置16に表示される。ユーザーは、この表示により撮影画角等を確認することができる(ライブビュー機能)。
また、ユーザーによりレリーズボタンが半押しされると、デジタルカメラは、AE及びAF動作を開始する。
なお、デジタルカメラのAE及びAF制御は、制御回路11の指令に従い、AE/AWB回路27及びAF回路28が、CCD19から出力され画像入力回路24を介して入力されるRGBの画像データを基に以下のような動作を行うことによって行われる。
AE/AWB回路27は、入力される画像データの画面を複数のエリア(例えば、縦16エリア×横16エリアの合計256エリアなど)に分割し、分割エリアごとにRGB信号を積算すると、その積算値を制御回路11に提供する。制御回路11は、AE/AWB回路27から得た積算値に基づいて被写体の明るさ(被写体輝度)を検出すると共に、撮影の露出値(EV値)を算出する(AE演算)。また、制御回路11は、算出したEV値と所定のプログラム線図(ROM12に予め格納される)とに基づき、絞り値やシャッタースピードなどの露出条件を決定する。そして、制御回路11は、その露出条件の下で、CCD19の電子シャッター機能及びレンズユニット20のアイリス、信号処理回路23のゲインなどを制御することで適正な露光量を得る。
また、AE/AWB回路27は、分割エリアごとにRGB信号の色別の平均積算値を算出し、その算出結果を制御回路11に提供する。制御回路11は、算出結果であるRの積算値、Bの積算値、Gの積算値を得て、R/G及びB/Gの比を求めると共に、そのR/G及びB/Gの比の値と上述のAE演算によるEV値とに基づいてシーン判別(光源種の判別)を行う。そして、制御回路11は、判別したシーンに対応する所定のホワイトバランス調整値に基づき、各比の値がおよそ1(つまり、1画面においてRGBの積算比率がR:G:B≒1:1:1)となるようにホワイトバランス調整回路(不図示)のアンプゲインを制御して各色チャネルの信号を補正する。
なお、シーン判別においては、上述したR/G及びB/Gの比の値に代えて、色差信号のCr(R−Y)及びCb(B−Y)の値などを用いてもよい。
デジタルカメラが行うAF制御には、例えば、画像データのG信号の高周波成分が極大になるように不図示のフォーカシングレンズ(撮影レンズを構成するレンズ光学系のうちのフォーカス調整用の移動レンズ)を移動させるコントラストAFが適用される。
よって、AF回路28は、入力される画像データのG信号の高周波成分のみを通過させるハイパスフィルタ処理、絶対値化処理、画面内(例えば、画面中央部など)に設定されたフォーカス対象エリア(AFエリア)内の信号を切り出すAFエリア抽出処理を実行する。そして、AF回路28は、それら処理の実行により抽出したAFエリア内の信号の絶対値を積算すると、その積算値を制御回路11に提供する。制御回路11は、レンズ駆動回路21を駆動して、不図示のフォーカシングレンズを移動させながら、複数のAF検出ポイントで焦点評価値(AF評価値)を演算すると共に、そのAF評価値が極大となるレンズ位置を合焦位置として決定する。
このようなAF制御により、フォーカシングレンズ(不図示)の焦点調節が行われる。
なお、AF評価値の演算には、画像データのG信号を利用する代わりに、輝度信号(Y信号)を利用してもよい。
また、デジタルカメラが行うAF制御には、このような公知のコントラスト方式のAFに加えて、公知の瞳分割方式による位相差AFを適用してもよい。
なお、後述の話し手認識AF機能が有効に設定されている場合には、画像中の話し手となる被写体(特に、その顔の部分)に対してAF制御、AE制御が行われる。
また、ユーザーによりレリーズボタンが全押しされると、デジタルカメラは、静止画の撮影動作を開始する。一方、ユーザーにより動画撮影ボタンが押下されると、デジタルカメラは、動画の撮影動作を開始する。なお、動画撮影ボタンが押下された場合には、デジタルカメラは、一旦、上述したAE及びAF動作を行った後で、以下の撮影動作を行う。
制御回路11は、静止画撮影時においては、全画素読み出しで1フレーム分の画像が取得されるようにTG22を駆動する。これによりCCD19は、1フレーム分の画像信号を出力する。一方、動画撮影時においては、制御回路11は、所定のフレームレートで記録用の画像が順次取得されるようにTG22を駆動する。これによりCCD19は、画像信号をそのフレームレートに応じて順次出力する。
CCD19から出力される画像信号は、上述したように画像処理回路25によって輝度/色差信号変換を含む画像処理が施された後に、バッファメモリ13へ格納される。そして、その格納された輝度/色差信号の画像データは、圧縮/伸張回路29により所定の形式に従って圧縮処理された後、記録I/F17を介して記録媒体18へ記録される。ここで、静止画の撮影時には、バッファメモリ13の画像データは、例えば、JPEG(Joint Photographic Experts Group)形式等に従って圧縮される。一方、動画の撮影時には、画像データは、例えば、MPEG(Moving Picture Experts Group)形式やモーションJPEG形式等に従って圧縮される。
なお、画像処理回路25での輝度/色差信号変換を含む画像処理及び圧縮/伸張回路29での圧縮処理は、制御回路11の指令に従って行われる。また、圧縮処理後の画像データは、制御回路11により記録I/F17を介して記録媒体18へ記録される。
また、制御回路11は、必要に応じて、バッファメモリ13に格納された画像データを、表示制御回路26を介して表示装置16に表示させる。この表示により、ユーザーは、静止画撮影時には撮影された静止画像の出来映えを、また、動画撮影時には撮影中の動画の内容を確認することができる。
デジタルカメラは、動画撮影中には、所謂「山登り方式」の連続的なAF(コンティニアスAF)動作を行う。つまり、不図示のフォーカシングレンズを光軸に沿って前後方向に微小移動させて、焦点評価値(AF評価値)の増減をチェックしながら、AF評価値が極大となる点まで、徐々にフォーカシングレンズ(不図示)を移動させる。
なお、後述の話し手認識AF機能が有効に設定されている場合には、デジタルカメラは、画像中の話し手となる被写体(特に、その顔の部分)に焦点が合うようにコンティニアスAF動作を行う。
また、動画撮影中には、上記のAE制御が行われる。
また、動画撮影時には、マイク30により音声が検出され、その検出信号(音声信号)が、A/D変換器31によりデジタル信号(音声データ)に変換されて、音声信号処理回路32へ出力される。音声信号処理回路32は、制御回路11の指令に従って、入力の音声データを所定の形式に変換する。
このようにして生成された音声データは、音声信号処理回路32によりバッファメモリ13へ格納される。なお、音声データは、撮影により取得されたバッファメモリ13中の画像データと同期が取られている。そして、その音声データは、バッファメモリ13の画像データと共に圧縮/伸張回路29で圧縮処理された後に、記録I/F17を介して記録媒体18へ記録される。
また、動画撮影中に、もう一度、ユーザーによって動画撮影ボタンが押下されると、デジタルカメラは、動画の撮影動作を停止する。
ところで、本実施形態のデジタルカメラは、動画撮影時に、話し手となる被写体を検出して、その話し手の被写体に合焦させるようにAF動作を行う機能(話し手認識AF機能)を有している。
以下、その機能について、本実施形態のデジタルカメラが行う動作を、図2の流れ図を参照して説明する。図2のフローチャートは、例えば、話し手認識AF機能が有効に設定されている場合に、ユーザーが動画撮影ボタンを押下してデジタルカメラに動画の撮影開始を指示したときに実行されるものである。
ステップ101(S101):制御回路11は、AF回路28を駆動して、上述したAF動作を開始する。このとき、制御回路11は、例えば、デジタルカメラの近くに居る被写体(ここでは、人物)に焦点を合わせるようにAF動作を開始する。
ステップ102:制御回路11は、バッファメモリ13に蓄積された所定時間分の画像データから人物の顔領域を検出する。ここでは、複数の人物の顔領域が検出されてよい。なお、顔領域の検出は、例えば、特開2001−309225号公報や特開2006−155096号公報などで開示されるパターンマッチング手法などの従来技術を利用して行なえる。
そして、制御回路11は、検出した全ての顔領域からそれぞれ口唇領域を検出すると共に、その口唇領域のデータから口唇の動き(口唇動作)の特徴を抽出する。ここでは、検出した全ての口唇領域についてそれぞれ口唇動作の特徴を抽出する。なお、口唇動作の特徴としては、口唇の開き具合(開口量)や口唇の形状などの情報が抽出される。なお、口唇動作の特徴の抽出は、例えば、特開2008−287340号公報などで開示される従来技術を利用して行なえる。
ステップ103:制御回路11は、バッファメモリ13に蓄積された所定時間分の音声データから音声周波数成分のみを抽出する。そして、制御回路11は、抽出した音声周波数成分のデータから音声の特徴を抽出する。なお、音声の特徴としては、発音内容(「あ」、「い」、「う」など)やアクセントなどの情報が抽出される。なお、音声の特徴の抽出は、例えば、特開2002−351490号公報などで開示される従来技術を利用して行なえる。
ステップ104:制御回路11は、画像データから抽出した口唇動作の特徴と音声データから抽出した音声の特徴とに基づき、画像データに写った被写体のうち、どの被写体が話し手であるのかを認識する。即ち、話し手となる被写体を認識する。
具体的には、制御回路11は、抽出した口唇動作の特徴を時系列に解析することにより求められる開口のタイミングと、抽出した音声の特徴を時系列に解析することにより求められるアクセントのタイミングとの一致度をスコア情報として求める。或いは、口唇の開き具合(開口量)や口唇の形状の情報と発音内容の情報とを紐付けしたデータベースを予め用意しておき、画像データから抽出した口唇動作の特徴および音声データから抽出した音声の特徴とデータベースの情報との一致度をスコア情報として求める。
なお、ここでは、検出した全ての被写体(人物)についてそれぞれスコア情報を求める。
そして、制御回路11は、スコア情報の値が所定の閾値を超える被写体(人物)を話し手として認識する。但し、複数の被写体を話し手として認識した場合には、制御回路11は、スコア情報の値が最も高い(大きい)被写体を話し手として認識するようにする。
ステップ105:制御回路11は、話し手となる被写体(人物)を認識できない場合には、現在検出されている被写体よりも遠くに居る、即ち、現在の被写界深度を外れた遠くの位置に居る被写体(人物)に焦点を合わせるようにAF動作を行った後、ステップ102へ移行して上記の処理を繰り返す。
一方、制御回路11は、話し手となる被写体(人物)を認識できた場合には、ステップ106へ移行する。
なお、ここまでのデジタルカメラの動作イメージを図3に示す。
先ず、図3の(1)に示すように、例えば、被写界に、被写体(人物)A、B、Cが存在するものとする。そして、被写体Cは、被写体A、Bの後ろに居て、被写体A、Bが含まれる被写界深度を外れた遠い位置に居るものとする。
このような前提の下、デジタルカメラにより話し手認識の動作が行われると、先ず、図3の(2)に示すように、デジタルカメラの近くに居る被写体(図3の例では、被写体AとB)に焦点を合わせるようにAF動作が開始される。
次に、そのAF動作により、図3の(3)に示すように焦点が合うと、被写体AとBについて顔領域の口唇領域が検出されて、その口唇領域のデータから口唇動作の特徴が抽出される。また、それらの画像データと同期して取得された音声データから音声の特徴が抽出される。
そして、抽出された口唇動作の特徴と音声の特徴とに基づき、図3の(3)の被写体Aが話し手の被写体(人物)として認識される。この場合、被写体Aは、「あ」と発音しており、一方、被写体Bは、何も発音せずに笑っているのである。このため、画像と同期して取得された音声データからは「あ」との発音内容が、そのアクセントの情報とも合わせて音声の特徴として抽出されるので、画像から抽出された口唇動作の特徴とのタイミングを含めた一致度合いから、被写体Aが話し手であると認識される。
このようにして、被写体(人物)Aが話し手として認識されると、その時点で、デジタルカメラは、話し手(被写体A)が含まれる被写界深度を外れた位置に、未だサーチしていない被写体(図3では、被写体C)が存在していても、そのサーチのためのフォーカシングレンズ(不図示)移動などのAF動作を終わらせる。
ステップ106:制御回路11は、認識した話し手に合焦させるべくAF動作を行う。この場合、特に、話し手の顔の部分に合焦させる。
また、制御回路11は、話し手の特に顔の部分が適正露出となるようにAE動作を行う。
また、制御回路11は、所定のフレームレートで記録用の画像が順次取得されるようにTG22を駆動する。
ステップ107:制御回路11は、認識した話し手(特に、その顔の部分)に合焦させ続けるようにコンティニアスAF動作を行いながら、順次取得される画像データ及び音声データを、MPEG形式などに圧縮した後に記録I/F17を介して記録媒体18へ記録する。
また、制御回路11は、必要に応じて、話し手(特に、その顔の部分)が適正露出となるようにAE動作を行う。
また、制御回路11は、必要に応じて、順次取得される画像データを、表示制御回路26を介して表示装置16に表示させる。このとき、制御回路11は、画像データ中の話し手の特に顔の部分に、認識したことを示す情報(例えば、検出枠など)を重畳させて表示させる。
なお、話し手の位置が急に変化するなどして話し手に合焦させることができなくなった場合には、制御回路11は、バッファメモリ13に蓄積された所定時間分の記録用の画像データ及び音声データに基づき、上記の話し手認識の処理を再度実行して、見失った話し手を画像中から見つけ出す。但し、これは、話し手の人物が変わらないことが前提である。
ステップ108:制御回路11は、ユーザーにより、もう一度、動画撮影ボタンが押下されたか、即ち、動画の撮影終了が指示されたか否かを判定する。
制御回路11は、動画の撮影終了が指示された場合にはステップ109へ移行し、一方、撮影終了が指示されていない場合には、ステップ107へ移行する。
ステップ109:制御回路11は、動画の撮影動作を停止する(動画撮影終了)。
(実施形態の補足事項)
なお、上記では、デジタルカメラが、認識した話し手(特に、その顔の部分)に合焦させるようにAF動作を行い、また、話し手(特に、その顔の部分)が適正露出となるようにAE動作を行うことを説明した。しかし、それだけでなく、認識した話し手(特に、その顔の部分)を動画撮影中の画角から外れない範囲でズームアップ(拡大)するようにしてもよい。なお、話し手(特に、その顔の部分)のズームアップは、光学系のズーム調節により行ってもよいし、画像処理(解像度変換)による電子ズームにより行っても良い。
また、上記では、デジタルカメラに近い側から遠い側に向けて話し手となる被写体(人物)をサーチするようにAF動作を行うことを説明した。しかし、そのサーチの方向はこれに限定されず、デジタルカメラに遠い側から近い側に向けて話し手となる被写体(人物)をサーチするようにしてもよい。
また、上記では、話し手となる人物(図3の例では、被写体A)が認識された時点で、その話し手が含まれる被写界深度を外れた位置に未だサーチしていない人物(図3の例では、被写体C)が存在していても、そのサーチのためのフォーカシングレンズ(不図示)移動などのAF動作を終わらせるようにした。しかし、被写界中の撮影される人物(図3の例では、被写体A〜C)を全てサーチして、上述した話し手認識の処理を実行するようにしてもよい。但し、そうした場合、話し手認識の処理により、複数の被写体(人物)が話し手として認識された場合には、そのうちのスコア情報の値が最も高い(大きい)被写体を話し手として認識するようにする。
また、上記では、動画撮影時に取得される画像データ中の複数の被写体(人物)から話し手となる人物を認識した。しかし、話し手となる人物を認識し、さらに、その人物が特定の人物であるかを認証して、認証OKの場合、即ち、特定の人物である場合に、その人物(特に、その顔の部分)に対して、AF制御、AE制御、またズームアップを行うようにしてもよい。なお、人物(被写体)の認証は、例えば、検出した被写体の顔領域のデータとデジタルカメラに予め登録されている顔のデータとが一致するか、或いは、一致すると見做せるかを調べることなどによって被写体の認証(顔認証)を行う。この顔認証には、例えば、特開2006−155096号公報などで開示される従来技術を利用することができる。また、顔認証の際には、音声データの特性から話者を識別し、その識別情報に基づき顔認証に使用する顔のデータを絞り込むようにしてもよい。なお、話者の識別には、例えば、特開平7−271392号公報や特開平9−198086号公報などで開示される従来技術を利用することができる。
また、上記では、AF制御にコントラストAFを適用した場合を説明した。しかし、AF制御には、コントラストAFに加えて、位相差AFを適用するようにしてもよい。そうした場合、位相差AFにより、一旦、被写体(人物)を検出し、その検出した全ての被写体(人物)に対して、上記のコントラストAFによる話し手認識の処理を行うようにする。そうすれば、コントラストAFのみの場合よりも話し手の認識を早く行なえるようになる。
また、上記では説明しなかったが、デジタルカメラのマイク30にステレオマイクを用いるようにしてもよい。その場合には、ステレオマイクから出力される音声信号に基づき被写体の声の方向を推定するようにし、そして、画像データ中におけるその方向の被写体に対して、優先的に、上述した話し手認識の処理を実行するとよい。そうすれば、声の方向を推定しない場合よりも話し手の認識を早く行なえるようになる。
また、上記では、デジタルカメラが、動画撮影時に、話し手の認識を行うことを説明した。しかし、ライブビュー中にも、話し手の認識を行うようにしてもよい。そうした場合には、ライブビューの動作中に、マイク30、A/D変換器31、音声信号処理回路32を駆動して音声データを取得するようにし、画像データとその音声データとに基づいて話し手認識の処理を行うようにする。また、そうした場合には、表示装置16に表示される映像中の話し手の特に顔の部分に、認識したことを示す情報(例えば、検出枠など)を重畳するようにしてもよい。
また、上記では、制御回路11が話し手認識の処理を実行するようにしたが、この形態に限定されず、専用の回路を別に設けて、その回路が、制御回路11の指令に従って話し手認識の処理を行うようにしてもよい。また、その場合、処理速度の観点から、専用の回路では、上記ステップ102での口唇動作の特徴を抽出する処理と、上記ステップ103での音声の特徴を抽出する処理とを並行して実行するようにしてもよい。
(実施形態の作用効果)
以上、本実施形態のデジタルカメラでは、動画撮影時に、連続的に取得され、バッファメモリ13に蓄積された所定時間分の画像データから、被写体(人物)の顔領域中の口唇領域が検出されると共に、その口唇領域のデータから口唇の動き(口唇動作)の特徴が抽出される。
また、その画像データと同期して取得され、バッファメモリ13に蓄積された所定時間分の音声データから音声の特徴が抽出される。
そして、抽出された口唇動作の特徴と音声の特徴とに基づき、画像データに写った複数の人物から話し手となる人物が認識される。具体的には、口唇動作の特徴と音声の特徴とに基づきスコア情報を求め、画像データに写った複数の人物のうち、そのスコア情報の値が最も高い人物が話し手となる人物として認識される。
なお、話し手の認識に用いるスコア情報であるが、本実施形態のデジタルカメラでは、口唇動作の特徴から求めた開口のタイミングと、音声の特徴から求めたアクセントのタイミングとの一致度をスコア情報として用いている。しかし、口唇の開き具合(開口量)や口唇の形状の情報と発音内容の情報とを紐付けしたデータベースを予め用意しておき、口唇動作の特徴および音声の特徴とデータベースの情報との一致度をスコア情報として用いてもよい。
したがって、本実施形態のデジタルカメラによれば、動画撮影時に、話し手となる人物(被写体)の認識を高精度に行うことができる。
また、本実施形態のデジタルカメラでは、動画撮影時に、連続的に取得される画像から話し手となる人物(被写体)を認識した場合には、その話し手となる人物が良好に撮影され続けるように、AF制御やAE制御などが行われる。
したがって、本実施形態のデジタルカメラによれば、複数の人物を被写体とした動画撮影時に、複数の人物のうち、話し手となる人物(被写体)のピントや明るさが最も良好な動画を撮影することできる。
一般に、デジタルビデオカメラでは、被写界深度が深いため、ピントが多少ズレたとしても撮影された動画像にはその影響があまり出ないが、デジタルスチルカメラで動画を撮影する場合には、被写界深度が浅いために、ピントのズレにより撮影された動画像に与える影響が大きい。しかし、本実施形態のデジタルカメラ(デジタルスチルカメラ)によれば、動画撮影時に、話し手として認識された人物(被写体)のピントが良好に保たれるので、そのような問題は生じない。
また、本実施形態のデジタルカメラでは、動画撮影時に、連続的に取得される画像から話し手となる人物(被写体)を認識した場合には、その時点で、話し手が含まれる被写界深度を外れた位置に未だサーチしていない人物が存在していても、そのサーチのためのフォーカシングレンズ(不図示)移動などのAF動作を終わらせて、認識した話し手の人物に合焦させる。
したがって、本実施形態のデジタルカメラによれば、動画撮影時に、話し手の人物(被写体)に対する合焦動作を短時間で行うことができる。
(その他)
なお、上述したデジタルカメラの動作に係るプログラムのうち、特に、ステップ102〜ステップ104の処理については、コンピュータなどの外部処理装置に実行させてもよい。その場合、必要なプログラムがCD−ROM等のコンピュータ読み取り可能な記憶媒体やインターネット等の通信網などを介して外部処理装置へインストールされる。
また、上記ではデジタルカメラの実施例を説明したが、本発明は、動画撮影が可能な、或いはライブビュー機能を有した他の機器、例えば、携帯電話機やデジタルビデオカメラなどにも適用することができる。さらに、本発明は、焦点調節用の撮像素子を備えた電子双眼鏡などにも適用することができる。
11…制御回路,12…ROM,13…バッファメモリ,14…バス,15…操作部材,16…表示装置,17…記録インターフェース(I/F),18…記録媒体,19…CCD固体撮像素子(CCD),20…レンズユニット,21…レンズ駆動回路,22…タイミングジェネレータ(TG),23…信号処理回路,24…画像入力回路,25…画像処理回路,26…表示制御回路,27…AE/AWB回路,28…AF回路,29…圧縮/伸張回路,30…マイク,31…A/D変換器,32…音声信号処理回路

Claims (10)

  1. 連続的に取得される画像から人物の顔領域中の口唇領域を検出すると共に、前記口唇領域のデータから口唇動作の特徴を抽出する画像解析手段と、
    前記画像と同期して取得される音声データから音声の特徴を抽出する音声解析手段と、
    前記画像解析手段により抽出された口唇動作の特徴と、前記音声解析手段により抽出された音声の特徴とに基づき、前記画像に写る複数の人物から話し手となる人物を認識する話し手認識手段と
    を備えることを特徴とする撮像装置。
  2. 請求項1に記載の撮像装置において、
    前記話し手認識手段は、前記口唇動作の特徴と前記音声の特徴とに基づきスコア情報を求め、前記複数の人物のうち前記スコア情報の値が最も高い人物を話し手となる人物として認識する
    ことを特徴とする撮像装置。
  3. 請求項2に記載の撮像装置において、
    前記話し手認識手段は、前記口唇動作の特徴から求めた開口のタイミングと、前記音声の特徴から求めたアクセントのタイミングとの一致度を、前記スコア情報として求める
    ことを特徴とする撮像装置。
  4. 請求項1ないし請求項3の何れか一項に記載の撮像装置において、
    前記話し手認識手段が認識した話し手となる人物に合焦させるように光学系の焦点調節を行う制御手段を更に備える
    ことを特徴とする撮像装置。
  5. 請求項1ないし請求項4の何れか一項に記載の撮像装置において、
    前記制御手段は、前記話し手認識手段が認識した話し手となる人物が適正露出となるように露出条件を決定する
    ことを特徴とする撮像装置。
  6. 請求項1ないし請求項5の何れか一項に記載の撮像装置において、
    前記制御手段は、前記話し手認識手段が認識した話し手となる人物の像を拡大させるようにズーム調節を行う
    ことを特徴とする撮像装置。
  7. 請求項1ないし請求項6の何れか一項に記載の撮像装置において、
    前記画像を表示する表示手段を有し、
    前記制御手段は、前記画像に写る前記話し手認識手段が認識した話し手となる人物の顔の部分に、話し手であることを示す情報を重畳させると共に、その重畳後の画像を前記表示手段に表示させる
    ことを特徴とする撮像装置。
  8. 連続的に取得される画像から人物の顔領域中の口唇領域を検出すると共に、前記口唇領域のデータから口唇動作の特徴を抽出する画像解析手順と、
    前記画像と同期して取得される音声データから音声の特徴を抽出する音声解析手順と、
    前記画像解析手順により抽出された口唇動作の特徴と、前記音声解析手順により抽出された音声の特徴とに基づき、前記画像に写る複数の人物から話し手となる人物を認識する話し手認識手順と
    を備えることを特徴とする話し手認識方法。
  9. 請求項8に記載の話し手認識方法において、
    前記話し手認識手順は、前記口唇動作の特徴と前記音声の特徴とに基づきスコア情報を求め、前記複数の人物のうち前記スコア情報の値が最も高い人物を話し手となる人物として認識する
    ことを特徴とする話し手認識方法。
  10. 請求項9に記載の話し手認識方法において、
    前記話し手認識手順は、前記口唇動作の特徴から求めた開口のタイミングと、前記音声の特徴から求めたアクセントのタイミングとの一致度を、前記スコア情報として求める
    ことを特徴とする話し手認識方法。
JP2009032303A 2009-02-16 2009-02-16 撮像装置および話し手認識方法 Pending JP2010192956A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009032303A JP2010192956A (ja) 2009-02-16 2009-02-16 撮像装置および話し手認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009032303A JP2010192956A (ja) 2009-02-16 2009-02-16 撮像装置および話し手認識方法

Publications (1)

Publication Number Publication Date
JP2010192956A true JP2010192956A (ja) 2010-09-02

Family

ID=42818567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009032303A Pending JP2010192956A (ja) 2009-02-16 2009-02-16 撮像装置および話し手認識方法

Country Status (1)

Country Link
JP (1) JP2010192956A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013007851A (ja) * 2011-06-23 2013-01-10 Nikon Corp 撮像装置
JP2013172411A (ja) * 2012-02-22 2013-09-02 Nec Corp 音声認識システム、音声認識方法および音声認識プログラム
KR20150028589A (ko) * 2013-09-06 2015-03-16 에스케이텔레콤 주식회사 객체 정보 제공 장치 및 방법
US10264210B2 (en) 2015-08-03 2019-04-16 Ricoh Company, Ltd. Video processing apparatus, method, and system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004056286A (ja) * 2002-07-17 2004-02-19 Fuji Photo Film Co Ltd 画像表示方法
JP2007266793A (ja) * 2006-03-28 2007-10-11 Casio Comput Co Ltd 画像加工装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004056286A (ja) * 2002-07-17 2004-02-19 Fuji Photo Film Co Ltd 画像表示方法
JP2007266793A (ja) * 2006-03-28 2007-10-11 Casio Comput Co Ltd 画像加工装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013007851A (ja) * 2011-06-23 2013-01-10 Nikon Corp 撮像装置
JP2013172411A (ja) * 2012-02-22 2013-09-02 Nec Corp 音声認識システム、音声認識方法および音声認識プログラム
KR20150028589A (ko) * 2013-09-06 2015-03-16 에스케이텔레콤 주식회사 객체 정보 제공 장치 및 방법
KR102097781B1 (ko) * 2013-09-06 2020-05-29 에스케이 텔레콤주식회사 객체 정보 제공 장치 및 방법
US10264210B2 (en) 2015-08-03 2019-04-16 Ricoh Company, Ltd. Video processing apparatus, method, and system

Similar Documents

Publication Publication Date Title
US7916182B2 (en) Imaging device and method which performs face recognition during a timer delay
KR100821801B1 (ko) 촬상장치 및 오토포커스 제어방법
US8000558B2 (en) Thumbnail generating apparatus and image shooting apparatus
JP4980982B2 (ja) 撮像装置、撮像方法、合焦制御方法及びプログラム
US20130016245A1 (en) Imaging apparatus
JP4637045B2 (ja) 撮像装置
JP4824586B2 (ja) 撮像装置
KR101710626B1 (ko) 디지털 촬영 장치 및 이의 제어 방법
JP2009065577A (ja) 撮像装置および撮像方法
KR101728042B1 (ko) 디지털 촬영 장치 및 이의 제어 방법
US9277134B2 (en) Image pickup apparatus and image pickup method
JP2008139683A (ja) 撮像装置及びオートフォーカス制御方法
JP4586707B2 (ja) 画像処理装置、電子カメラおよび画像処理プログラム
KR101665175B1 (ko) 화상 취득 장치, 화상 취득 방법 및 기록매체
KR20120080376A (ko) 디지털 영상 촬영 장치 및 이의 제어 방법
JP2010192956A (ja) 撮像装置および話し手認識方法
JP4998122B2 (ja) 撮像装置及びそのプログラム
JP2010050784A (ja) デジタルカメラ
JP2011107550A (ja) 撮像装置
JP2008205953A (ja) 撮像装置、及び画像再生装置
JP4871664B2 (ja) 撮像装置及び撮像装置の制御方法
JP2011119934A (ja) 画像撮影装置及び画像撮影方法
JP2008172395A (ja) 撮像装置、画像処理装置、方法およびプログラム
JP2002277730A (ja) 電子カメラの自動焦点制御方法、装置及びプログラム
JP2009077066A (ja) 撮像装置の画像取り込み方法とその方法を用いる撮像装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130409

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130521

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130611