JP4669150B2

JP4669150B2 - 主被写体推定装置及び主被写体推定方法

Info

Publication number: JP4669150B2
Application number: JP2001110530A
Authority: JP
Inventors: 優和真継
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-04-09
Filing date: 2001-04-09
Publication date: 2011-04-13
Anticipated expiration: 2021-04-09
Also published as: JP2002312796A

Description

【０００１】
【発明の属する技術分野】
本発明は、画像信号（視覚情報）と音声などの二次感覚情報に基づき、被写体の注視又は追尾を自動的に行う主被写体推定装置及び主被写体推定方法に関する。
【０００２】
【従来の技術】
従来画像情報（特定色）のみから対象を検出し、追尾動作を行うものと、音声も検出して追尾動作を実現するものなど、様々な追尾装置が提案されている。
【０００３】
【発明が解決しようとする課題】
しかしながら、上記従来例では、次のような問題点があった。
【０００４】
（１）上記従来例のうち音声と画像の情報を用いるものは、音源定位を行って得られる音源の方向又は位置に存在する被写体の追尾を行う方法か、或いは画像内に存在する音源位置（又は方向）を推定して同様の追尾制御を行う方法のいずれかを用いるにすぎなかった。
【０００５】
このため、主被写体の位置又は方向の判定（例えば、人物の音声か、或いは予め登録してある人物の画像が存在するか、などの判定）の信頼度の高い推定結果を得ることができない場合があり、適切な追尾動作が実行されないことがあった。
【０００６】
特開２０００−１４８１８４号公報に係る音声認識装置では、画像解析により、主被写体（話者）が判定できることを前提としているが、画像情報から推定する主被写体の位置の信頼性と音声情報の信頼性をいずれも考慮していなかった。
【０００７】
（２）主被写体に最適な撮像条件の設定を行いながら、追尾又は注視の安定制御を行うことが困難な場合があった。例えば、画面内で複数の人物が同時に発話した場合に、いずれか一方に照準を合わせようと不安定な振動を伴う光軸制御を行ったりすることがあった。
【０００８】
（３）音の情報だけからは、主被写体の方向を推定することが困難な場合（被写体の発する音の振幅が他の音と比べて相対的に微弱な場合、雑音が多い場合など）とそうでない場合とを自動的に区別することのできる判定手段を備えていないために、注視又は追尾すべき主被写体を見失う場合があった。
【０００９】
なお、本願明細書における注視とは、追尾のように光軸方向制御を行う場合を含むが、主として注視すべき対象の画面内領域を検出して、その領域の画像データを中心として処理（当該領域の画像が適正なピント、露出等で得られるような撮像パラメータの制御、或いは当該領域に関する高精細化処理、認識処理、特徴抽出処理など）することを意味する。一方、追尾とは、その対象が画面内の所定位置（中心位置）になるように常に光軸方向の制御をすることを意味する。
【００１０】
（４）主被写体が視野内に写っているにもかかわらず、音源定位により推定された方向に常時、不必要な光軸制御を行う結果、入力画像としての安定性に欠けることがあった。また、テレビ会議に適用した場合、人物以外の物が発した音の音源方向にカメラの光軸方向を制御することがあった。
【００１１】
（５）ユーザが意図する主被写体が他の被写体と比べて、音声信号上の特徴或いは画像信号上の特徴（動きベクトル、形状、色など）において、必ずしも顕著な差があるとは限らない場合があるが、そのような場合でも自動的にユーザの意図を抽出し得る手段を備えた撮像装置は存在しなかった。
【００１２】
本発明は上記従来の問題点に鑑み、（１）主被写体の位置又は方向に関する信頼度の高い推定を行い、注視（追尾）すべき主被写体を見失うことなく適正に検出し続けることができ、（２）主被写体に最適な撮像条件の設定を行いながら、追尾又は注視の安定制御を行うことができ、（３）不必要な光軸制御を行うのを防ぎ、入力画像の安定性を確保することができる主被写体推定装置及び主被写体推定方法を提供することを目的とする。
【００１３】
【課題を解決するための手段】
上記目的を達成するために、本発明の主被写体推定装置は、画像情報を入力する第一のセンサと、視覚情報以外の感覚情報である二次感覚情報を入力する少なくとも１種類以上の二次センサと、前記第一のセンサから入力された画像情報を処理して予め登録された特定人物から主被写体の特定人物を検出し、前記検出した特定人物の位置と前記検出の結果の信頼度とを出力する画像情報処理手段と、前記二次センサから入力された二次感覚情報を処理して予め登録された特定人物から主被写体の特定人物を検出し、前記検出した特定人物の位置と前記検出の結果の信頼度とを出力する二次感覚情報処理手段と、前記画像情報処理手段により検出された主被写体の特定人物と前記二次感覚情報処理手段により検出された特定人物とが一致しているか否かを判定する判定手段と、前記判定手段により特定人物が一致していると判定された場合は、前記画像情報処理手段により検出された特定人物の位置と前記検出の結果の信頼度、及び前記二次感覚情報処理手段により検出された特定人物の位置と前記検出の結果の信頼度に基づいて、前記一致する特定人物の位置を推定する推定手段と、を備えることを特徴とする。
本発明の主被写体推定方法は、画像情報を入力する第一のセンサから入力された画像情報を処理して予め登録された特定人物から主被写体の特定人物を検出し、前記検出した特定人物の位置と前記検出の結果の信頼度とを出力する画像情報処理ステップと、視覚情報以外の感覚情報である二次感覚情報を入力する少なくとも１種類以上の二次センサから入力された二次感覚情報を処理して予め登録された特定人物から主被写体の特定人物を検出し、前記検出した特定人物の位置と前記検出の結果の信頼度とを出力する二次感覚情報処理ステップと、前記画像情報処理ステップにより検出された主被写体の特定人物と前記二次感覚情報処理ステップにより検出された特定人物が一致しているか否かを判定する判定ステップと、前記判定ステップにより特定人物が一致していると判定された場合は、前記画像情報処理ステップにより検出された特定人物の位置と前記検出の結果の信頼度、及び前記二次感覚情報処理ステップにより検出された特定人物の位置と前記検出の結果の信頼度に基づいて前記一致する特定人物の位置を推定する推定ステップと、を備えることを特徴とする。
【００２８】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
【００２９】
［第１実施形態］
＜撮像装置の要部構成図＞
図１は、本発明の第１実施形態に係る撮像装置の要部構成図である。
【００３０】
同図に示すように、この撮像装置は、結像光学系１、センサ信号処理回路を含む映像センサ２、画像処理部３、マイクロフォン４、音声処理部５、主被写体方向等推定部６、これらの動作を司る制御部７、及び光軸方向制御部１０光軸方向制御部１０などから構成される。
【００３１】
結像光学系１は、画像入力のためのレンズと、そのレンズのピント制御のためのレンズモータ駆動手段等から構成され、光軸方向制御部１０光軸方向制御部１０は、所定の軸周りのセンサを含む光学系の回動部から構成されている。これらは、制御部７からの制御信号により駆動する。
【００３２】
前記回動部としては、典型的には、回転雲台、モータ及びモータドライバなどから構成されるが、左右方向のみならず、上下方向、センサ面内の回転等を含めた回動を可能とするような機構を備えたものであっても良い。
【００３３】
映像センサ２は、典型的にはＣＭＯＳイメージセンサなどを用い、センサ駆動回路（不図示）からの読み出し制御信号により所定の映像信号が出力される。映像センサ２に含まれるセンサ信号処理回路は、露光量制御パラメータ、及びホワイトバランス制御パラメータを有する他、これ以外の撮像パラメータ制御用信号処理回路（不図示）を含む。
【００３４】
画像処理部３は、所定のカテゴリの被写体認識（検出）用の回路であり、入力された画像データ中から予め登録されたカテゴリの被写体を検出する。カテゴリの種類としては、例えば人物、車などのような大分類から、人物の中での老若男女に類する中程度のクラス、さらに名称を与えられた特定人物レベルまでの細分化したクラスまであるものとする。ここでは、与えられたクラスのカテゴリに対応したモデルデータが画像処理部３内のモデルデータ記憶部３１に格納されている。画像処理部３の構成及び処理については後で説明する。
【００３５】
マイクロフォン４ａ〜４ｄは、撮像装置上の複数の所定位置に配置され、音声処理部５は、音源定位回路５１及び音声認識回路５２などから構成される。このマイクロフォン４ａ〜４ｄは、画像（視覚）情報以外の感覚情報をセンシングする二次センサとしての役割を担うものであり、音声処理部５は、その二次センサに付随する二次感覚情報処理手段としての性格を有する。
【００３６】
音源定位回路５１は、複数のマイクロフォン４ａ〜４ｄからの音声信号を処理して、音源の位置を推定する回路で、例えば、マイクロフォン４ａ〜４ｄの出力信号の位相関係や相互相関関数の最大値を与える時間差を求め、音源方向及び音源までの距離を計測するものである。
【００３７】
本実施形態では、少なくとも４つのマイクロフォン４ａ〜４ｄを配し、音源定位では、そのうちの２つないし３つの一定の指向性を有するマイクロフォンを用いて所定範囲の方向についての音源定位を行う。ここに、各マイクロフォン４ａ〜４ｄは、一定の指向性を有するものとする。
【００３８】
音声認識回路５２は、通常の音声認識の他に人物の音声か否かなどのカテゴリ判定や特定人物の音声か否かの検出をも行う。さらに、前処理として音声特徴ベクトルなどの特徴量の抽出も行う。
【００３９】
また、音声認識回路５２からの出力には、特定されたカテゴリの検出信頼度に相当する信号も出力される。特定カテゴリの音声情報は、予め音声情報記憶手段にモデル音声データ（予め登録された参照音声の辞書データ）として記憶され、特定カテゴリに関する検出信頼度（或いは確信度）は、このモデル音声データとのマッチング処理の結果として求められる。
【００４０】
音声認識に適した手法としては、ＤＴＷ（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ）法、統計的確率モデルＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）法、動的計画法、即ちＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）法、その他固定次元の音声特徴ベクトルを基本とする符号類似度法、部分空間法、ＬＶＱ法（ＬｅａｒｎｉｎｇＶｅｃｔｏｒＱｕａｎｔｉｚａｔｉｏｎ法）などがある。例えば、ＤＰ法やＨＭＭ法を用いた場合には、音声に関する上述した信頼度は、参照音声パターンと入力音声パターンとの距離と予め設定された閾値との比により求められる。なお、信頼度としては他の方法により定義された指標を用いても良いことは言うでもない。
【００４１】
主被写体方向等推定部６は、主被写体の方向又は位置を推定する手段であり、その処理の詳細については後述する。
【００４２】
＜画像処理部３の詳細＞
次に、図２を参照して画像処理部３の内部構成について説明する。
【００４３】
この画像処理部３は、入力画像データ中の各場所（サンプリング点）において、幾何学的特徴やその他の特徴（例えば、色、動きベクトル情報など）を抽出することにより、所定のカテゴリの被写体認識（検出）を行う。画像処理部３からは認識結果として、検出された対象のカテゴリとその入力画像データ上での位置が出力される。
【００４４】
画像処理部３は、複数の検出すべき被写体のカテゴリの画像情報を予めモデルデータとして記憶するモデルデータ記憶部３１と、所定サンプリング点位置で上述した特徴量の抽出を行う特徴抽出部３２と、抽出された特徴量に基づき入力画像データとモデルデータとのマッチング処理（類似度算出）を行うマッチング処理部３３とを主たる構成要素として有する。
【００４５】
マッチング処理部３３で行う処理としては、例えば、被写体距離に応じたサイズのテンプレートモデル画像を生成し、これを用いて画面内を走査しながら、各場所で正規化相関係数などを計算することにより入力画像の局所部分とモデルデータとの類似度分布を算出する周知の方法がある。一般的にはその類似度分布の最大値が所定の閾値を越えていれば、そのカテゴリに属するパターンが検出されたことになる。
【００４６】
そして、主被写体として検出された被写体の検出信頼度（或いは確信度）とその画面内での位置情報がマッチング処理部３３から出力されるか、或いは、主被写体が画面内で検出されなかった場合には、主被写体の未検出信号が所定の形式で出力される。
【００４７】
なお、本実施の形態において、処理時間短縮のために予め時系列入力画像データから公知の方法による一次特徴量（動きベクトル、色情報などの低次特徴量）抽出を行っておき、主被写体が存在する可能性の高い候補領域を抽出して探索範囲の絞り込みを行っておいても良い。例えば、色情報抽出により、予め登録してあるモデル画像データの要部の色彩（例えば、人物の肌色など）に近い色彩を有する画像領域を閾値処理により抽出しても良いし、或いは（さらに、それらの画像領域の中で）、一定サイズ以上のまとまった動きベクトル量を有する領域を被写体候補領域として抽出する。その後、候補領域内の各サンプリング点についてのみ上述した類似度算出を行う方法がある。
【００４８】
また、本実施の形態の撮像装置は、所定位置に設置されているものとする。仮に手持ち撮影を行う場合には、撮像装置そのものの動きに伴うグローバルな動きベクトル量（Ｅｇｏ-ｍｏｔｉｏｎベクトル）を抽出して、それを全体の動きベクトル分布から減殺した後に動きベクトル量に基づく領域分割を行って候補領域を求めれば良い。
【００４９】
前処理用に抽出する一次特徴量としては、このような色彩情報や動きベクトル情報から得られる特徴量に限定される必要はなく、他の低次の特徴量（例えば、特定範囲の方向成分と特定範囲の空間周波数を有するような幾何学的特徴、或いは局所的特徴要素など）用いても良いことは言うまでもない。また、算出された最大類似度に対する閾値の比を信頼度として用いるが、他の方法により定義される指標（例えば、所定時間幅で算出した最大類似度の分散値など）を信頼度として用いても良い。なお、以上に示した前処理は、後で説明する図３のステップＳ６で行う処理にほかならない。
【００５０】
一方、上述した被写体距離としては、入力画像データ中の局所的な合焦レベル信号と他の撮像条件（焦点距離、倍率など）から推定するか、或いは、所定の距離計測手段（複眼撮像系、レーザ測距手段など）を用いて算出すれば良い。所定カテゴリに属する主被写体画像の位置、領域の検出には、類似度と所定の閾値との比較により、類似度が閾値以上となったときに検出されたと判定するような処理方法などが用いられる。
【００５１】
なお、マッチング処理部３３としては他の周知の処理方法を用いても良い。
＜主被写体の方向又は位置の推定処理＞
次に、主被写体方向等推定部６での処理について図３のフローチャートを参照して説明する。ここでは、音声情報に基づいて得られる音源位置又は方向に関する推定値の信頼度と、入力画像情報に基づいて得られる主被写体位置又は方向に関する信頼度の双方の結果を統合することにより、主被写体の位置又は方向の推定を行う。
【００５２】
先ず、ステップＳ１で信頼度の値を画像処理系統（画像処理部３）と音声処理系統（音声処理部５）との２つの処理系統から入力する。続いてステップＳ２において信頼度の値がいずれも所定の基準値より大であるか否かを判定し、信頼度の値がいずれも所定の基準値より大である場合は、入力画像内に少なくとも主被写体が存在することが判定されたことになるので、次にステップＳ３において画像情報から推定された主被写体の方向又は位置と音声情報に基づいて推定された主被写体の方向又は位置とが矛盾するか否かを判定する。
【００５３】
ここでは、画像処理系統により推定される主被写体のカテゴリと音声処理系統から推定される主被写体のカテゴリとが一致するか否かを判定し、さらに両系統により推定された主被写体の方向が画面内の視野角の範囲を基準として著しく隔たっていないか否かを判定する。そして夫々の判定結果が一致（主被写体のカテゴリが一致し、かつ方向が視野角の例えば３分の１以下の分解能で一致）していれば矛盾なしと判定する。
【００５４】
矛盾有りと判定される場合（例えば前者のカテゴリが一致し、後者の方向の相違が基準値以上となる場合）は、一般的には、音声処理系統において推定された方向の信頼度が低いか、画像処理系統において推定された方向の信頼度が低い場合、或いはそれら両方のいずれかの場合に上述したような矛盾が生じると考えられる。ステップＳ５において、しかしながらここでは、信頼度が共に基準値より大である場合に限られるので、被写体の推定の信頼度を向上させる処理を行う。例えば、音声処理部５において、文脈に依存した処理やその他高次の推論処理をおこなう。また、画像処理部においても更なる高度の被写体の推定の判定を行う。これら高度の推定によって得られた音声認識処理結果と画像認識処理結果に基づいて、主被写体の確度を判定することにより主被写体の方向を推定することにする（ステップＳ５）。この処理ステップＳ５の内容は後述する。
【００５５】
次に各系統の被写体の推定方向の信頼度のうち、一方の値だけが基準値より小さい場合には、基準値を越えた方の系統の被写体の推定方向のみを主被写体の存在方向とする（ステップＳ７）。例えば、音声処理系統からの推定方向の信頼度が所定の基準値より低い場合、典型的には撮像装置から画面内に存在する複数の人物までの距離がとマイクロフォンからの距離と比べて十分に大きい場合には、音声処理系統からの推定方向の信頼度が低くなると考えられる。このような状態を自動的に検出するには、例えば撮像装置に搭載されるＡＦ用センサからの合焦度信号と倍率に基づいて推定される被写体距離（マイクロフォン間距離を基準とする）から予め信頼度係数値を求めておき、それを参照テーブルとして記憶するＲＯＭなどのメモリから当該係数値データを読み出せば良い。
【００５６】
次に、両方とも信頼度が低い場合（例えば、主被写体が動作、発話などを殆ど停止した場合、或いは予め登録されてあるカテゴリの被写体の検出ができていない場合など）の処理（ステップＳ６）、及び撮像条件の制御について説明する。この場合、ステップＳ６において、画像処理系統の前処理（前述）で抽出する特徴量、即ち一次特徴量（動きベクトル、色情報など）の変化量の分布を抽出し、その変化量分布の領域分割などを行うことにより、最も顕著に変化した領域の存在する位置を主被写体の位置（方向）として推定する。なお、画像処理系統において予め登録されてあるカテゴリを連続的に検出できている場合には、信頼度の値が両方とも低くても制御部７は、同一の撮像条件（光軸方向、倍率、ピント、露光条件など）を維持するものとする。
【００５７】
ステップＳ３において矛盾なしと判定された場合には、次に主被写体の存在方向の推定を各処理系統からの出力値の信頼度に基づき次のように行う（ステップＳ４）。
【００５８】
音源定位により推定された主被写体の方向Ｄｓを画像内の位置Ｒ_Sにより表し、画像処理により推定された主被写体の方向を画像内の位置Ｒ_Iにより表す。また、それぞれの推定値の信頼度をＣ_S、Ｃ_Iにより表す。このとき、２つの推定方向Ｒ_S，Ｒ_Iを次のようにして合成することにより主被写体の推定方向Ｒを得る。
【００５９】
Ｒ＝（μＣ_SＲ_S＋Ｃ_IＲ_I）／（μＣ_S＋Ｃ_I）
ここにμは、１より小さい正の係数で、音源定位により推定された被写体方向の不確定さ（予め算出した値又は画像情報処理系統により得られた推定方向の信頼度に基づき算出した）を表す。
【００６０】
なお、上述したような異なる種類の信号の統合による主被写体の推定方向の算出方法としてその他の方法を用いても良い。
【００６１】
次に、ステップＳ３で矛盾有りと判定された後のステップＳ５での処理について説明する。ここでは上記２つの推定方向Ｒ_S，Ｒ_Iからの合成を行わず、以下に示すような音声カテゴリ認識結果を用いた画像処理、或いは口唇を検出してその動き検出の有無を判定する公知の方法により発話者を同定するなどの処理を用いて主被写体の存在方向の推定を行う。
【００６２】
具体的に例示するために複数の人物が画面内に存在する場合について音声認識結果を用いる処理について説明する。この場合、前提条件として、予め各人物の画像に関する特徴データが抽出されてモデルデータとして登録されている一方、各人物の名称とその発する音声の特徴辞書が与えられているものとする。
【００６３】
例えば、テレビ会議などで予め参加する人物の顔画像の特徴量データと音声の特徴量データ、及び名称がそれぞれ与えられており、また、モデルデータの特徴量分布と入力画像の特徴量分布との類似度算出を行うような画像認識処理により、画面内の各人物の位置及び名称が予め同定されているものとする。
【００６４】
ここでは、入力された音声の特徴量抽出と特徴辞書データとの照合処理などを行う音声カテゴリ認識処理により発話者の同定（要するに主被写体の名称の特定）を行い、その特定された人物の存在する画像面内の方向（上述したように予め人物ごとの方向が検出されている）に光軸方向の制御を行う。この音声カテゴリ認識処理とは、発話の内容を認識するための処理というよりはむしろ、発話者を同定することを主目的とし、さらに発話者同定後に主被写体を選定するために必要があればいわゆる音源分離及び音声認識も行うものである。
【００６５】
例えば、スペクトログラム、周波数分析により得られる音声特徴ベクトル列などから有声音か否か、及び有声音であれば発話者の同定（分類）を行い、さらに必要であればＤＴＷなどの手法により音声認識を行う。この処理の結果、非有声音（非意図的発声）が検出された場合は、仮に特定話者の音声であってもその方向が画面内になければ、主被写体候補とは判定しない。また、有声音であって、予め登録された話者の音声が検出された場合には、非有声音であっても、主被写体候補と判定する。
【００６６】
なお、複数の話者が異なる方向から同時に発話するような場合には、音源分離及び音声認識処理により、それぞれの音声特徴量（或いは、特徴ベクトル）に関する連続性が保持されるような話者を主被写体と判定する。
【００６７】
また、同じ画面内の近接した位置に人物が存在しているために、光軸方向の制御量（光軸方向の変化量）が所定の基準値（例えば、画面サイズ相当の角度幅の２０％など）より小さい場合には、画像の安定化のために光軸制御を行わないようにしても良い。
【００６８】
＜撮像制御＞
次に、主被写体のカテゴリ及び方向の推定後に行う撮像制御について図４のフローチャートを参照して説明する。ここでは、例えば特定被写体を中心とするフォーカシング、露出補正、ズーミング、或いは色補正などの処理、或いは光軸方向を制御して主被写体の存在する方向への光軸制御を行う。なお、適切な露出制御、色補正を行うために測光領域は所定の数に小分割されているものとする。
【００６９】
この場合に、判定処理（ステップＳ１１）において、色補正及び露出補正に関しては、画面内に主被写体が存在すると判定されていれば、当該主被写体方向への光軸方向の制御（ステップＳ１２）を行った後、ステップＳ１３において当該主被写体の領域が予め被写体カテゴリごとに設定された最適撮像条件が格納された所定の記憶手段（以下、撮像制御パラメータ記憶手段という）から撮像条件制御パラメータを読み出し、当該主被写体に適するように撮像条件の計測制御を行う（ステップＳ１４及びステップＳ１５）。
【００７０】
例えば、主被写体が特定の人物であれば、その人物に適した（例えば、その人物に適した所定の肌色が得られるような）露出量（測光量に応じた値として）、及び色補正処理パラメータを撮像制御パラメータ記憶手段から読み出し、またその人物領域に関する測光量を検出し（ステップＳ１４）、これに対応した最適撮像条件の制御（ステップＳ１５）を行う。
【００７１】
さらに、そのカテゴリの主被写体に関する画面内サイズが一定範囲で決まっている場合には、その範囲のサイズで撮像されるようにズーミング量の制御を行う（ステップＳ１５）。典型的には、人物の顔が主被写体である場合、そのサイズは個人差が少なく、人物から撮像手段までの距離をｄ、焦点距離をｆ、顔（主被写体）のサイズをＳ、画面上に写る顔（主被写体）のサイズをｓとすると、
ｓ＝（ｆ／ｄ−ｆ）・Ｓ
の関係が成り立つ（ただし、ｄ＞ｆとする）。
【００７２】
従って、主被写体のサイズが一定に保たれるようにするには、制御部７の内部にあるＡＦ制御回路（不図示）内の距離検出部から得られる距離信号（所定の測距エリア内部にある主被写体までの距離に相当する信号；なお、測距エリアは複数箇所にあるものとし、主被写体が検出された測距エリアについて距離信号を求めるようにしても良い）を用い、画面上の主被写体サイズｓが一定に保持されるように焦点距離ｆを制御すれば良い。
【００７３】
主被写体領域の簡易な推定には、例えば人物の顔領域の中心位置のみを画像処理部３が検出し、その領域については上式に基づいて算出されるサイズｓから当該領域を推定しても良い。その後、当該領域についての周知の方法（例えば、本出願人に係る特開平０８−２７８５２８号公報に開示された方法など）による測光情報を得て、その結果に基づき露出制御などを行っても良い。
【００７４】
ステップＳ１１の判定において画面内に主被写体が存在しないか、或いは画像処理系統からの出力値の信頼度が低い場合であって、音源定位処理と音声認識処理により主被写体のカテゴリ、及び方向又は位置が推定された場合には、音源定位により推定された方向に光軸制御を行う（ステップＳ１６）。
【００７５】
この場合、その後さらに必要に応じて、ステップＳ１７において当該主被写体の画面内位置及び領域の推定（画像処理系統からの出力と音声処理系統からの出力を用いる前述した処理）を行っても良い。
【００７６】
そして画面内に主被写体が存在する場合と同様に、検出された主被写体領域（又は画面中央部固定の所定サイズの測光エリア）での測光量を得て（ステップＳ１４）、前述したような露光量制御、色補正処理、及びズーミング制御（ステップＳ１５）などを行う。
【００７７】
以上説明したように、本実施形態によれば、視覚情報と音声情報とを入力し、処理して画像の一次特徴検出処理、画像認識処理、音源定位処理、音声認識処理結果などに基づき得られる主被写体の方向（又は位置）に関する情報を、その信頼度や画像処理系統と音声処理系統で検出された被写体候補のカテゴリ間の整合性に基づき統合することにより、注視又は追尾すべき主被写体を選択するので、注視（追尾）すべき主被写体を適正に検出し続けることができる。
【００７８】
例えば、主被写体以外の外乱となる音声が入力された場合、たとえそれが、人物の発する音声であっても、音声認識と画像認識結果から推定される主被写体のカテゴリ間の整合性（連続して動きの伴う同一カテゴリの被写体を主被写体と優先的に判定する）、各特徴の連続性に基づく処理を行うので、適正な主被写体を選択する確実性を高くすることができる。
【００７９】
また、画面内に主被写体が撮像されていない場合でも音源定位処理と音声認識処理により、主被写体の方向及びカテゴリを推定するので、ＴＶ会議などにも適用することができる。
【００８０】
［第２実施形態］
＜撮像装置の構成＞
図５は、本発明の第２実施形態に係る撮像装置の構成を示すブロック図である。
【００８１】
本実施形態の撮像装置は、指示入力部１１５０（ここでは視線検出部）を搭載し、ユーザの指示（視線によって指定された注視対象）を検出しながら、画像情報と音声情報に基づいて検出された主被写体のピント、露出、倍率、光軸方向やその他の撮像条件の制御を行うような注視（追尾）機能を有する。ここでは、ユーザの介在（視線により意図された被写体の更新）により注視すべき対象を更新することができる点が第一実施形態と異なる点である。このようにインタラクティブに注視（追尾）対象を更新する機能は、複数の主被写体候補がそれぞれ独立した動作をしている場合などに、いずれの被写体候補を注視（追尾）するのかを選択（更新）するのに用いられる。
【００８２】
図５において、本実施形態の撮像装置は、結像光学系１１０２として、広角レンズを用いた主被写体の探索用光学系（広角レンズ系）１１０２Ａと、実際に高精細画像を入力するための注視用光学系（狭角、或いは望遠レンズ系）１１０２Ｂの２系統を有し、後者（１１０２Ｂ）はレンズ及びズーム撮影用駆動制御機構を含む結像光学系である。
【００８３】
実際に撮像を行うための映像センサ１１０３は、ＣＣＤ又はＣＭＯＳイメージセンサであるが、この他に視線検出手段１１５０にもイメージセンサ（不図示）が搭載されている。撮像装置としてはこれらの他に、合焦信号やレンズモータの撮像パラメータの計測部１１０４、映像信号処理回路１１０５、記憶部１１０６、撮像動作の制御や光軸方向その他の撮像条件制御などの制御用信号を発生する制御信号発生部１１０７、ＥＶＦなどファインダを兼ねた表示ディスプレイ１１０８、及び不図示の記録媒体、ストロボ発光部など、撮像装置として通常搭載される要素を搭載する。
【００８４】
さらに、後述するようなユーザの介在（指示）により注視すべき被写体の更新や変更を可能とするための指示入力部（視線検出部）１１５０、指示入力部１１５０に導光するためのクイックリターンミラー１１１５、音声入力手段としてのマイクロフォンアレイ１２００ａ〜１２００ｆ、マイクロフォンアレイ１２００ａ〜１２００ｆを通じて入力される音声情報データから音源定位や音声認識を行う音声処理部１２１０、さらに画像情報と音声情報とから主被写体の存在方向又は位置などを推定する主被写体推定部１３００を備える。なお、図５において各マイクロフォン１２００ａ〜１２００ｆと音声処理手段１２１０との間の結線は省略してある。
【００８５】
この撮像装置は、例えば探索用光学系１１０２Ａから入力された画像情報、及びマイクロフォンアレイ１２００から入力された音声信号から、予め登録された人物の顔画像の検出（存在位置又は方向の検出）を主被写体推定部１３００により行う。その際の主被写体の方向又は位置の推定処理は第一実施形態に示した方法と同様である。
【００８６】
主被写体（人物）の位置及びサイズ情報が、そのカテゴリ情報と共に主被写体推定部１３００から制御信号発生部１１０７に入力されると、同制御信号発生部１１０７は、撮像パラメータ計測部１１０４からの出力に基づき、その人物に対するピント制御、露出条件制御、及びホワイトバランス制御などを最適に行う制御信号を発生する。ここでも、撮像条件の制御は、第一実施形態において図４に示した処理手順と同様である。
【００８７】
＜主被写体変更指示が可能な主被写体方向の推定・撮像制御処理＞
次に、ユーザが探索用光学系１１０２Ａにより入力された画像データを観察して主被写体の指示を、指示入力部１１５０を用いて行うことができるような処理制御手順について、図６のフローチャートを参照しながら説明する。
【００８８】
先ず、ユーザからの指示入力の有無を判定し（ステップＳ６０）、指示入力がない場合には、第１実施形態と同様に（図３のステップＳ１〜ステップＳ７）、主被写体の方向及びカテゴリの判定処理（ステップＳ６１）を探索用光学系１１０２Ａから入力される画像データとマイクロフォンアレイ１２００から入力される音声データを処理して行う。
【００８９】
その後、注視用撮像系１１０２Ｂでは指示された主被写体の存在する方向への光軸方向の制御（ステップＳ６２）や、その主被写体の撮像に適した撮像条件（露出、倍率など）の読み出し（ステップＳ６３）及び制御（ステップＳ６４，ステップＳ６５）を行う。しかる後、さらに主被写体の移動に追随するような光軸方向の制御を伴う追尾撮影を行っても良い。
【００９０】
また、所定のタイミングでユーザの指示入力の有無を継続して判定し（ステップＳ６０）、主被写体の変更の指示入力があった場合（追尾中の主被写体と異なる被写体方向への視線検出がなされた場合）には、指示方向への光軸方向の制御（ステップＳ６６）を行い、主被写体の変更と変更後の主被写体カテゴリに適した撮像条件を前述した（第一実施形態）撮像条件制御パラメータ記憶部から読み出し（ステップＳ６３）、主被写体領域での測光などを行い（ステップＳ６４）、撮像条件の制御を行う（ステップＳ６５）。
【００９１】
なお、ステップＳ６６とステップＳ６３の処理の間に、必要に応じて、当該主被写体の画面内位置及び領域の推定を行っても良い（ステップＳ６７）。
【００９２】
ここで用いる指示入力部としては、周知の視線検出方法を用いている。例えば、ファインダ視野内を観察しているユーザの視線方向を検出すると、ファインダディスプレイ上の当該方向に相当する位置にマーカを表示する。このマーカの位置がユーザの意図する主被写体と一致する場合に、撮影開始のボタンをユーザが押すと、以後継続して当該被写体を追尾撮影する。
【００９３】
この追尾撮影に伴う主被写体の位置又は方向の推定処理、及び光軸制御処理は第１実施形態で示した処理と同様に行う。ただし、図６に示した処理に拘わらず、途中でユーザからの変更指示入力があると、ユーザによって指示された主被写体の方向（又は位置）への光軸制御やその露出、ピント、倍率などの制御を行う。
【００９４】
なお、上述した図３、図４、又は図６のフローチャートに従ったプログラムを制御部７等の記憶装置に格納し動作することにより、上述の制御方法を実現させることが可能となる。
【００９５】
本発明は、上述した実施形態の装置に限定されず、複数の機器から構成されるシステムに適用しても、１つの機器から成る装置に適用しても良い。前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体をシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、完成されることは言うまでもない。
【００９６】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭを用いることができる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳなどが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００９７】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、次のプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるＣＰＵなどが処理を行って実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００９８】
【発明の効果】
以上詳細に説明したように本発明によれば、次のような効果を奏する。
【００９９】
（１）画像情報処理手段及び二次感覚情報処理手段より得られた主被写体の方向（又は位置）に関する情報を、その信頼度や、検出された主被写体のカテゴリ間の整合性に基づき統合することにより主被写体を選択するので、主被写体の位置又は方向に関する信頼度の高い推定を行うことができ、注視（追尾）すべき主被写体を見失うことなく適正に検出し続けることができる。
【０１００】
特に、ユーザが意図する主被写体が他の被写体と比べて音声信号上或いは画像信号上の特徴において顕著でない場合であっても、自動的にユーザの意図する主被写体を抽出することが可能である。
【０１０１】
（２）適正に検出された主被写体の撮像に適するように撮像条件を設定するので、主被写体に最適な撮像条件の設定を行いながら、追尾又は注視の安定制御を行うことが可能になる。
【０１０２】
（３）適正に検出された主被写体の方向又は位置に光学系の光軸方向を制御するようにしたので、不必要な光軸制御を行うのを防止でき、入力画像の安定性を確保することが可能である。
【図面の簡単な説明】
【図１】本発明の第１実施形態に係る撮像装置の要部構成図である。
【図２】図１中の画像処理部３の内部構成を示すブロック図である。
【図３】第１実施形態に係る主被写体の方向等の推定処理を示すフローチャートである。
【図４】第１実施形態に係る撮像制御処理を示すフローチャートである。
【図５】本発明の第２実施形態に係る撮像装置の構成を示すブロック図である。
【図６】第２実施形態に係る処理を示すフローチャートである。
【符号の説明】
１結像光学系
２映像センサ
３画像処理部
４ａ〜４ｄマイクロフォン
５音声処理部
６主被写体方向等推定部
７制御部
１０光軸方向制御部

Claims

画像情報を入力する第一のセンサと、
視覚情報以外の感覚情報である二次感覚情報を入力する少なくとも１種類以上の二次センサと、
前記第一のセンサから入力された画像情報を処理して予め登録された特定人物から主被写体の特定人物を検出し、前記検出した特定人物の位置と前記検出の結果の信頼度とを出力する画像情報処理手段と、
前記二次センサから入力された二次感覚情報を処理して予め登録された特定人物から主被写体の特定人物を検出し、前記検出した特定人物の位置と前記検出の結果の信頼度とを出力する二次感覚情報処理手段と、
前記画像情報処理手段により検出された主被写体の特定人物と前記二次感覚情報処理手段により検出された特定人物とが一致しているか否かを判定する判定手段と、
前記判定手段により特定人物が一致していると判定された場合は、前記画像情報処理手段により検出された特定人物の位置と前記検出の結果の信頼度、及び前記二次感覚情報処理手段により検出された特定人物の位置と前記検出の結果の信頼度に基づいて、前記一致する特定人物の位置を推定する推定手段と、を備えることを特徴とする主被写体推定装置。
前記二次感覚情報処理手段は、前記二次センサとしてのマイクロフォンから入力された音声を処理して予め登録された特定人物から主被写体の特定人物を検出することを特徴とする請求項１に記載の主被写体推定装置。
前記判定手段により特定人物が一致していないと判定された場合は、前記推定手段は前記主被写体の位置を推定せず、前記画像情報処理手段及び前記二次感覚情報処理手段は、前記検出とは異なる検出手法によって主被写体の特定人物を検出することを特徴とする請求項１又は２に記載の主被写体推定装置。
前記判定手段は、さらに、前記画像情報処理手段により検出された主被写体の位置と前記二次感覚情報処理手段により検出された位置が所定量以上離れているか否か判定し、前記判定手段により特定人物が一致していると判定され且つ前記位置が所定量以上離れていないと判断された場合に、前記推定手段は、前記位置の推定を行うことを特徴とする請求項１乃至３のいずれか一項に記載の主被写体推定装置。
前記一致する特定人物ごとに設定された撮像条件に基づき、前記第一のセンサの入力における撮像を制御する制御手段、をさらに有することを特徴とする請求項１乃至４のいずれか一項に記載の主被写体推定装置。
画像情報を入力する第一のセンサから入力された画像情報を処理して予め登録された特定人物から主被写体の特定人物を検出し、前記検出した特定人物の位置と前記検出の結果の信頼度とを出力する画像情報処理ステップと、
視覚情報以外の感覚情報である二次感覚情報を入力する少なくとも１種類以上の二次センサから入力された二次感覚情報を処理して予め登録された特定人物から主被写体の特定人物を検出し、前記検出した特定人物の位置と前記検出の結果の信頼度とを出力する二次感覚情報処理ステップと、
前記画像情報処理ステップにより検出された主被写体の特定人物と前記二次感覚情報処理ステップにより検出された特定人物が一致しているか否かを判定する判定ステップと、
前記判定ステップにより特定人物が一致していると判定された場合は、前記画像情報処理ステップにより検出された特定人物の位置と前記検出の結果の信頼度、及び前記二次感覚情報処理ステップにより検出された特定人物の位置と前記検出の結果の信頼度に基づいて前記一致する特定人物の位置を推定する推定ステップと、を備えることを特徴とする主被写体推定方法。