JP4669150B2 - 主被写体推定装置及び主被写体推定方法 - Google Patents

主被写体推定装置及び主被写体推定方法 Download PDF

Info

Publication number
JP4669150B2
JP4669150B2 JP2001110530A JP2001110530A JP4669150B2 JP 4669150 B2 JP4669150 B2 JP 4669150B2 JP 2001110530 A JP2001110530 A JP 2001110530A JP 2001110530 A JP2001110530 A JP 2001110530A JP 4669150 B2 JP4669150 B2 JP 4669150B2
Authority
JP
Japan
Prior art keywords
main subject
specific person
detected
information processing
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001110530A
Other languages
English (en)
Other versions
JP2002312796A (ja
JP2002312796A5 (ja
Inventor
優和 真継
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001110530A priority Critical patent/JP4669150B2/ja
Publication of JP2002312796A publication Critical patent/JP2002312796A/ja
Publication of JP2002312796A5 publication Critical patent/JP2002312796A5/ja
Application granted granted Critical
Publication of JP4669150B2 publication Critical patent/JP4669150B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、画像信号(視覚情報)と音声などの二次感覚情報に基づき、被写体の注視又は追尾を自動的に行う主被写体推定装置及び主被写体推定方法に関する。
【0002】
【従来の技術】
従来画像情報(特定色)のみから対象を検出し、追尾動作を行うものと、音声も検出して追尾動作を実現するものなど、様々な追尾装置が提案されている。
【0003】
【発明が解決しようとする課題】
しかしながら、上記従来例では、次のような問題点があった。
【0004】
(1)上記従来例のうち音声と画像の情報を用いるものは、音源定位を行って得られる音源の方向又は位置に存在する被写体の追尾を行う方法か、或いは画像内に存在する音源位置(又は方向)を推定して同様の追尾制御を行う方法のいずれかを用いるにすぎなかった。
【0005】
このため、主被写体の位置又は方向の判定(例えば、人物の音声か、或いは予め登録してある人物の画像が存在するか、などの判定)の信頼度の高い推定結果を得ることができない場合があり、適切な追尾動作が実行されないことがあった。
【0006】
特開2000−148184号公報に係る音声認識装置では、画像解析により、主被写体(話者)が判定できることを前提としているが、画像情報から推定する主被写体の位置の信頼性と音声情報の信頼性をいずれも考慮していなかった。
【0007】
(2)主被写体に最適な撮像条件の設定を行いながら、追尾又は注視の安定制御を行うことが困難な場合があった。例えば、画面内で複数の人物が同時に発話した場合に、いずれか一方に照準を合わせようと不安定な振動を伴う光軸制御を行ったりすることがあった。
【0008】
(3)音の情報だけからは、主被写体の方向を推定することが困難な場合(被写体の発する音の振幅が他の音と比べて相対的に微弱な場合、雑音が多い場合など)とそうでない場合とを自動的に区別することのできる判定手段を備えていないために、注視又は追尾すべき主被写体を見失う場合があった。
【0009】
なお、本願明細書における注視とは、追尾のように光軸方向制御を行う場合を含むが、主として注視すべき対象の画面内領域を検出して、その領域の画像データを中心として処理(当該領域の画像が適正なピント、露出等で得られるような撮像パラメータの制御、或いは当該領域に関する高精細化処理、認識処理、特徴抽出処理など)することを意味する。一方、追尾とは、その対象が画面内の所定位置(中心位置)になるように常に光軸方向の制御をすることを意味する。
【0010】
(4)主被写体が視野内に写っているにもかかわらず、音源定位により推定された方向に常時、不必要な光軸制御を行う結果、入力画像としての安定性に欠けることがあった。また、テレビ会議に適用した場合、人物以外の物が発した音の音源方向にカメラの光軸方向を制御することがあった。
【0011】
(5)ユーザが意図する主被写体が他の被写体と比べて、音声信号上の特徴或いは画像信号上の特徴(動きベクトル、形状、色など)において、必ずしも顕著な差があるとは限らない場合があるが、そのような場合でも自動的にユーザの意図を抽出し得る手段を備えた撮像装置は存在しなかった。
【0012】
本発明は上記従来の問題点に鑑み、(1)主被写体の位置又は方向に関する信頼度の高い推定を行い、注視(追尾)すべき主被写体を見失うことなく適正に検出し続けることができ、(2)主被写体に最適な撮像条件の設定を行いながら、追尾又は注視の安定制御を行うことができ、(3)不必要な光軸制御を行うのを防ぎ、入力画像の安定性を確保することができる主被写体推定装置及び主被写体推定方法を提供することを目的とする。
【0013】
【課題を解決するための手段】
上記目的を達成するために、本発明の主被写体推定装置は、画像情報を入力する第一のセンサと、視覚情報以外の感覚情報である二次感覚情報を入力する少なくとも1種類以上の二次センサと、前記第一のセンサから入力された画像情報を処理して予め登録された特定人物から主被写体の特定人物を検出し、前記検出した特定人物の位置と前記検出の結果の信頼度とを出力する画像情報処理手段と、前記二次センサから入力された二次感覚情報を処理して予め登録された特定人物から主被写体の特定人物を検出し、前記検出した特定人物の位置と前記検出の結果の信頼度とを出力する二次感覚情報処理手段と、前記画像情報処理手段により検出された主被写体の特定人物と前記二次感覚情報処理手段により検出された特定人物とが一致しているか否かを判定する判定手段と、前記判定手段により特定人物が一致していると判定された場合は、前記画像情報処理手段により検出された特定人物の位置と前記検出の結果の信頼度、及び前記二次感覚情報処理手段により検出された特定人物の位置と前記検出の結果の信頼度に基づいて、前記一致する特定人物の位置を推定する推定手段と、を備えることを特徴とする。
本発明の主被写体推定方法は、画像情報を入力する第一のセンサから入力された画像情報を処理して予め登録された特定人物から主被写体の特定人物を検出し、前記検出した特定人物の位置と前記検出の結果の信頼度とを出力する画像情報処理ステップと、視覚情報以外の感覚情報である二次感覚情報を入力する少なくとも1種類以上の二次センサから入力された二次感覚情報を処理して予め登録された特定人物から主被写体の特定人物を検出し、前記検出した特定人物の位置と前記検出の結果の信頼度とを出力する二次感覚情報処理ステップと、前記画像情報処理ステップにより検出された主被写体の特定人物と前記二次感覚情報処理ステップにより検出された特定人物が一致しているか否かを判定する判定ステップと、前記判定ステップにより特定人物が一致していると判定された場合は、前記画像情報処理ステップにより検出された特定人物の位置と前記検出の結果の信頼度、及び前記二次感覚情報処理ステップにより検出された特定人物の位置と前記検出の結果の信頼度に基づいて前記一致する特定人物の位置を推定する推定ステップと、を備えることを特徴とする。
【0028】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
【0029】
[第1実施形態]
<撮像装置の要部構成図>
図1は、本発明の第1実施形態に係る撮像装置の要部構成図である。
【0030】
同図に示すように、この撮像装置は、結像光学系1、センサ信号処理回路を含む映像センサ2、画像処理部3、マイクロフォン4、音声処理部5、主被写体方向等推定部6、これらの動作を司る制御部7、及び光軸方向制御部10光軸方向制御部10などから構成される。
【0031】
結像光学系1は、画像入力のためのレンズと、そのレンズのピント制御のためのレンズモータ駆動手段等から構成され、光軸方向制御部10光軸方向制御部10は、所定の軸周りのセンサを含む光学系の回動部から構成されている。これらは、制御部7からの制御信号により駆動する。
【0032】
前記回動部としては、典型的には、回転雲台、モータ及びモータドライバなどから構成されるが、左右方向のみならず、上下方向、センサ面内の回転等を含めた回動を可能とするような機構を備えたものであっても良い。
【0033】
映像センサ2は、典型的にはCMOSイメージセンサなどを用い、センサ駆動回路(不図示)からの読み出し制御信号により所定の映像信号が出力される。映像センサ2に含まれるセンサ信号処理回路は、露光量制御パラメータ、及びホワイトバランス制御パラメータを有する他、これ以外の撮像パラメータ制御用信号処理回路(不図示)を含む。
【0034】
画像処理部3は、所定のカテゴリの被写体認識(検出)用の回路であり、入力された画像データ中から予め登録されたカテゴリの被写体を検出する。カテゴリの種類としては、例えば人物、車などのような大分類から、人物の中での老若男女に類する中程度のクラス、さらに名称を与えられた特定人物レベルまでの細分化したクラスまであるものとする。ここでは、与えられたクラスのカテゴリに対応したモデルデータが画像処理部3内のモデルデータ記憶部31に格納されている。画像処理部3の構成及び処理については後で説明する。
【0035】
マイクロフォン4a〜4dは、撮像装置上の複数の所定位置に配置され、音声処理部5は、音源定位回路51及び音声認識回路52などから構成される。このマイクロフォン4a〜4dは、画像(視覚)情報以外の感覚情報をセンシングする二次センサとしての役割を担うものであり、音声処理部5は、その二次センサに付随する二次感覚情報処理手段としての性格を有する。
【0036】
音源定位回路51は、複数のマイクロフォン4a〜4dからの音声信号を処理して、音源の位置を推定する回路で、例えば、マイクロフォン4a〜4dの出力信号の位相関係や相互相関関数の最大値を与える時間差を求め、音源方向及び音源までの距離を計測するものである。
【0037】
本実施形態では、少なくとも4つのマイクロフォン4a〜4dを配し、音源定位では、そのうちの2つないし3つの一定の指向性を有するマイクロフォンを用いて所定範囲の方向についての音源定位を行う。ここに、各マイクロフォン4a〜4dは、一定の指向性を有するものとする。
【0038】
音声認識回路52は、通常の音声認識の他に人物の音声か否かなどのカテゴリ判定や特定人物の音声か否かの検出をも行う。さらに、前処理として音声特徴ベクトルなどの特徴量の抽出も行う。
【0039】
また、音声認識回路52からの出力には、特定されたカテゴリの検出信頼度に相当する信号も出力される。特定カテゴリの音声情報は、予め音声情報記憶手段にモデル音声データ(予め登録された参照音声の辞書データ)として記憶され、特定カテゴリに関する検出信頼度(或いは確信度)は、このモデル音声データとのマッチング処理の結果として求められる。
【0040】
音声認識に適した手法としては、DTW(Dynamic Time Warping)法、統計的確率モデルHMM(Hidden Markov Model)法、動的計画法、即ちDP(Dynamic Programming)法、その他固定次元の音声特徴ベクトルを基本とする符号類似度法、部分空間法、LVQ法(Learning Vector Quantization法)などがある。例えば、DP法やHMM法を用いた場合には、音声に関する上述した信頼度は、参照音声パターンと入力音声パターンとの距離と予め設定された閾値との比により求められる。なお、信頼度としては他の方法により定義された指標を用いても良いことは言うでもない。
【0041】
主被写体方向等推定部6は、主被写体の方向又は位置を推定する手段であり、その処理の詳細については後述する。
【0042】
<画像処理部3の詳細>
次に、図2を参照して画像処理部3の内部構成について説明する。
【0043】
この画像処理部3は、入力画像データ中の各場所(サンプリング点)において、幾何学的特徴やその他の特徴(例えば、色、動きベクトル情報など)を抽出することにより、所定のカテゴリの被写体認識(検出)を行う。画像処理部3からは認識結果として、検出された対象のカテゴリとその入力画像データ上での位置が出力される。
【0044】
画像処理部3は、複数の検出すべき被写体のカテゴリの画像情報を予めモデルデータとして記憶するモデルデータ記憶部31と、所定サンプリング点位置で上述した特徴量の抽出を行う特徴抽出部32と、抽出された特徴量に基づき入力画像データとモデルデータとのマッチング処理(類似度算出)を行うマッチング処理部33とを主たる構成要素として有する。
【0045】
マッチング処理部33で行う処理としては、例えば、被写体距離に応じたサイズのテンプレートモデル画像を生成し、これを用いて画面内を走査しながら、各場所で正規化相関係数などを計算することにより入力画像の局所部分とモデルデータとの類似度分布を算出する周知の方法がある。一般的にはその類似度分布の最大値が所定の閾値を越えていれば、そのカテゴリに属するパターンが検出されたことになる。
【0046】
そして、主被写体として検出された被写体の検出信頼度(或いは確信度)とその画面内での位置情報がマッチング処理部33から出力されるか、或いは、主被写体が画面内で検出されなかった場合には、主被写体の未検出信号が所定の形式で出力される。
【0047】
なお、本実施の形態において、処理時間短縮のために予め時系列入力画像データから公知の方法による一次特徴量(動きベクトル、色情報などの低次特徴量)抽出を行っておき、主被写体が存在する可能性の高い候補領域を抽出して探索範囲の絞り込みを行っておいても良い。例えば、色情報抽出により、予め登録してあるモデル画像データの要部の色彩(例えば、人物の肌色など)に近い色彩を有する画像領域を閾値処理により抽出しても良いし、或いは(さらに、それらの画像領域の中で)、一定サイズ以上のまとまった動きベクトル量を有する領域を被写体候補領域として抽出する。その後、候補領域内の各サンプリング点についてのみ上述した類似度算出を行う方法がある。
【0048】
また、本実施の形態の撮像装置は、所定位置に設置されているものとする。仮に手持ち撮影を行う場合には、撮像装置そのものの動きに伴うグローバルな動きベクトル量(Ego-motionベクトル)を抽出して、それを全体の動きベクトル分布から減殺した後に動きベクトル量に基づく領域分割を行って候補領域を求めれば良い。
【0049】
前処理用に抽出する一次特徴量としては、このような色彩情報や動きベクトル情報から得られる特徴量に限定される必要はなく、他の低次の特徴量(例えば、特定範囲の方向成分と特定範囲の空間周波数を有するような幾何学的特徴、或いは局所的特徴要素など)用いても良いことは言うまでもない。また、算出された最大類似度に対する閾値の比を信頼度として用いるが、他の方法により定義される指標(例えば、所定時間幅で算出した最大類似度の分散値など)を信頼度として用いても良い。なお、以上に示した前処理は、後で説明する図3のステップS6で行う処理にほかならない。
【0050】
一方、上述した被写体距離としては、入力画像データ中の局所的な合焦レベル信号と他の撮像条件(焦点距離、倍率など)から推定するか、或いは、所定の距離計測手段(複眼撮像系、レーザ測距手段など)を用いて算出すれば良い。所定カテゴリに属する主被写体画像の位置、領域の検出には、類似度と所定の閾値との比較により、類似度が閾値以上となったときに検出されたと判定するような処理方法などが用いられる。
【0051】
なお、マッチング処理部33としては他の周知の処理方法を用いても良い。
<主被写体の方向又は位置の推定処理>
次に、主被写体方向等推定部6での処理について図3のフローチャートを参照して説明する。ここでは、音声情報に基づいて得られる音源位置又は方向に関する推定値の信頼度と、入力画像情報に基づいて得られる主被写体位置又は方向に関する信頼度の双方の結果を統合することにより、主被写体の位置又は方向の推定を行う。
【0052】
先ず、ステップS1で信頼度の値を画像処理系統(画像処理部3)と音声処理系統(音声処理部5)との2つの処理系統から入力する。続いてステップS2において信頼度の値がいずれも所定の基準値より大であるか否かを判定し、信頼度の値がいずれも所定の基準値より大である場合は、入力画像内に少なくとも主被写体が存在することが判定されたことになるので、次にステップS3において画像情報から推定された主被写体の方向又は位置と音声情報に基づいて推定された主被写体の方向又は位置とが矛盾するか否かを判定する。
【0053】
ここでは、画像処理系統により推定される主被写体のカテゴリと音声処理系統から推定される主被写体のカテゴリとが一致するか否かを判定し、さらに両系統により推定された主被写体の方向が画面内の視野角の範囲を基準として著しく隔たっていないか否かを判定する。そして夫々の判定結果が一致(主被写体のカテゴリが一致し、かつ方向が視野角の例えば3分の1以下の分解能で一致)していれば矛盾なしと判定する。
【0054】
矛盾有りと判定される場合(例えば前者のカテゴリが一致し、後者の方向の相違が基準値以上となる場合)は、一般的には、音声処理系統において推定された方向の信頼度が低いか、画像処理系統において推定された方向の信頼度が低い場合、或いはそれら両方のいずれかの場合に上述したような矛盾が生じると考えられる。ステップS5において、しかしながらここでは、信頼度が共に基準値より大である場合に限られるので、被写体の推定の信頼度を向上させる処理を行う。例えば、音声処理部5において、文脈に依存した処理やその他高次の推論処理をおこなう。また、画像処理部においても更なる高度の被写体の推定の判定を行う。これら高度の推定によって得られた音声認識処理結果と画像認識処理結果に基づいて、主被写体の確度を判定することにより主被写体の方向を推定することにする(ステップS5)。この処理ステップS5の内容は後述する。
【0055】
次に各系統の被写体の推定方向の信頼度のうち、一方の値だけが基準値より小さい場合には、基準値を越えた方の系統の被写体の推定方向のみを主被写体の存在方向とする(ステップS7)。例えば、音声処理系統からの推定方向の信頼度が所定の基準値より低い場合、典型的には撮像装置から画面内に存在する複数の人物までの距離がとマイクロフォンからの距離と比べて十分に大きい場合には、音声処理系統からの推定方向の信頼度が低くなると考えられる。このような状態を自動的に検出するには、例えば撮像装置に搭載されるAF用センサからの合焦度信号と倍率に基づいて推定される被写体距離(マイクロフォン間距離を基準とする)から予め信頼度係数値を求めておき、それを参照テーブルとして記憶するROMなどのメモリから当該係数値データを読み出せば良い。
【0056】
次に、両方とも信頼度が低い場合(例えば、主被写体が動作、発話などを殆ど停止した場合、或いは予め登録されてあるカテゴリの被写体の検出ができていない場合など)の処理(ステップS6)、及び撮像条件の制御について説明する。この場合、ステップS6において、画像処理系統の前処理(前述)で抽出する特徴量、即ち一次特徴量(動きベクトル、色情報など)の変化量の分布を抽出し、その変化量分布の領域分割などを行うことにより、最も顕著に変化した領域の存在する位置を主被写体の位置(方向)として推定する。なお、画像処理系統において予め登録されてあるカテゴリを連続的に検出できている場合には、信頼度の値が両方とも低くても制御部7は、同一の撮像条件(光軸方向、倍率、ピント、露光条件など)を維持するものとする。
【0057】
ステップS3において矛盾なしと判定された場合には、次に主被写体の存在方向の推定を各処理系統からの出力値の信頼度に基づき次のように行う(ステップS4)。
【0058】
音源定位により推定された主被写体の方向Dsを画像内の位置RSにより表し、画像処理により推定された主被写体の方向を画像内の位置RIにより表す。また、それぞれの推定値の信頼度をCS、CIにより表す。このとき、2つの推定方向RS,RIを次のようにして合成することにより主被写体の推定方向Rを得る。
【0059】
R=(μCSS+CII)/(μCS+CI
ここにμは、1より小さい正の係数で、音源定位により推定された被写体方向の不確定さ(予め算出した値又は画像情報処理系統により得られた推定方向の信頼度に基づき算出した)を表す。
【0060】
なお、上述したような異なる種類の信号の統合による主被写体の推定方向の算出方法としてその他の方法を用いても良い。
【0061】
次に、ステップS3で矛盾有りと判定された後のステップS5での処理について説明する。ここでは上記2つの推定方向RS,RIからの合成を行わず、以下に示すような音声カテゴリ認識結果を用いた画像処理、或いは口唇を検出してその動き検出の有無を判定する公知の方法により発話者を同定するなどの処理を用いて主被写体の存在方向の推定を行う。
【0062】
具体的に例示するために複数の人物が画面内に存在する場合について音声認識結果を用いる処理について説明する。この場合、前提条件として、予め各人物の画像に関する特徴データが抽出されてモデルデータとして登録されている一方、各人物の名称とその発する音声の特徴辞書が与えられているものとする。
【0063】
例えば、テレビ会議などで予め参加する人物の顔画像の特徴量データと音声の特徴量データ、及び名称がそれぞれ与えられており、また、モデルデータの特徴量分布と入力画像の特徴量分布との類似度算出を行うような画像認識処理により、画面内の各人物の位置及び名称が予め同定されているものとする。
【0064】
ここでは、入力された音声の特徴量抽出と特徴辞書データとの照合処理などを行う音声カテゴリ認識処理により発話者の同定(要するに主被写体の名称の特定)を行い、その特定された人物の存在する画像面内の方向(上述したように予め人物ごとの方向が検出されている)に光軸方向の制御を行う。この音声カテゴリ認識処理とは、発話の内容を認識するための処理というよりはむしろ、発話者を同定することを主目的とし、さらに発話者同定後に主被写体を選定するために必要があればいわゆる音源分離及び音声認識も行うものである。
【0065】
例えば、スペクトログラム、周波数分析により得られる音声特徴ベクトル列などから有声音か否か、及び有声音であれば発話者の同定(分類)を行い、さらに必要であればDTWなどの手法により音声認識を行う。この処理の結果、非有声音(非意図的発声)が検出された場合は、仮に特定話者の音声であってもその方向が画面内になければ、主被写体候補とは判定しない。また、有声音であって、予め登録された話者の音声が検出された場合には、非有声音であっても、主被写体候補と判定する。
【0066】
なお、複数の話者が異なる方向から同時に発話するような場合には、音源分離及び音声認識処理により、それぞれの音声特徴量(或いは、特徴ベクトル)に関する連続性が保持されるような話者を主被写体と判定する。
【0067】
また、同じ画面内の近接した位置に人物が存在しているために、光軸方向の制御量(光軸方向の変化量)が所定の基準値(例えば、画面サイズ相当の角度幅の20%など)より小さい場合には、画像の安定化のために光軸制御を行わないようにしても良い。
【0068】
<撮像制御>
次に、主被写体のカテゴリ及び方向の推定後に行う撮像制御について図4のフローチャートを参照して説明する。ここでは、例えば特定被写体を中心とするフォーカシング、露出補正、ズーミング、或いは色補正などの処理、或いは光軸方向を制御して主被写体の存在する方向への光軸制御を行う。なお、適切な露出制御、色補正を行うために測光領域は所定の数に小分割されているものとする。
【0069】
この場合に、判定処理(ステップS11)において、色補正及び露出補正に関しては、画面内に主被写体が存在すると判定されていれば、当該主被写体方向への光軸方向の制御(ステップS12)を行った後、ステップS13において当該主被写体の領域が予め被写体カテゴリごとに設定された最適撮像条件が格納された所定の記憶手段(以下、撮像制御パラメータ記憶手段という)から撮像条件制御パラメータを読み出し、当該主被写体に適するように撮像条件の計測制御を行う(ステップS14及びステップS15)。
【0070】
例えば、主被写体が特定の人物であれば、その人物に適した(例えば、その人物に適した所定の肌色が得られるような)露出量(測光量に応じた値として)、及び色補正処理パラメータを撮像制御パラメータ記憶手段から読み出し、またその人物領域に関する測光量を検出し(ステップS14)、これに対応した最適撮像条件の制御(ステップS15)を行う。
【0071】
さらに、そのカテゴリの主被写体に関する画面内サイズが一定範囲で決まっている場合には、その範囲のサイズで撮像されるようにズーミング量の制御を行う(ステップS15)。典型的には、人物の顔が主被写体である場合、そのサイズは個人差が少なく、人物から撮像手段までの距離をd、焦点距離をf、顔(主被写体)のサイズをS、画面上に写る顔(主被写体)のサイズをsとすると、
s=(f/d−f)・S
の関係が成り立つ(ただし、d>fとする)。
【0072】
従って、主被写体のサイズが一定に保たれるようにするには、制御部7の内部にあるAF制御回路(不図示)内の距離検出部から得られる距離信号(所定の測距エリア内部にある主被写体までの距離に相当する信号;なお、測距エリアは複数箇所にあるものとし、主被写体が検出された測距エリアについて距離信号を求めるようにしても良い)を用い、画面上の主被写体サイズsが一定に保持されるように焦点距離fを制御すれば良い。
【0073】
主被写体領域の簡易な推定には、例えば人物の顔領域の中心位置のみを画像処理部3が検出し、その領域については上式に基づいて算出されるサイズsから当該領域を推定しても良い。その後、当該領域についての周知の方法(例えば、本出願人に係る特開平08−278528号公報に開示された方法など)による測光情報を得て、その結果に基づき露出制御などを行っても良い。
【0074】
ステップS11の判定において画面内に主被写体が存在しないか、或いは画像処理系統からの出力値の信頼度が低い場合であって、音源定位処理と音声認識処理により主被写体のカテゴリ、及び方向又は位置が推定された場合には、音源定位により推定された方向に光軸制御を行う(ステップS16)。
【0075】
この場合、その後さらに必要に応じて、ステップS17において当該主被写体の画面内位置及び領域の推定(画像処理系統からの出力と音声処理系統からの出力を用いる前述した処理)を行っても良い。
【0076】
そして画面内に主被写体が存在する場合と同様に、検出された主被写体領域(又は画面中央部固定の所定サイズの測光エリア)での測光量を得て(ステップS14)、前述したような露光量制御、色補正処理、及びズーミング制御(ステップS15)などを行う。
【0077】
以上説明したように、本実施形態によれば、視覚情報と音声情報とを入力し、処理して画像の一次特徴検出処理、画像認識処理、音源定位処理、音声認識処理結果などに基づき得られる主被写体の方向(又は位置)に関する情報を、その信頼度や画像処理系統と音声処理系統で検出された被写体候補のカテゴリ間の整合性に基づき統合することにより、注視又は追尾すべき主被写体を選択するので、注視(追尾)すべき主被写体を適正に検出し続けることができる。
【0078】
例えば、主被写体以外の外乱となる音声が入力された場合、たとえそれが、人物の発する音声であっても、音声認識と画像認識結果から推定される主被写体のカテゴリ間の整合性(連続して動きの伴う同一カテゴリの被写体を主被写体と優先的に判定する)、各特徴の連続性に基づく処理を行うので、適正な主被写体を選択する確実性を高くすることができる。
【0079】
また、画面内に主被写体が撮像されていない場合でも音源定位処理と音声認識処理により、主被写体の方向及びカテゴリを推定するので、TV会議などにも適用することができる。
【0080】
[第2実施形態]
<撮像装置の構成>
図5は、本発明の第2実施形態に係る撮像装置の構成を示すブロック図である。
【0081】
本実施形態の撮像装置は、指示入力部1150(ここでは視線検出部)を搭載し、ユーザの指示(視線によって指定された注視対象)を検出しながら、画像情報と音声情報に基づいて検出された主被写体のピント、露出、倍率、光軸方向やその他の撮像条件の制御を行うような注視(追尾)機能を有する。ここでは、ユーザの介在(視線により意図された被写体の更新)により注視すべき対象を更新することができる点が第一実施形態と異なる点である。このようにインタラクティブに注視(追尾)対象を更新する機能は、複数の主被写体候補がそれぞれ独立した動作をしている場合などに、いずれの被写体候補を注視(追尾)するのかを選択(更新)するのに用いられる。
【0082】
図5において、本実施形態の撮像装置は、結像光学系1102として、広角レンズを用いた主被写体の探索用光学系(広角レンズ系)1102Aと、実際に高精細画像を入力するための注視用光学系(狭角、或いは望遠レンズ系)1102Bの2系統を有し、後者(1102B)はレンズ及びズーム撮影用駆動制御機構を含む結像光学系である。
【0083】
実際に撮像を行うための映像センサ1103は、CCD又はCMOSイメージセンサであるが、この他に視線検出手段1150にもイメージセンサ(不図示)が搭載されている。撮像装置としてはこれらの他に、合焦信号やレンズモータの撮像パラメータの計測部1104、映像信号処理回路1105、記憶部1106、撮像動作の制御や光軸方向その他の撮像条件制御などの制御用信号を発生する制御信号発生部1107、EVFなどファインダを兼ねた表示ディスプレイ1108、及び不図示の記録媒体、ストロボ発光部など、撮像装置として通常搭載される要素を搭載する。
【0084】
さらに、後述するようなユーザの介在(指示)により注視すべき被写体の更新や変更を可能とするための指示入力部(視線検出部)1150、指示入力部1150に導光するためのクイックリターンミラー1115、音声入力手段としてのマイクロフォンアレイ1200a〜1200f、マイクロフォンアレイ1200a〜1200fを通じて入力される音声情報データから音源定位や音声認識を行う音声処理部1210、さらに画像情報と音声情報とから主被写体の存在方向又は位置などを推定する主被写体推定部1300を備える。なお、図5において各マイクロフォン1200a〜1200fと音声処理手段1210との間の結線は省略してある。
【0085】
この撮像装置は、例えば探索用光学系1102Aから入力された画像情報、及びマイクロフォンアレイ1200から入力された音声信号から、予め登録された人物の顔画像の検出(存在位置又は方向の検出)を主被写体推定部1300により行う。その際の主被写体の方向又は位置の推定処理は第一実施形態に示した方法と同様である。
【0086】
主被写体(人物)の位置及びサイズ情報が、そのカテゴリ情報と共に主被写体推定部1300から制御信号発生部1107に入力されると、同制御信号発生部1107は、撮像パラメータ計測部1104からの出力に基づき、その人物に対するピント制御、露出条件制御、及びホワイトバランス制御などを最適に行う制御信号を発生する。ここでも、撮像条件の制御は、第一実施形態において図4に示した処理手順と同様である。
【0087】
<主被写体変更指示が可能な主被写体方向の推定・撮像制御処理>
次に、ユーザが探索用光学系1102Aにより入力された画像データを観察して主被写体の指示を、指示入力部1150を用いて行うことができるような処理制御手順について、図6のフローチャートを参照しながら説明する。
【0088】
先ず、ユーザからの指示入力の有無を判定し(ステップS60)、指示入力がない場合には、第1実施形態と同様に(図3のステップS1〜ステップS7)、主被写体の方向及びカテゴリの判定処理(ステップS61)を探索用光学系1102Aから入力される画像データとマイクロフォンアレイ1200から入力される音声データを処理して行う。
【0089】
その後、注視用撮像系1102Bでは指示された主被写体の存在する方向への光軸方向の制御(ステップS62)や、その主被写体の撮像に適した撮像条件(露出、倍率など)の読み出し(ステップS63)及び制御(ステップS64,ステップS65)を行う。しかる後、さらに主被写体の移動に追随するような光軸方向の制御を伴う追尾撮影を行っても良い。
【0090】
また、所定のタイミングでユーザの指示入力の有無を継続して判定し(ステップS60)、主被写体の変更の指示入力があった場合(追尾中の主被写体と異なる被写体方向への視線検出がなされた場合)には、指示方向への光軸方向の制御(ステップS66)を行い、主被写体の変更と変更後の主被写体カテゴリに適した撮像条件を前述した(第一実施形態)撮像条件制御パラメータ記憶部から読み出し(ステップS63)、主被写体領域での測光などを行い(ステップS64)、撮像条件の制御を行う(ステップS65)。
【0091】
なお、ステップS66とステップS63の処理の間に、必要に応じて、当該主被写体の画面内位置及び領域の推定を行っても良い(ステップS67)。
【0092】
ここで用いる指示入力部としては、周知の視線検出方法を用いている。例えば、ファインダ視野内を観察しているユーザの視線方向を検出すると、ファインダディスプレイ上の当該方向に相当する位置にマーカを表示する。このマーカの位置がユーザの意図する主被写体と一致する場合に、撮影開始のボタンをユーザが押すと、以後継続して当該被写体を追尾撮影する。
【0093】
この追尾撮影に伴う主被写体の位置又は方向の推定処理、及び光軸制御処理は第1実施形態で示した処理と同様に行う。ただし、図6に示した処理に拘わらず、途中でユーザからの変更指示入力があると、ユーザによって指示された主被写体の方向(又は位置)への光軸制御やその露出、ピント、倍率などの制御を行う。
【0094】
なお、上述した図3、図4、又は図6のフローチャートに従ったプログラムを制御部7等の記憶装置に格納し動作することにより、上述の制御方法を実現させることが可能となる。
【0095】
本発明は、上述した実施形態の装置に限定されず、複数の機器から構成されるシステムに適用しても、1つの機器から成る装置に適用しても良い。前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体をシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、完成されることは言うまでもない。
【0096】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMを用いることができる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOSなどが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0097】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、次のプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるCPUなどが処理を行って実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0098】
【発明の効果】
以上詳細に説明したように本発明によれば、次のような効果を奏する。
【0099】
(1)画像情報処理手段及び二次感覚情報処理手段より得られた主被写体の方向(又は位置)に関する情報を、その信頼度や、検出された主被写体のカテゴリ間の整合性に基づき統合することにより主被写体を選択するので、主被写体の位置又は方向に関する信頼度の高い推定を行うことができ、注視(追尾)すべき主被写体を見失うことなく適正に検出し続けることができる。
【0100】
特に、ユーザが意図する主被写体が他の被写体と比べて音声信号上或いは画像信号上の特徴において顕著でない場合であっても、自動的にユーザの意図する主被写体を抽出することが可能である。
【0101】
(2)適正に検出された主被写体の撮像に適するように撮像条件を設定するので、主被写体に最適な撮像条件の設定を行いながら、追尾又は注視の安定制御を行うことが可能になる。
【0102】
(3)適正に検出された主被写体の方向又は位置に光学系の光軸方向を制御するようにしたので、不必要な光軸制御を行うのを防止でき、入力画像の安定性を確保することが可能である。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係る撮像装置の要部構成図である。
【図2】図1中の画像処理部3の内部構成を示すブロック図である。
【図3】第1実施形態に係る主被写体の方向等の推定処理を示すフローチャートである。
【図4】第1実施形態に係る撮像制御処理を示すフローチャートである。
【図5】本発明の第2実施形態に係る撮像装置の構成を示すブロック図である。
【図6】第2実施形態に係る処理を示すフローチャートである。
【符号の説明】
1 結像光学系
2 映像センサ
3 画像処理部
4a〜4d マイクロフォン
5 音声処理部
6 主被写体方向等推定部
7 制御部
10 光軸方向制御部

Claims (6)

  1. 画像情報を入力する第一のセンサと、
    視覚情報以外の感覚情報である二次感覚情報を入力する少なくとも1種類以上の二次センサと、
    前記第一のセンサから入力された画像情報を処理して予め登録された特定人物から主被写体の特定人物を検出し、前記検出した特定人物の位置と前記検出の結果の信頼度とを出力する画像情報処理手段と、
    前記二次センサから入力された二次感覚情報を処理して予め登録された特定人物から主被写体の特定人物を検出し、前記検出した特定人物の位置と前記検出の結果の信頼度とを出力する二次感覚情報処理手段と、
    前記画像情報処理手段により検出された主被写体の特定人物と前記二次感覚情報処理手段により検出された特定人物とが一致しているか否かを判定する判定手段と、
    前記判定手段により特定人物が一致していると判定された場合は、前記画像情報処理手段により検出された特定人物の位置と前記検出の結果の信頼度、及び前記二次感覚情報処理手段により検出された特定人物の位置と前記検出の結果の信頼度に基づいて、前記一致する特定人物の位置を推定する推定手段と、を備えることを特徴とする主被写体推定装置。
  2. 前記二次感覚情報処理手段は、前記二次センサとしてのマイクロフォンから入力された音声を処理して予め登録された特定人物から主被写体の特定人物を検出することを特徴とする請求項1に記載の主被写体推定装置。
  3. 前記判定手段により特定人物が一致していないと判定された場合は、前記推定手段は前記主被写体の位置を推定せず、前記画像情報処理手段及び前記二次感覚情報処理手段は、前記検出とは異なる検出手法によって主被写体の特定人物を検出することを特徴とする請求項1又は2に記載の主被写体推定装置。
  4. 前記判定手段は、さらに、前記画像情報処理手段により検出された主被写体の位置と前記二次感覚情報処理手段により検出された位置が所定量以上離れているか否か判定し、前記判定手段により特定人物が一致していると判定され且つ前記位置が所定量以上離れていないと判断された場合に、前記推定手段は、前記位置の推定を行うことを特徴とする請求項1乃至3のいずれか一項に記載の主被写体推定装置。
  5. 前記一致する特定人物ごとに設定された撮像条件に基づき、前記第一のセンサの入力における撮像を制御する制御手段、をさらに有することを特徴とする請求項1乃至4のいずれか一項に記載の主被写体推定装置。
  6. 画像情報を入力する第一のセンサから入力された画像情報を処理して予め登録された特定人物から主被写体の特定人物を検出し、前記検出した特定人物の位置と前記検出の結果の信頼度とを出力する画像情報処理ステップと、
    視覚情報以外の感覚情報である二次感覚情報を入力する少なくとも1種類以上の二次センサから入力された二次感覚情報を処理して予め登録された特定人物から主被写体の特定人物を検出し、前記検出した特定人物の位置と前記検出の結果の信頼度とを出力する二次感覚情報処理ステップと、
    前記画像情報処理ステップにより検出された主被写体の特定人物と前記二次感覚情報処理ステップにより検出された特定人物が一致しているか否かを判定する判定ステップと、
    前記判定ステップにより特定人物が一致していると判定された場合は、前記画像情報処理ステップにより検出された特定人物の位置と前記検出の結果の信頼度、及び前記二次感覚情報処理ステップにより検出された特定人物の位置と前記検出の結果の信頼度に基づいて前記一致する特定人物の位置を推定する推定ステップと、を備えることを特徴とする主被写体推定方法。
JP2001110530A 2001-04-09 2001-04-09 主被写体推定装置及び主被写体推定方法 Expired - Fee Related JP4669150B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001110530A JP4669150B2 (ja) 2001-04-09 2001-04-09 主被写体推定装置及び主被写体推定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001110530A JP4669150B2 (ja) 2001-04-09 2001-04-09 主被写体推定装置及び主被写体推定方法

Publications (3)

Publication Number Publication Date
JP2002312796A JP2002312796A (ja) 2002-10-25
JP2002312796A5 JP2002312796A5 (ja) 2008-05-22
JP4669150B2 true JP4669150B2 (ja) 2011-04-13

Family

ID=18962281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001110530A Expired - Fee Related JP4669150B2 (ja) 2001-04-09 2001-04-09 主被写体推定装置及び主被写体推定方法

Country Status (1)

Country Link
JP (1) JP4669150B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11212613B2 (en) 2018-12-06 2021-12-28 Panasonic Intellectual Property Management Co., Ltd. Signal processing device and signal processing method

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005354223A (ja) * 2004-06-08 2005-12-22 Toshiba Corp 音源情報処理装置、音源情報処理方法、音源情報処理プログラム
JP4600736B2 (ja) * 2004-07-22 2010-12-15 ソニー株式会社 ロボット制御装置および方法、記録媒体、並びにプログラム
JP4257612B2 (ja) 2005-06-06 2009-04-22 ソニー株式会社 録音装置及び録音装置の調整方法
JP4845715B2 (ja) 2006-12-22 2011-12-28 キヤノン株式会社 画像処理方法、画像処理装置、プログラム、及び記憶媒体
JP2010041485A (ja) * 2008-08-06 2010-02-18 Pioneer Electronic Corp 映像音声出力装置
JP4772839B2 (ja) 2008-08-13 2011-09-14 株式会社エヌ・ティ・ティ・ドコモ 画像識別方法および撮像装置
JP6070339B2 (ja) * 2013-03-26 2017-02-01 富士ゼロックス株式会社 音解析装置、音解析システムおよびプログラム
JP6464449B2 (ja) * 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
JP2017182511A (ja) * 2016-03-30 2017-10-05 アイシン精機株式会社 車両用セキュリティ装置
JP6862202B2 (ja) * 2017-02-08 2021-04-21 キヤノン株式会社 画像処理装置、撮像装置および制御方法
JP6565084B2 (ja) 2017-03-29 2019-08-28 本田技研工業株式会社 物体認証装置および物体認証方法
WO2018207453A1 (ja) * 2017-05-08 2018-11-15 ソニー株式会社 情報処理装置
JP6766219B2 (ja) * 2019-05-15 2020-10-07 キヤノン株式会社 画像処理方法、画像処理装置及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000092369A (ja) * 1998-09-10 2000-03-31 Sony Corp 自動追尾装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000092369A (ja) * 1998-09-10 2000-03-31 Sony Corp 自動追尾装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11212613B2 (en) 2018-12-06 2021-12-28 Panasonic Intellectual Property Management Co., Ltd. Signal processing device and signal processing method

Also Published As

Publication number Publication date
JP2002312796A (ja) 2002-10-25

Similar Documents

Publication Publication Date Title
CN107862243B (zh) 搜索设备、包括该搜索设备的摄像设备和搜索方法
US8538252B2 (en) Camera
JP4669150B2 (ja) 主被写体推定装置及び主被写体推定方法
JP5090474B2 (ja) 電子カメラおよび画像処理方法
US7945938B2 (en) Network camera system and control method therefore
US6134339A (en) Method and apparatus for determining the position of eyes and for correcting eye-defects in a captured frame
US11812132B2 (en) Imaging device, control method therefor, and recording medium
US10893191B2 (en) Image capturing apparatus, method of controlling the same, and storage medium
JP2007081682A (ja) 画像処理装置、画像処理方法、及び、情報処理装置が実行可能なプログラム
JP2007074143A (ja) 撮像装置及び撮像システム
JP2007156493A (ja) 音声区間検出装置及び方法並びに音声認識システム
JP2002516535A (ja) オーディオソースの位置決定
JP2015104016A (ja) 被写体検出装置、撮像装置、被写体検出装置の制御方法、被写体検出装置の制御プログラムおよび記憶媒体
JP2007521572A (ja) フィーチャー認識のための装置及び方法
JP2010154259A (ja) 画像音声処理装置
JP2009239347A (ja) 画像処理装置および画像処理プログラム
US20210256713A1 (en) Image processing apparatus and image processing method
US20170227459A1 (en) Information processing apparatus, information processing method, and program
JP2021132362A (ja) 被写体追尾装置、被写体追尾方法、コンピュータプログラム及び記憶媒体
JP2001067098A (ja) 人物検出方法と人物検出機能搭載装置
Zhang et al. Boosting-based multimodal speaker detection for distributed meetings
JP2001111882A (ja) 被写体検出装置、画像処理装置、画像処理システム、被写体検出方法、画像処理方法、及び記憶媒体
JP4781248B2 (ja) 撮像装置、撮像装置の制御方法、プログラム及び記録媒体
JP6896818B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP5383207B2 (ja) 情報処理装置、制御方法、コンピュータプログラム、および記憶媒体

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060407

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080404

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080404

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees