JP2021184564A

JP2021184564A - 画像追尾装置

Info

Publication number: JP2021184564A
Application number: JP2020089692A
Authority: JP
Inventors: 淳平松田; Junpei Matsuda; 清和佐々木; Kiyokazu Sasaki; 充義岡本; Mitsuyoshi Okamoto
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2021-12-02
Anticipated expiration: 2040-05-22
Also published as: US20210366131A1; JP6785481B1; US11538172B2

Abstract

【課題】画像データにおいて被写体を追尾する精度を良くすることができる画像追尾装置を提供する。【解決手段】被写体が撮像された動画像において被写体を追尾する画像追尾装置（１００）であって、動画像を示す画像データを取得する画像取得部（１１５）と、取得された画像データにおいて少なくとも１つの被写体の顔に対応する顔領域を検出して、動画像において顔領域を追尾する第１検出部（１２２）と、画像データにおいて、少なくとも１つの被写体の顔を包含する頭部に対応する頭部領域を検出して、動画像において頭部領域を追尾する第２検出部（１２４）と、第１検出部による顔領域の追尾結果と第２検出部による頭部領域の追尾結果とを互いに切り替えるように用いて、被写体を追尾する制御部（１３５）とを備える。【選択図】図２

Description

本開示は、画像データにおいて被写体を追尾する画像追尾装置に関する。

特許文献１は、画像データ中の２つの領域を用いて被写体を追尾する追尾装置を開示している。特許文献１の追尾装置は、被写体の顔部を追尾する顔追尾部と、胸部などの顔部以外の周辺部位を追尾する周辺追尾部とを備え、顔部の追尾が出来ない場合に周辺部位の追尾に切り替えている。周辺追尾部の追尾対象とする周辺部位は、予め設定された距離だけ顔部から下方に離れた位置というような位置関係により設定される。これにより、特許文献１の追尾装置は、追尾中の周辺部位から設定された距離だけ上方に顔部が存在するという推定に基づいて、推定された位置で顔部又は顔部に対応する肌色の色情報が検出されたときに、顔部の追尾に戻っている。

特開２０１３−１２９４１号公報

本開示は、画像データにおいて被写体を追尾する精度を良くすることができる画像追尾装置を提供する。

本開示の一態様における画像追尾装置は、被写体が撮像された動画像において被写体を追尾する画像追尾装置であって、動画像を示す画像データを取得する画像取得部と、取得された画像データにおいて少なくとも１つの被写体の顔に対応する顔領域を検出して、動画像において顔領域を追尾する第１検出部と、画像データにおいて、少なくとも１つの被写体の顔を包含する頭部に対応する頭部領域を検出して、動画像において頭部領域を追尾する第２検出部と、第１検出部による顔領域の追尾結果と第２検出部による頭部領域の追尾結果とを互いに切り替えるように用いて、被写体を追尾する制御部とを備える。

本開示の別の態様における画像追尾装置は、被写体が撮像された動画像において被写体を追尾する画像追尾装置であって、動画像を示す画像データを取得する画像取得部と、取得された画像データにおいて被写体の顔領域を検出して、動画像において顔領域を追尾する第１検出部と、画像データにおいて被写体の頭部領域を検出して、動画像において頭部領域を追尾する第２検出部と、主要被写体を指定するユーザ操作を入力する操作部と、第１及び第２検出部の追尾結果に基づいて、画像データにおいて主要被写体を特定する情報である主要被写体情報を管理して、動画像において主要被写体を追尾する制御部とを備える。第１及び第２検出部により複数の被写体に対応する複数の領域が追尾された状態において、主要被写体を変更するユーザ操作が入力された場合、制御部は、当該ユーザ操作が入力されたときの第１又は第２検出部の追尾結果に基づいて、変更前の主要被写体を特定する情報を、変更後の主要被写体を特定する情報に置き換えるように主要被写体情報を更新する。

本開示に係る画像追尾装置によると、第１検出部による顔領域の追尾結果と第２検出部による頭部領域の追尾結果とにより、画像データにおいて被写体を追尾する精度を良くすることができる

実施の形態１に係るデジタルカメラの構成を示す図デジタルカメラの動作の概要を説明するための図デジタルカメラにおける被写体追尾処理を例示するフローチャート被写体追尾処理においてデジタルカメラが保持するデータを例示する図デジタルカメラにおける被写体追尾処理を説明するための図デジタルカメラにおける主要被写体判定の処理を例示するフローチャートデジタルカメラにおける主要被写体判定の処理を説明するための図デジタルカメラにおける主要被写体選択の処理を例示するフローチャートデジタルカメラにおける主要被写体選択の処理を説明するための図デジタルカメラにおける顔追尾処理を例示するフローチャートデジタルカメラにおける顔認識情報を例示する図デジタルカメラにおける同一候補判定の処理を例示するフローチャートデジタルカメラにおける頭部追尾処理を例示するフローチャートデジタルカメラにおける頭部認識情報を例示する図

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、発明者（ら）は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

（実施の形態１)
実施の形態１では、本開示に係る画像追尾装置の一例として、画像認識技術に基づいて被写体の顔及び頭部を検出し、顔及び頭部の検出結果を用いて被写体を追尾するデジタルカメラについて説明する。

１．構成
図１は、本実施形態に係るデジタルカメラ１００の構成を示す図である。本実施形態のデジタルカメラ１００は、イメージセンサ１１５と、画像処理エンジン１２０と、表示モニタ１３０と、コントローラ１３５とを備える。さらに、デジタルカメラ１００は、バッファメモリ１２５と、カードスロット１４０と、フラッシュメモリ１４５と、操作部１５０と、通信モジュール１５５とを備える。また、デジタルカメラ１００は、例えば光学系１１０及びレンズ駆動部１１２を備える。

光学系１１０は、フォーカスレンズ、ズームレンズ、光学式手ぶれ補正レンズ（ＯＩＳ）、絞り、シャッタ等を含む。フォーカスレンズは、イメージセンサ１１５上に形成される被写体像のフォーカス状態を変化させるためのレンズである。ズームレンズは、光学系で形成される被写体像の倍率を変化させるためのレンズである。フォーカスレンズ等は、それぞれ１枚又は複数枚のレンズで構成される。

レンズ駆動部１１２は、光学系１１０におけるフォーカスレンズ等を駆動する。レンズ駆動部１１２はモータを含み、コントローラ１３５の制御に基づいてフォーカスレンズを光学系１１０の光軸に沿って移動させる。レンズ駆動部１１２においてフォーカスレンズを駆動する構成は、ＤＣモータ、ステッピングモータ、サーボモータ、または超音波モータなどで実現できる。

イメージセンサ１１５は、光学系１１０を介して形成された被写体像を撮像して、撮像データを生成する。撮像データは、イメージセンサ１１５による撮像画像を示す画像データを構成する。イメージセンサ１１５は、所定のフレームレート（例えば、３０フレーム／秒）で新しいフレームの画像データを生成する。イメージセンサ１１５における、撮像データの生成タイミングおよび電子シャッタ動作は、コントローラ１３５によって制御される。イメージセンサ１１５は、ＣＭＯＳイメージセンサ、ＣＣＤイメージセンサ、またはＮＭＯＳイメージセンサなど、種々のイメージセンサを用いることができる。

イメージセンサ１１５は、動画像、静止画像の撮像動作、スルー画像の撮像動作等を実行する。スルー画像は主に動画像であり、ユーザが例えば静止画像の撮像のための構図を決めるために表示モニタ１３０に表示される。スルー画像は、本実施形態における動画像の一例である。イメージセンサ１１５は、本実施形態において撮像部として構成される画像取得部の一例である。

画像処理エンジン１２０は、イメージセンサ１１５から出力された撮像データに対して各種の処理を施して画像データを生成したり、画像データに各種の処理を施して、表示モニタ１３０に表示するための画像を生成したりする。各種処理としては、ホワイトバランス補正、ガンマ補正、ＹＣ変換処理、電子ズーム処理、圧縮処理、伸張処理等が挙げられるが、これらに限定されない。画像処理エンジン１２０は、ハードワイヤードな電子回路で構成してもよいし、プログラムを用いたマイクロコンピュータ、プロセッサなどで構成してもよい。

本実施形態において、画像処理エンジン１２０は、撮像画像の画像認識によって人の顔及び頭部といった被写体の検出機能と追尾機能とを実現する顔認識部１２２及び頭部認識部１２４を含む。顔認識部１２２及び頭部認識部１２４は、それぞれ本実施形態における第１検出部及び第２検出部の一例である。

顔認識部１２２は、例えば、テンプレートマッチングといったルールベースの画像認識処理によって顔検出を行う。顔検出は、種々の画像認識アルゴリズムによって行われてもよい。例えば、目及び口など顔の局所領域に注目した特徴量ベースの手法を用いることができる。顔認識部１２２は、後述するように、顔検出に基づく顔追尾処理を行う。

頭部認識部１２４は、例えば、畳み込みニューラルネットワーク等のニューラルネットワークによる学習済みモデルによって頭部検出を行う。頭部認識部１２４は、後述するように、頭部検出に基づく頭部追尾処理を行う。

頭部認識部１２４の学習済みモデルは、例えば、横顔、後頭部を含む全方向の頭部が映った画像を正解とする正解ラベルを関連付けた画像データを教師データとして用いた教師あり学習によって得ることができる。学習済みモデルは、検出結果に関する信頼度或いは尤度を生成してもよい。頭部認識部１２４の学習済みモデルはニューラルネットワークに限らず、種々の画像認識に関する機械学習モデルであってもよい。

本実施形態のデジタルカメラ１００において、頭部認識部１２４の学習済みモデルは、ルールベース等による顔認識部１２２と比較して処理負荷が大きいことから、顔認識部１２２よりも実行周期を長く設定している。そこで本実施形態における頭部認識部１２４は、学習済みモデルの実行周期でない場合に、学習済みモデルによる検出結果を用いて検出結果の補間を行う。頭部認識部１２４は、例えば高精度に補間をするための動き検出部を備えてもよい。動き検出部は、例えば画像データのフレーム間の動きベクトルを用いて、学習済みモデルの検出結果における位置の変化を算出する。

なお、顔認識部１２２及び頭部認識部１２４は、画像処理エンジン１２０とは別に構成されてもよく、コントローラ１３５と一体的に構成されてもよい。また、顔認識部１２２及び頭部認識部１２４は、人に限らず、動物を被写体として検出と追尾を行ってもよい。

表示モニタ１３０は、種々の情報を表示する表示部の一例である。例えば、表示モニタ１３０は、イメージセンサ１１５で撮像され、画像処理エンジン１２０で画像処理された画像データが示す画像（スルー画像）を表示する。また、表示モニタ１３０は、ユーザがデジタルカメラ１００に対して種々の設定を行うためのメニュー画面等を表示する。表示モニタ１３０は、例えば、液晶ディスプレイデバイスまたは有機ＥＬデバイスで構成できる。

操作部１５０は、デジタルカメラ１００の外装に設けられた操作釦や操作ダイヤル等の少なくとも１つの操作インタフェースの総称であり、使用者による操作を受け付ける。操作部１５０は、例えば、レリーズ釦、モードダイヤル、表示モニタ１３０のタッチパネル、ジョイスティックなどを含む。操作部１５０はユーザによる操作を受け付けると、ユーザ操作に対応した操作信号をコントローラ１３５に送信する。

コントローラ１３５は、ハードウェアコントローラであり、デジタルカメラ１００全体の動作を統括制御する。コントローラ１３５はＣＰＵ等を含み、ＣＰＵがプログラム（ソフトウェア）を実行することで所定の機能を実現する。コントローラ１３５は、ＣＰＵに代えて、所定の機能を実現するように設計された専用の電子回路で構成されるプロセッサを含んでもよい。すなわち、コントローラ１３５は、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＤＳＵ、ＦＰＧＡ、ＡＳＩＣ等の種々のプロセッサで実現できる。コントローラ１３５は１つまたは複数のプロセッサで構成してもよい。また、コントローラ１３５は、画像処理エンジン１２０などと共に１つの半導体チップで構成してもよい。

バッファメモリ１２５は、画像処理エンジン１２０やコントローラ１３５のワークメモリとして機能する記録媒体である。バッファメモリ１２５は、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより実現される。フラッシュメモリ１４５は不揮発性の記録媒体である。バッファメモリ１２５は、例えば後述する主要被写体情報Ｄ０、顔追尾情報Ｄ２及び頭部追尾情報Ｄ４を格納する。

また、図示していないが、コントローラ１３５は各種の内部メモリを有してもよく、例えばＲＯＭを内蔵してもよい。ＲＯＭには、コントローラ１３５が実行する様々なプログラムが記憶されている。また、コントローラ１３５は、ＣＰＵの作業領域として機能するＲＡＭを内蔵してもよい。

カードスロット１４０は、着脱可能なメモリカード１４２が挿入される手段である。カードスロット１４０は、メモリカード１４２を電気的及び機械的に接続可能である。メモリカード１４２は、内部にフラッシュメモリ等の記録素子を備えた外部メモリである。メモリカード１４２は、画像処理エンジン１２０で生成される画像データなどのデータを格納できる。

通信モジュール１５５は、通信規格ＩＥＥＥ８０２．１１またはＷｉ−Ｆｉ規格等に準拠した通信を行う通信モジュール（回路）である。デジタルカメラ１００は、通信モジュール１５５を介して、他の機器と通信することができる。デジタルカメラ１００は、通信モジュール１５５を介して、他の機器と直接通信を行ってもよいし、アクセスポイント経由で通信を行ってもよい。通信モジュール１５５は、インターネット等の通信ネットワークに接続可能であってもよい。

２．動作
以上のように構成されるデジタルカメラ１００の動作について説明する。

デジタルカメラ１００は、光学系１１０を介して形成された被写体像をイメージセンサ１１５で撮像して撮像データを生成する。画像処理エンジン１２０は、イメージセンサ１１５により生成された撮像データに対して各種処理を施して画像データを生成する。コントローラ１３５は、例えば静止画像の撮像動作において、画像処理エンジン１２０にて生成された画像データをカードスロット１４０に装着されたメモリカード１４２に記録する。

また、デジタルカメラ１００は、スルー画像の撮像動作において、表示モニタ１３０にスルー画像を表示させる。ユーザは、表示モニタ１３０のスルー画像により、静止画像の撮像のための構図を確認することができる。コントローラ１３５は、例えばユーザによるレリーズボタンの操作に応じて、光学系１１０のフォーカスレンズを駆動するレンズ駆動部１１２を制御する合焦動作を行う。

２−１．動作の概要
以上のような撮像動作時に、本実施形態のデジタルカメラ１００は、例えばオートフォーカス（ＡＦ）制御に用いるために、スルー画像等の撮像画像Ｉｍに対する画像認識を行って、動画像において被写体を追尾する。例えば合焦の対象となる主要被写体が、追尾によって継続的に特定される。図２を用いて、本実施形態に係るデジタルカメラ１００の追尾の動作の概要を説明する。

図２（Ａ）は、デジタルカメラ１００の主要被写体としての人物１０が撮像される動画像を時間軸に沿って例示する。図２（Ｂ）は、図２（Ａ）の例における顔認識部１２２の追尾結果を示す。図２（Ｃ）は、同例における頭部認識部１２４の追尾結果を示す。

図２（Ａ）は、人物１０が時刻ｔ１〜ｔ７の間に、デジタルカメラ１００に対して正面方向から横を向いた（ｔ１〜ｔ４）後、再び正面方向を向く（ｔ４〜ｔ７）例を示す。時刻ｔ１〜ｔ７の間隔は、例えば撮像画像Ｉｍのフレーム周期に対応する。なお、図２では時刻ｔ２，ｔ３，ｔ５，ｔ６における人物１０の図示を省略している。

図２（Ｂ），（Ｃ）に示すように、本実施形態のデジタルカメラ１００では、顔認識部１２２と頭部認識部１２４が並行して、それぞれ顔追尾処理と頭部追尾処理を行う。顔追尾処理では、顔認識部１２２が、撮像画像Ｉｍにおいて顔が映っている領域を示す顔領域Ｒｆ１を認識する画像認識処理を繰り返す。頭部追尾処理では、頭部認識部１２４が、撮像画像Ｉｍにおいて頭部が映っている領域を示す顔領域Ｒｈ１を認識する画像認識処理を繰り返す。

図２（Ａ）〜（Ｃ）の例の時刻ｔ１〜ｔ３において、本実施形態のデジタルカメラ１００は、顔認識部１２２による追尾結果を用いて、主要被写体としての人物１０を追尾する。ここで、人物１０の顔向き或いは姿勢が変化する等により、動画像に人物１０は映っているが正面を示す顔が映らなくなる場合が生じ得る。この場合、図２（Ｂ）に例示するように、顔認識部１２２が顔領域を追尾できない（即ち顔追尾のロストが生じる）事態が想定される。

そこで、本実施形態のデジタルカメラ１００は、図２（Ｂ），（Ｃ）に例示するように、顔追尾のロストが生じた時刻ｔ４において、顔認識部１２２の追尾結果の代わりに頭部認識部１２４の追尾結果を用いる切り替えを行う。この際、デジタルカメラ１００は、顔認識部１２２の追尾結果と頭部認識部１２４の追尾結果が、同一の被写体を示すか否かを判定する。例えば、図２（Ｂ），（Ｃ）では、時刻ｔ３の顔領域Ｒｆ１が人物１０の顔に対応し、時刻ｔ４の頭部領域Ｒｈ１が同じ人物１０の顔を包含した頭部に対応することに応じた各領域Ｒｆ１，Ｒｈ１の位置関係に基づき、被写体の同一性を判定できる。

このように本実施形態のデジタルカメラ１００は、人物１０の顔向き及び姿勢等によって顔認識部１２２による被写体の追尾が困難な場合であっても、頭部認識部１２４の追尾結果を用いて被写体を継続して追尾することができる。

また、本実施形態のデジタルカメラ１００は、頭部認識部１２４の追尾結果による被写体の追尾中に、再び顔認識部１２２の追尾結果が得られると、顔認識部１２２の追尾結果を用いた被写体の追尾に戻す。図２（Ｂ），（Ｃ）の例では、顔認識部１２２による追尾結果が得られる時刻ｔ６から、再び顔認識部１２２の追尾結果を用いた追尾が行われる。この際、デジタルカメラ１００は、顔認識部１２２から頭部認識部１２４の追尾結果に切り替える場合と同様に、被写体の同一性を判定する。

以上のようなデジタルカメラ１００によると、被写体の姿勢が変化して顔認識部１２２の追尾結果が得られない場合に、並行して頭部追尾処理を行う頭部認識部１２４の追尾結果を用いることで、主要被写体といった特定の被写体を継続して追尾することができる。これにより、画像データにおける特定の被写体の位置を継続して得ることができるため、例えば合焦動作を精度良く行うことができる。

なお、本実施形態において、例えばフレーム周期より遅い周期で頭部検出を実行する頭部認識部１２４は、前回の検出時における頭部領域Ｒｈ１の情報を、例えば動き検出部によって補正して用いることで、追尾結果を補間してもよい。図２（Ａ）〜（Ｃ）の例では、フレーム周期に対応して顔認識部１２２の追尾結果が得られる一方で、時刻ｔ２，ｔ３，ｔ５，ｔ６では頭部検出が実行されないため、当該時刻の頭部認識部１２４の追尾結果が補間される。また、頭部認識部１２４は、前回の頭部領域Ｒｈ１の情報を、動き検出部による補正を行わずに、そのまま用いて追尾結果を補間してもよい。

２−２．被写体追尾処理
本実施形態のデジタルカメラ１００は、以上のように顔認識部１２２及び頭部認識部１２４の追尾結果に基づいて被写体を追尾する被写体追尾処理を行う。被写体追尾処理において、デジタルカメラ１００は、各認識部１２２，１２４の追尾結果に基づいて、主要被写体を追尾するとともに、他の被写体を主要被写体の候補として追尾する。本実施形態における被写体追尾処理について、図３，図４及び図５を用いて説明する。

図３は、本実施形態のデジタルカメラ１００における被写体追尾処理を例示するフローチャートである。図４は、被写体追尾処理においてデジタルカメラ１００が用いるデータを例示する図である。図５は、デジタルカメラ１００における被写体追尾処理を説明するための図である。以下では、図５の撮像画像Ｉｍにおいて、人物１０が主要被写体である場合を例に説明する。

図３のフローチャートに示す被写体追尾処理は、例えば並列に実行される顔追尾処理および頭部追尾処理（詳細は後述）と同期して、所定の周期で繰り返し実行される。所定の周期は、例えば撮像画像Ｉｍのフレーム周期である。本フローチャートの各処理は、例えばデジタルカメラ１００のコントローラ１３５により実行される。

まず、デジタルカメラ１００のコントローラ１３５は、例えばバッファメモリ１２５から、前回の被写体追尾処理の結果として得られた前のフレームに関する主要被写体情報及び副被写体情報を取得する（Ｓ１）。主要被写体情報は、主要被写体を特定する情報を示す。副被写体情報は、主要被写体以外の被写体の情報を示す。図４（Ａ）に、ステップＳ１で取得された主要被写体情報Ｄ０を例示する。

本実施形態において、図４（Ａ）に例示するような主要被写体情報Ｄ０、及び副被写体情報（図示せず）は、被写体追尾処理が実行される毎に繰り返し更新される。主要被写体情報Ｄ０は、例えば前回の顔認識部１２２の追尾結果に応じて設定される、主要被写体に対応した顔領域の位置及びサイズを含む。なお、被写体追尾処理の初回実行時には、主要被写体情報Ｄ０と副被写体情報は、例えば顔認識部１２２または頭部認識部１２４の追尾結果に基づいて設定可能である。

主要被写体情報Ｄ０と副被写体情報における顔領域または頭部領域の位置は、例えば撮像画像Ｉｍ上の水平位置Ｘ及び垂直位置Ｙで規定され、例えば矩形状の顔領域Ｒｆ１，頭部領域Ｒｈ１の中心位置を示す。顔領域または頭部領域のサイズは、例えば矩形状の顔領域Ｒｆ１，頭部領域Ｒｈ１の幅Ｗ及び高さＨを示す。

図３に戻り、コントローラ１３５は、顔認識部１２２から、現在のフレームを処理対象とした今回の顔追尾処理により生成された顔追尾情報Ｄ２を取得する（Ｓ２）。顔追尾情報Ｄ２は、顔認識部１２２による追尾結果を示す情報であり、例えば図４（Ｂ）に示すように顔領域の位置及びサイズと関連付けて含む。顔追尾情報Ｄ２は、複数の被写体に関する複数の顔領域の情報を含んでもよい。

コントローラ１３５は、取得した前回の主要被写体情報Ｄ０と今回の顔追尾情報Ｄ２とに基づいて、顔追尾情報Ｄ２から今回の主要被写体と判定される顔領域の有無を決定する主要被写体判定の処理（Ｓ３）を行う。コントローラ１３５は、今回の顔追尾情報Ｄ２における各顔領域の位置及びサイズと、前回の主要被写体情報Ｄ０の位置及びサイズとを比較して、顔追尾情報Ｄ２において、前回の主要被写体と同じ被写体と特定できる顔領域を、今回の主要被写体として判定する。主要被写体判定の処理（Ｓ３）の詳細については後述する。

コントローラ１３５は、主要被写体判定の処理（Ｓ３）の結果に基づき、顔追尾情報Ｄ２において主要被写体があるか否かを判断する（Ｓ４）。

顔追尾情報Ｄ２において主要被写体があると判断した場合（Ｓ４でＹＥＳ）、コントローラ１３５は、顔追尾情報Ｄ２における顔領域の位置及びサイズに基づいて、主要被写体情報Ｄ０を更新する（Ｓ９）。

図５（Ａ）は、顔追尾情報Ｄ２において、主要被写体である人物１０の顔領域Ｒｆ１がある場合（Ｓ４でＹＥＳ）の撮像画像Ｉｍを例示する。図５（Ａ）の例では、主要被写体情報Ｄ０は、図４（Ｂ）に例示する顔領域Ｒｆ１の位置（Ｘｆ１，Ｙｆ１）及びサイズＷｆ１，Ｈｆ１に、図４（Ａ）に例示した位置（Ｘｍ１，Ｙｍ１）及びサイズＷｍ１，Ｈｍ１を書き換えるように更新される（Ｓ９）。

一方、コントローラ１３５は、顔追尾情報Ｄ２において主要被写体がないと判断した場合（Ｓ４でＮＯ）、頭部認識部１２４から現在のフレームを処理対象とした今回の頭部追尾処理により生成された頭部追尾情報Ｄ４を取得する（Ｓ５）。頭部追尾情報Ｄ４は、頭部認識部１２４による追尾結果を示す情報であり、例えば図４（Ｃ）に示すように頭部領域の位置及びサイズと関連付けて含む。顔追尾情報Ｄ２と同様に、頭部追尾情報Ｄ４は、複数の頭部領域の情報を含んでもよい。

図５（Ｂ）は、撮像画像Ｉｍにおける人物１０の頭部領域Ｒｈ１を例示する。本実施形態のデジタルカメラ１００において、頭部領域Ｒｈ１は、顔を包含する頭部全体に対応する領域として認識されるため、図５（Ａ）に例示するように顔のみに対応する領域として認識される顔領域Ｒｆ１よりもサイズが大きい。そこで、各種頭部領域において顔に相当する部分を顔領域と比較可能にする観点から、コントローラ１３５は、頭部追尾情報Ｄ４における頭部領域のサイズを所定の割合だけ小さく補正する（Ｓ６）。所定の割合は、例えば頭部全体のうち顔の部分に相当すると想定される割合である（例えば９割）。

次に、コントローラ１３５は、ステップＳ３における顔追尾情報Ｄ２の代わりに、補正後の頭部追尾情報Ｄ４を用いて、ステップＳ３と同様に主要被写体判定の処理（Ｓ７）を行う。コントローラ１３５は、前回の主要被写体と同じ被写体と特定できる（補正後の）頭部領域を、今回の主要被写体として判定する。

コントローラ１３５は、主要被写体判定の処理（Ｓ７）の結果に基づき、補正後の頭部追尾情報Ｄ４において主要被写体があるか否かを判断する（Ｓ８）。

補正後の頭部追尾情報Ｄ４において主要被写体があると判断した場合（Ｓ８でＹＥＳ）、コントローラ１３５は、補正後の頭部追尾情報Ｄ４における頭部領域の位置及びサイズに基づいて、主要被写体情報Ｄ０を更新する（Ｓ９）。図５（Ｂ）の例では、主要被写体情報Ｄ０は、図４（Ｃ）に例示する頭部領域Ｒｈ１のサイズＷｈ１，Ｈｈ１からステップＳ６で補正したサイズに、図４（Ａ）に例示するサイズＷｍ１，Ｈｍ１を書き換えるように更新される。この際、主要被写体情報Ｄ０における位置（Ｘｍ１，Ｙｍ１）は、例えば頭部領域Ｒｈ１の位置（Ｘｈ１，Ｙｈ１）に書き換えられる。

一方、コントローラ１３５は、頭部追尾情報Ｄ４において主要被写体がないと判断した場合（Ｓ８でＮＯ）、ステップＳ１０に進む。

コントローラ１３５は、顔追尾情報Ｄ２または頭部追尾情報Ｄ４に基づいて主要被写体の他の被写体があるか否かを判断する（Ｓ１０）。例えば、コントローラ１３５は、例えば顔追尾情報Ｄ２に基づき主要被写体があると判断した場合（Ｓ４でＹＥＳ）には、顔追尾情報Ｄ２において他の顔領域の有無を判断する。一方、コントローラ１３５は、頭部追尾情報Ｄ４に基づき主要被写体があると判断した場合（Ｓ８でＹＥＳ）には、頭部追尾情報Ｄ４において他の頭部領域の有無を判断する。

顔追尾情報Ｄ２または頭部追尾情報Ｄ４に基づき主要被写体の他の被写体があると判断した場合（Ｓ１０でＹＥＳ）、コントローラ１３５は、当該他の被写体としての顔領域または頭部領域に基づき、副被写体情報を更新する（Ｓ１１）。副被写体情報は、例えば、顔領域または頭部領域と、各顔領域または頭部領域に関連付けられた位置及びサイズとを含み、頭部追尾情報Ｄ４において主要被写体以外の頭部領域がある場合には、ステップＳ６における補正後のサイズによって更新される。

図５（Ｃ）は、頭部追尾情報Ｄ４において主要被写体の他に頭部領域がある場合（Ｓ１０でＹＥＳ）の撮像画像Ｉｍを例示する。本例では、頭部追尾情報Ｄ４において主要被写体の頭部領域Ｒｈ１の他に、頭部領域Ｒｈ２，Ｒｈ３があるため、頭部領域Ｒｈ２，Ｒｈ３と関連付けられた位置及びサイズによって副被写体情報が更新される（Ｓ１１）。

コントローラ１３５は、副被写体情報の更新（Ｓ１１）後、現在のフレームにおける被写体追尾処理を終了する。また、コントローラ１３５は、顔追尾情報Ｄ２または頭部追尾情報Ｄ４において主要被写体の他に顔領域または頭部領域がないと判断する（Ｓ１０）と、現在のフレームにおける被写体追尾処理を終了する。その後、次のフレームについて、ステップＳ１以降の処理が繰り返される。フレーム毎の被写体追尾処理によって主要被写体情報Ｄ０を逐次更新して管理することにより、主要被写体が追尾される。

以上の被写体追尾処理によると、前回の主要被写体情報Ｄ０と顔追尾情報Ｄ２とを比較して主要被写体判定の処理（Ｓ３）を行い、主要被写体がある場合（Ｓ４でＹＥＳ）には、顔追尾情報Ｄ２により主要被写体情報Ｄ０を更新する（Ｓ９）。顔追尾情報Ｄ２において主要被写体がない場合（Ｓ４でＮＯ）には、頭部追尾情報Ｄ４を用いた主要被写体判定の処理（Ｓ７）によって主要被写体があると（Ｓ８でＹＥＳ）、頭部追尾情報Ｄ４に基づき主要被写体情報Ｄ０が更新される（Ｓ９）。これにより、顔追尾情報Ｄ２による主要被写体の追尾ができない場合であっても、頭部追尾情報Ｄ４に基づいて主要被写体の追尾を継続することができる。

また、上記のステップＳ８において主要被写体があると判定された場合（Ｓ８でＹＥＳ）、補正後の頭部追尾情報Ｄ４によって主要被写体情報Ｄ０が更新される（Ｓ９）。これにより、次回以降の被写体追尾処理において取得する顔追尾情報Ｄ２との間で、顔追尾情報Ｄ２により主要被写体情報Ｄ０を更新した場合と同様に被写体の同一性を判定することができる（Ｓ３）。これにより、顔追尾情報Ｄ２において主要被写体がある（Ｓ４でＹＥＳ）場合、顔認識部１２２の追尾結果を用いた被写体の追尾に戻ることができる。

なお、上記のステップＳ１０では、コントローラ１３５は、ステップＳ４の判断に応じて、顔追尾情報Ｄ２または頭部追尾情報Ｄ４において他の被写体があるか否かを判断する例を説明した。ステップＳ１０において他の被写体があるか否かの判断は、特にこれに限らず、例えば顔追尾情報Ｄ２及び頭部追尾情報Ｄ４の両方に基づいて行われてもよい。

２−３．主要被写体判定
図６は、デジタルカメラ１００における主要被写体判定の処理（Ｓ３，Ｓ７）を例示するフローチャートである。図６に示すフローチャートによる各処理は、図３のステップＳ２で顔追尾情報Ｄ２を取得した後、及びステップＳ６で頭部追尾情報Ｄ４における頭部領域のサイズを補正した後、例えばデジタルカメラ１００のコントローラ１３５によって実行される。

ステップＳ３の処理は、前のフレームの主要被写体情報Ｄ０と現在のフレームの顔追尾情報Ｄ２が保持された状態で開始する。一方、ステップＳ７の処理は、上記の顔追尾情報Ｄ２の代わりにサイズ補正（Ｓ６）後の頭部追尾情報Ｄ４が保持された状態で開始する。

例えばステップＳ３の処理においては、まず、コントローラ１３５は、顔追尾情報Ｄ２から１つの顔領域を選択する(Ｓ２０)。

次に、コントローラ１３５は、顔追尾情報Ｄ２において選択した顔領域に関連付けられた位置と、主要被写体情報Ｄ０が示す前回の主要被写体の位置との間の差分を示す位置差分が所定距離以内であるか否かを判断する（Ｓ２１）。所定距離は、例えば連続する２フレーム間で同じ被写体の顔領域の位置を互いに比較した結果から、同じ被写体の位置であるとみなせる程度に小さい距離として予め設定される。

前回の主要被写体からの位置差が所定距離内である場合（Ｓ２１でＹＥＳ）、コントローラ１３５は、選択した顔領域のサイズと、主要被写体情報Ｄ０のサイズとの間の比率を示すサイズ比を算出して、サイズ比が所定範囲内であるか否かを判定する（Ｓ２２）。所定範囲は、例えばフレーム間で同じ被写体が映り得るサイズの変動とみなす範囲を規定する観点から、「１」よりも大きい上限値と「１」よりも小さい下限値で規定される。

前回の主要被写体からのサイズ比が所定範囲内である場合（Ｓ２２でＹＥＳ）、コントローラ１３５は、ステップＳ２０で選択した顔領域を、現在のフレームにおける主要被写体の候補である主要被写体候補に決定する（Ｓ２３）。主要被写体候補を示す情報は、例えばバッファメモリ１２５に保持される。

一方、前回の主要被写体からの位置差が所定距離内でない場合（Ｓ２１でＮＯ）、又は前回の主要被写体からのサイズ比が所定距離内でない場合（Ｓ２２でＮＯ）、選択した顔領域が、前回の主要被写体と同じ被写体ではないと判定できる。こうした場合、コントローラ１３５は、ステップＳ２３の主要被写体候補の決定をせずにステップＳ２４に進む。

コントローラ１３５は、顔追尾情報Ｄ２における全ての顔領域が選択済みか否かを判断する（Ｓ２４）。コントローラ１３５は、選択されていない顔領域がなくなるまで（Ｓ２４でＮＯ）、ステップＳ２０〜Ｓ２４の処理を繰り返す。

全ての顔領域が選択済みになると（Ｓ２４でＹＥＳ）、コントローラ１３５は、例えば、バッファメモリ１２５を参照して主要被写体候補があるか否かを判断する（Ｓ２５）。

主要被写体候補がある場合（Ｓ２５でＹＥＳ）、コントローラ１３５は、主要被写体候補から、現在の主要被写体を決定する（Ｓ２６）。主要被写体候補が１つの場合、当該候補が主要被写体に決定される。複数の主要被写体候補がある場合、コントローラ１３５は、顔領域の位置が主要被写体情報Ｄ０の位置に最も近い候補を主要被写体に決定する。

一方、コントローラ１３５は、主要被写体候補がないと判断すると（Ｓ２５でＮＯ）、主要被写体がロストしたと決定する（Ｓ２７）。この場合、例えば被写体追尾処理（図３）のステップＳ４において主要被写体がない（Ｓ４でＮＯ）と判断される。

コントローラ１３５は、主要被写体の決定（Ｓ２６）或いは主要被写体のロストの決定（Ｓ２７）後、例えば図３のステップＳ３の主要被写体判定の処理を終了して、ステップＳ４に進む。

一方、ステップＳ７の処理においては、コントローラ１３５は、ステップＳ２０において顔追尾情報Ｄ２から顔領域を選択する代わりにサイズ補正後（Ｓ６）の頭部追尾情報Ｄ４から頭部領域を選択して、以降の処理を上述と同様に行う（Ｓ２１〜Ｓ２７）。この場合、前回の主要被写体からの位置差及びサイズ比を用いた比較（Ｓ２１，Ｓ２２）は、顔が頭部よりも小さいことを考慮して補正済みの頭部領域を用いることにより、例えば顔領域の場合と同様の所定距離及び所定範囲を基準として実行できる。コントローラ１３５は、ステップＳ７の主要被写体判定の処理の終了後、図３のステップＳ８に進む。

以上の主要被写体判定の処理によると、前のフレームでの主要被写体を示す主要被写体情報Ｄ０と、現在のフレームでの顔追尾情報Ｄ２における顔領域または頭部追尾情報Ｄ４における頭部領域との間で、位置及びサイズの比較が行われる（Ｓ２１，Ｓ２２）。これにより、顔追尾情報Ｄ２または頭部追尾情報Ｄ４において、顔領域または頭部領域の位置とサイズが主要被写体情報Ｄ０と同程度である被写体を、現在のフレームでの主要被写体として決定することができる。

図７は、本実施形態のデジタルカメラ１００における主要被写体判定の処理を説明するための図である。図７は、顔認識部１２２の追尾結果から頭部認識部１２４の追尾結果に切り替える場合の主要被写体判定の処理（Ｓ７）における撮像画像Ｉｍを例示する。図７（Ａ）は、主要被写体判定の処理の開始時に、前のフレームでの主要被写体情報Ｄ０として顔領域Ｒｆ１の位置及びサイズが保持されている例を示す。図７（Ｂ）は、図７（Ａ）の例から、現在のフレームでの頭部追尾情報Ｄ４における頭部領域Ｒｈ１’が選択された（Ｓ２０）例を示す。図７（Ｂ）では、補正前後の頭部領域Ｒｈ１，Ｒｈ１’を例示している。補正後の頭部領域Ｒｈ１’は、補正前の頭部領域Ｒｈの内部で顔と想定される程度のサイズＷｈ１’，Ｈｈ１’を有する。

図７（Ｂ）の例では、主要被写体情報Ｄ０の位置（Ｘｆ１，Ｙｆ１）と、選択された頭部領域Ｒｈ１’の位置（Ｘｈ１，Ｙｈ１）とが近く、位置差が所定距離内である場合（Ｓ２１でＹＥＳ）を示す。さらに、主要被写体情報Ｄ０のサイズＷｆ１，Ｈｆ１が選択された頭部領域Ｒｈ１’のサイズＷｈ１’，Ｈｈ１’と同程度で、サイズ比が所定範囲内である場合（Ｓ２２でＹＥＳ）を例示する。このような場合、図７（Ｂ）に例示するように、顔領域Ｒｆ１及び補正後の頭部領域Ｒｈ１’といった被写体の顔に対応する領域は、同被写体の頭部に対応する頭部領域Ｒｈ１に実質的に包含されるような位置関係となり得る。

こうした観点から、図７（Ｂ）の例では、被写体の顔と頭部に対応して撮像画像Ｉｍ上で重畳する顔領域Ｒｆ１と頭部領域Ｒｈ１の位置及びサイズの関係に応じて、頭部領域Ｒｈ１’は、顔領域Ｒｆ１に基づく主要被写体情報Ｄ０と同一の被写体として主要被写体に決定される（Ｓ２６）。

以上のように、本実施形態のデジタルカメラ１００は、顔認識部１２２及び頭部認識部１２４により追尾されている被写体の中で、追尾結果の位置とサイズに基づく主要被写体判定の処理を行うことで、主要被写体情報の更新（Ｓ９）に利用することができる。なお、主要被写体情報Ｄ０の比較対象として、補正後の頭部領域Ｒｈ１’の代わりに、補正前の頭部領域Ｒｈ１が用いられてもよい。この場合、例えばステップＳ２２でサイズ比の基準とする所定範囲が、サイズ補正の分に応じて変更されてもよい。

２−４．主要被写体選択
本実施形態のデジタルカメラ１００は、被写体追尾処理において顔追尾情報Ｄ２または頭部追尾情報Ｄ４に複数の顔領域または頭部領域が含まれる場合、前述したように、主要被写体情報Ｄ０に加えて、副被写体情報を更新する。これによりデジタルカメラ１００は、副被写体情報から１つの被写体に対応する顔領域または頭部領域を選択するユーザ操作を受け付け、被写体追尾処理における新たな追尾対象として、選択された被写体を主要被写体に切り替える主要被写体選択の機能を提供する。

図８及び図９を用いて、本実施形態のデジタルカメラ１００における主要被写体選択の処理について説明する。

図８は、本実施形態のデジタルカメラ１００における主要被写体選択の処理を例示するフローチャートである。図８のフローチャートは、例えば所定の周期で実行される被写体追尾処理（図３）において、ステップＳ１１の後に実行される。本フローチャートによる各処理は、例えばデジタルカメラ１００のコントローラ１３５によって実行される。

図９は、デジタルカメラ１００における主要被写体選択の処理を説明するための図である。図９（Ａ）は、図５（Ｃ）に例示するように主要被写体情報Ｄ０及び副被写体情報を更新した場合に、デジタルカメラ１００の表示モニタ１３０においてリアルタイムに表示される一例を示す。本表示例において、デジタルカメラ１００は表示モニタ１３０に、ＡＦ対象のような主要被写体を示すＡＦ枠３０及び副被写体情報に基づく候補枠４０を、撮像画像Ｉｍ上に重畳して表示している。デジタルカメラ１００は、ＡＦ枠３０及び候補枠４０を異なる表示態様で表示させることで、被写体追尾処理において追尾している主要被写体と、それ以外に認識した被写体とをユーザに可視化する。

図９（Ｂ）は、図９（Ａ）の表示例においてユーザが被写体の選択操作を行う例を示す。図９（Ｃ）は、図９（Ｂ）の選択操作に応じて主要被写体が図９（Ａ）から変更された状態の表示例を示す。被写体の選択操作は、例えば表示モニタ１３０に表示させたスルー画像上の候補枠４０から、操作部１５０によりユーザが１つの候補枠４０を選択する操作を受けて実行することができる。

図８のフローチャートにおいて、コントローラ１３５は、まず、例えばバッファメモリ１２５から主要被写体情報Ｄ０と副被写体情報を取得する（Ｓ４０）。図９（Ａ）の例では、主要被写体情報Ｄ０に基づき人物１０に対応してＡＦ枠３０が表示され、副被写体情報に基づき人物１１及び人物１２に対応して候補枠４０が表示されている。

次に、コントローラ１３５は、例えば操作部１５０（タッチパネル、ジョイスティック等）を介してユーザによる被写体の選択操作があったか否かを判断する（Ｓ４１）。

ユーザによる被写体の選択操作があった場合（Ｓ４１でＹＥＳ）、コントローラ１３５は、選択された候補枠４０により主要被写体情報Ｄ０と副被写体情報を更新する（Ｓ４２）。具体的には、コントローラ１３５は、主要被写体情報Ｄ０の位置及びサイズをＡＦ枠３０に対応する顔領域または頭部領域と関連付けて、副被写体情報に格納する。コントローラ１３５は、さらに、副被写体情報における選択された候補枠４０を副被写体情報から削除して、候補枠４０に対応する位置及びサイズにより、主要被写体情報Ｄ０として更新する。

図９（Ｂ）は、人物１１の候補枠４０が選択された状態を例示する。図９（Ｂ）に例示するように、デジタルカメラ１００は、選択された候補枠４０を、選択枠５０としてＡＦ枠３０及び他の候補枠４０とは異なる表示態様で表示させる。図９（Ｃ）の表示例では、図９（Ｂ）の選択操作に応じて、主要被写体となった人物１１に対応してＡＦ枠３０が表示され、人物１０に対応して候補枠４０が表示されている。

コントローラ１３５は、主要被写体情報Ｄ０と副被写体情報を更新した（Ｓ４２）後、またはユーザによる選択操作がないと判断すると（Ｓ４１でＮＯ）、本フローチャートに示す処理を終了して、例えば図３のステップＳ１以降を繰り返す。

以上の主要被写体選択の処理によると、被写体追尾処理において保持する副被写体情報を用いて、副被写体に応じて候補枠４０を表示させ、ユーザによる選択操作を受け付けることで、主要被写体情報Ｄ０を更新する。これにより、被写体追尾処理において追尾する主要被写体をユーザの意図に応じて切り替えることができる。

なお、本実施形態のデジタルカメラ１００において、ＡＦ枠３０、候補枠４０及び選択枠５０は、被写体が顔認識部１２２または頭部認識部１２４の何れにより認識されたかによっては特に区別されることなく表示される。

２−５．顔追尾処理
本実施形態のデジタルカメラ１００は、顔認識部１２２による顔検出に基づいて顔追尾処理を行う。顔追尾処理について、図１０〜図１２を用いて説明する。

図１０は、本実施形態のデジタルカメラ１００における顔追尾処理を例示するフローチャートである。図１０のフローチャートに示す処理は、例えば被写体追尾処理（図３）と同様の周期で繰り返し実行される。本フローチャートの各処理は、例えば顔認識部１２２によって実行される。

図１１は、本実施形態のデジタルカメラ１００における顔認識情報Ｄ２２を例示する。顔認識情報Ｄ２２は、顔認識部１２２による認識結果を管理する情報であり、顔追尾処理において逐次更新される。顔認識情報Ｄ２２は、顔追尾情報Ｄ２と同様の顔領域の位置及びサイズに加えて、例えば顔認識部１２２による追尾の状態を管理する「追尾フラグ」を含む。例えば、顔認識情報Ｄ２２において追尾フラグが「オン」の顔領域に関する情報は、顔追尾情報Ｄ２を構成し、上述した被写体追尾処理に用いられる。顔認識情報Ｄ２２は、例えばバッファメモリ１２５に保持される。

図１０のフローチャートにおいて、まず、顔認識部１２２は、例えばバッファメモリ１２５から、前のフレームを対象とする前回の顔追尾処理において更新した顔認識情報Ｄ２２を取得する（Ｓ６１）。

次に、顔認識部１２２は、現在のフレームにおいて顔検出の画像認識処理を行う（Ｓ６２）。顔認識部１２２は、例えば顔検出の検出結果として、認識された顔領域毎に、顔追尾情報Ｄ２と同様に各顔領域に関連付けられた位置及びサイズとを含む情報を生成する。

顔認識部１２２は、前回の顔認識情報Ｄ２２から１つの顔領域を選択する（Ｓ６３）。

顔認識部１２２は、選択した顔領域について同一候補判定の処理（Ｓ６４）を行う。同一候補判定の処理では、前回の顔認識情報Ｄ２２から選択した顔領域と、今回の顔検出の検出結果における顔領域とを比較して、検出結果の顔領域における同一顔候補が決定される。同一顔候補は、今回の検出結果の顔領域の中で、顔認識情報Ｄ２２から選択した顔領域と同一の被写体の候補となる顔領域を示す。今回の検出結果に複数の顔領域が含まれる場合、同一顔候補は、複数の顔領域を含む場合がある。同一候補判定の処理（Ｓ６４）の詳細については後述する。

顔認識部１２２は、同一候補判定の処理（Ｓ６４）の結果に基づいて、同一顔候補があるか否かを判断する（Ｓ６５）。

同一顔候補がある場合（Ｓ６５でＹＥＳ）、顔認識部１２２は、同一顔候補において、顔認識情報Ｄ２２から選択した顔領域と最も位置が近い顔領域を示す同一顔領域を決定する（Ｓ６６）。

次に、顔認識部１２２は、決定した同一顔領域の位置及びサイズによって、顔認識情報Ｄ２２において選択した顔領域の位置及びサイズを更新する（Ｓ６７）。

一方、検出結果における同一顔候補がない場合（Ｓ６５でＮＯ）、顔認識部１２２は、選択した顔領域に関して顔追尾のロストが生じたことを認識し、例えば顔認識情報Ｄ２２から、選択した顔領域を削除する（Ｓ６８）。

顔認識部１２２は、顔認識情報Ｄ２２における全ての顔領域を選択したか否かを判断する（Ｓ６９）。顔認識部１２２は、全ての顔領域を選択するまで（Ｓ６９でＮＯ）、ステップＳ６３〜Ｓ６９の処理を繰り返す。

顔認識部１２２は、顔認識情報Ｄ２２の全ての顔領域を選択した（Ｓ６９でＹＥＳ）後、検出結果において顔認識情報Ｄ２２の何れかの顔領域と同一顔領域に決定されなかった顔領域を、追尾対象の候補として顔認識情報Ｄ２２に追加する新規顔登録を行う（Ｓ７０）。新規顔登録では、顔認識部１２２は、例えば顔認識情報Ｄ２２に追尾フラグを「オフ」として顔領域を追加する。

顔認識部１２２は、新規顔登録を行った（Ｓ７０）後、今回の顔追尾処理を終了する。その後、顔認識部１２２は、更新した顔認識情報Ｄ２２に基づいて、次回の顔追尾処理を実行する。

本実施形態の顔認識部１２２は、例えば連続して２回以上検出した顔領域を追尾対象とする。顔認識部１２２は、ステップＳ７０で顔認識情報Ｄ２２に追加した顔領域と、次回の顔追尾処理において検出した顔領域が同一顔領域に決定されると、顔認識情報Ｄ２２の追尾フラグをオンにして、以降の顔追尾処理における追尾対象に設定する。これにより、顔認識部１２２は、過去の追尾結果に存在せず、新たに検出した被写体も追尾対象とすることができる。

以上の顔追尾処理によると、顔認識部１２２は、顔検出（Ｓ６２）の結果に基づき、過去の顔認識情報Ｄ２２と顔領域の同一性を判定して（Ｓ６４）、顔認識情報Ｄ２２を更新する（Ｓ６７）ことで、顔領域の追尾を継続する。これにより、例えば被写体追尾処理（図３）及び主要被写体選択の処理（図８）において、コントローラ１３５は、顔認識情報Ｄ２２における追尾フラグがオンの顔領域を、顔追尾情報Ｄ２として利用することができる。

２−５−１．同一候補判定
図１２を用いて、同一候補判定の処理（Ｓ６４）の詳細を説明する。

図１２は、本実施形態のデジタルカメラ１００における同一候補判定の処理（Ｓ６４）を例示するフローチャートである。本フローチャートは、顔追尾処理において、顔検出（Ｓ６２）の検出結果を保持した状態で、前回の顔認識情報Ｄ２２から顔領域が選択された（Ｓ６３）後、開始される。以下では、図１１に例示する顔認識情報Ｄ２２において、顔領域Ｒｆ１が選択された場合の例を説明する。

まず、顔認識部１２２は、今回の顔検出の検出結果（Ｓ６２）から１つの顔領域を選択する（Ｓ６４１）。

次に、顔認識部１２２は、今回の検出結果から選択した顔領域と、前回の顔認識情報Ｄ２２の顔領域Ｒｆ１との間の位置差が、所定距離内であるか否かを判断する（Ｓ６４２）。所定距離は、例えば主要被写体判定の処理（Ｓ３，Ｓ７）におけるステップＳ２１と同様に設定される。

前回の顔領域Ｒｆ１からの位置差が、所定距離内である（Ｓ６４２でＹＥＳ）場合、顔認識部１２２は、選択した顔領域と前回の顔領域Ｒｆ１とのサイズ比が所定範囲内であるか否かを判断する（Ｓ６４３）。所定範囲は、例えば主要被写体判定の処理（Ｓ３，Ｓ７）におけるステップＳ２２と同様に設定される。

前回の顔領域Ｒｆ１からのサイズ比が所定範囲内である（Ｓ６４３でＹＥＳ）場合、顔認識部１２２は、選択した顔領域を同一顔候補に決定する（Ｓ６４４）。

一方、顔認識部１２２は、前回の顔領域Ｒｆ１からの位置差が所定距離よりも大きい場合（Ｓ６４２でＮＯ）、又はサイズ比率が所定範囲内にない場合（Ｓ６４３でＮＯ）、ステップＳ６５５に進む。

顔認識部１２２は、今回の検出結果における全ての顔領域が選択されたか否かを判断する（Ｓ６４５）。顔認識部１２２は、選択されていない顔領域がなくなるまで（Ｓ６４５でＮＯ）、ステップＳ６４１〜Ｓ６４５の処理を繰り返す。

顔認識部１２２は、検出結果における全ての顔領域が選択された（Ｓ６４５でＹＥＳ）後、同一候補判定の処理（Ｓ６４）を終了して、顔追尾処理（図１０）のステップＳ６５に進む。

以上の同一候補判定の処理（Ｓ６４）によると、顔認識部１２２による検出結果の顔領域から、顔認識情報Ｄ２２において選択されている顔領域との比較により同一顔候補が決定される。これにより、同一顔候補から、顔追尾処理において追尾されている顔領域と同一の被写体と考えらえる顔領域を決定することができる（Ｓ６６）。

２−６．頭部追尾処理
本実施形態のデジタルカメラ１００は、顔認識部１２２による顔検出の代わりに頭部認識部１２４による頭部検出に基づいて、顔認識情報Ｄ２２に代わる頭部認識情報を、顔追尾処理と同様に更新するように頭部追尾処理を行う。以下、頭部追尾処理について、図１３及び図１４を用いて、顔追尾処理と同様の説明は適宜省略して説明する。

図１３は、本実施形態のデジタルカメラ１００における頭部追尾処理を例示するフローチャートである。図１３のフローチャートは、例えば顔追尾処理と同様に、被写体追尾処理（図３）と並行して同周期で繰り返し実行される。本フローチャートの各処理は、例えば頭部認識部１２４により実行される。

図１４は、本実施形態のデジタルカメラ１００における頭部認識情報Ｄ２４を例示する図である。頭部認識情報Ｄ２４は、頭部認識部１２４による認識結果を管理する情報であり、頭部検出の結果における頭部領域に関して、は顔認識情報Ｄ２２と同様に位置、サイズ及び追尾フラグを含む。頭部認識情報Ｄ２４において追尾フラグが「オン」の頭部領域に関する情報は、頭部追尾情報Ｄ４を構成する。

図１３に例示する頭部追尾処理では、頭部認識部１２４が、図１０のフローチャートに示す処理と同様の処理において、顔検出（Ｓ６２）の代わりに、頭部検出の画像認識処理（Ｓ６２Ａ）を、顔検出の周期よりも長く設定された周期において実行する（Ｓ８１）。頭部認識部１２４は、前回の頭部追尾処理で更新された頭部認識情報Ｄ２４を取得して（Ｓ６１Ａ）、頭部検出の周期に到る毎に（Ｓ８１でＹＥＳ）、頭部検出（Ｓ６２Ａ）の検出結果に基づき、ステップＳ６３〜Ｓ７０と同様の処理を行う（Ｓ６３〜Ｓ７０）。

頭部認識部１２４は、頭部検出の周期において検出結果を出力する学習済みモデルを用いて頭部検出（Ｓ６２Ａ）を行う。頭部認識部１２４の学習済みモデルの実行周期を顔検出よりも長く設定することにより、例えば顔認識部１２２よりも大きい処理負荷の影響を緩和できる。

一方、頭部検出の周期でない場合（Ｓ８１でＮＯ）、頭部認識部１２４は、前回の学習済みモデルによる頭部検出において検出された位置に基づいて、例えば動き検出部により頭部領域の位置を補間する（Ｓ８２）。

頭部認識部１２４は、学習済みモデルによる検出結果を補間し（Ｓ８２）、その補間した位置により、頭部認識情報Ｄ２４における頭部領域の位置を更新する（Ｓ８３）。その後、頭部認識部１２４は、本フローチャートの処理を終了する。

頭部検出の周期である（Ｓ８１でＹＥＳ）場合には、頭部認識部１２４は、前回の頭部認識情報Ｄ２４の頭部領域を選択して（Ｓ６３Ａ）、今回の頭部検出（Ｓ６２Ａ）の検出結果における頭部領域との間で同一候補判定の処理（Ｓ６４Ａ）を行う。ステップＳ６４Ａの同一候補判定では、図１０のＳ６４における顔検出の結果と顔認識情報Ｄ２２に代えて、頭部検出による検出結果の頭部領域の中で、頭部認識情報Ｄ２４から選択した頭部領域と同一の被写体の候補となる同一頭部候補が決定される。

同一頭部候補がある（Ｓ６５ＡでＹＥＳ）場合、頭部認識部１２４は、同一頭部候補から同一頭部領域を決定する（Ｓ６６Ａ）。頭部認識部１２４は、決定した同一頭部領域の位置及びサイズにより、頭部認識情報Ｄ２４を更新する（Ｓ６７Ａ）。一方、同一頭部候補がない（Ｓ６５ＡでＮＯ）場合、頭部認識情報Ｄ２４は、頭部認識情報Ｄ２４から選択した頭部領域を削除する（Ｓ６８Ａ）。

頭部認識部１２４は、頭部認識情報Ｄ２４における全ての頭部領域を選択するまで（Ｓ６９でＮＯ）、ステップＳ６３Ａ〜Ｓ６９Ａの処理を繰り返す。頭部認識情報Ｄ２４から全ての頭部領域を選択すると（Ｓ６９ＡでＹＥＳ）、頭部認識部１２４は、新規顔登録（Ｓ７０）での顔領域と顔認識情報Ｄ２２の代わりに、追尾対象の候補となる頭部領域を頭部認識情報Ｄ２４に追加する新規頭部登録（Ｓ７０Ａ）を行う。

以上の頭部追尾処理によると、頭部認識部１２４は、頭部検出（Ｓ６２Ａ）の結果に基づいて頭部認識情報Ｄ２４を更新する（Ｓ６７Ａ，Ｓ８３）ことで、頭部領域の追尾を継続する。

３．効果等

以上のように、実施の形態１のデジタルカメラ１００は、被写体が撮像された動画像において被写体を追尾する画像追尾装置の一例であって、イメージセンサ１１５（画像取得部）と、顔認識部１２２（第１検出部）と、頭部認識部１２４（第２検出部）と、コントローラ１３５（制御部）とを備える。イメージセンサ１１５は、動画像を示す画像データを取得する。顔認識部１２２は、取得された画像データにおいて少なくとも１つの被写体の顔に対応する顔領域を検出して、動画像において顔領域を追尾する（Ｓ６１〜Ｓ７０）。頭部認識部１２４は、画像データにおいて、少なくとも１つの被写体の顔を包含する頭部に対応する頭部領域を検出して、動画像において頭部領域を追尾する（Ｓ６１Ａ〜Ｓ７０Ａ）。コントローラ１３５は、顔認識部１２２による顔領域の追尾結果と頭部認識部１２４による頭部領域の追尾結果とを互いに切り替えるように用いて、被写体を追尾する（Ｓ１〜Ｓ１１）。

以上のデジタルカメラ１００によると、それぞれ顔領域と頭部領域を追尾する顔認識部１２２と頭部認識部１２４の追尾結果を、互いに切り替えて用いることで、被写体が継続的に特定される。これにより、画像データにおいて被写体を追尾する精度を良くすることができる。

本実施形態において、コントローラ１３５は、顔認識部１２２によって顔領域が追尾されたとき、顔認識部１２２の追尾結果を用いて被写体を追尾し、顔認識部１２２によって顔領域が追尾されなくなったとき、顔認識部１２２の追尾結果から頭部認識部１２４の追尾結果に切り替える（Ｓ１〜Ｓ９）。これにより、被写体の顔向き或いは姿勢が変化する等により、動画像に被写体は映っているが顔が映らなくなる場合が生じても、頭部認識部１２４の追尾結果を用いることで、被写体を継続して追尾することができる。

本実施形態において、コントローラ１３５は、頭部認識部１２４の追尾結果に切り替えた後で顔認識部１２２によって顔領域が追尾されたとき、頭部認識部１２４の追尾結果から顔認識部１２２の追尾結果に切り替える（Ｓ１〜Ｓ４，Ｓ９）。これにより、顔認識部１２２の追尾結果を優先して用いた被写体の追尾を行うことができる。

本実施形態において、コントローラ１３５は、顔認識部１２２の追尾結果と頭部認識部１２４の追尾結果との間の切り替え前後において、顔領域が頭部領域に包含される位置関係にある場合、切り替え後の追尾結果を用いて被写体を追尾する。この際、コントローラ１３５は、顔領域の位置及びサイズと、頭部領域の位置及びサイズとに基づいて、顔領域が頭部領域に包含される位置関係にあるか否かを判断する（Ｓ３，Ｓ７）。これにより、顔領域と頭部領域がそれぞれ被写体の顔と顔を包含した頭部に対応することに応じて、顔領域と頭部領域の位置関係に基づき、切り替え前後における被写体の同一性を判定することができる。

本実施形態において、顔認識部１２２は複数の被写体の各顔領域を追尾し、及び／又は、頭部認識部１２４は複数の被写体の各頭部領域を追尾し、コントローラ１３５は、顔認識部１２２の追尾結果と頭部認識部１２４の追尾結果に基づいて、複数の被写体において主要被写体と他の被写体とをそれぞれ追尾する（Ｓ９，Ｓ１１）。これにより、複数の被写体から被写体を選択するユーザの操作に応じて、主要被写体を他の被写体に変更することができる（Ｓ４０〜Ｓ４２）。

本実施形態において、顔認識部１２２が顔領域を検出する周期は、頭部認識部１２４が頭部領域を検出する周期よりも短い。これにより、例えば顔認識部１２２よりも大きい頭部認識部１２４の処理負荷の影響を緩和しながら、顔認識部１２２の追尾結果を優先して用いて被写体を精度良く追尾することができる。

本実施形態において、頭部認識部１２４は、動画像における被写体の動きに応じて頭部領域の検出結果を補間して、頭部領域を追尾する（Ｓ８１〜Ｓ８３）。これにより、補間した検出結果に基づく頭部領域の追尾結果を用いて被写体を追尾する精度を良くすることができる。

本実施形態において、頭部認識部１２４は、人と人以外の動物との少なくとも一方を含む被写体の頭部が撮像された画像データに基づく機械学習による学習済みモデルを用いて、頭部領域を検出する。これにより、例えば横顔、後頭部を含む全方向の顔向きの画像データを学習させた学習済みモデルを用いることで、被写体の顔向き或いは姿勢によらずに頭部領域を検出することができる。

本実施形態において、イメージセンサ１１５（画像取得部）は、被写体を撮像して画像データを生成する撮像部の一例である。本実施形態のデジタルカメラ１００は、イメージセンサ１１５で撮像された画像データにおいて、画像追尾装置として被写体をリアルタイムに追尾する撮像装置を構成する。なお、画像取得部は、イメージセンサ１１５に限らず、画像データを取得するインタフェース回路として構成されてもよい。

また、実施の形態１のデジタルカメラ１００は、被写体が撮像された動画像において被写体を追尾する画像追尾装置の一例であって、イメージセンサ１１５（画像取得部）と、顔認識部１２２（第１検出部）と、頭部認識部１２４（第２検出部）と、操作部１５０と、コントローラ１３５（制御部）とを備える。イメージセンサ１１５は、動画像を示す画像データを取得する。顔認識部１２２は、取得された画像データにおいて被写体の顔領域を検出して、動画像において顔領域を追尾する（Ｓ６１〜Ｓ７０）。頭部認識部１２４は、画像データにおいて被写体の頭部領域を検出して、動画像において頭部領域を追尾する（Ｓ６１Ａ〜Ｓ７０Ａ）。操作部１５０は、主要被写体を指定するユーザ操作を入力する。コントローラ１３５は、顔認識部１２２及び頭部認識部１２４の追尾結果に基づいて、画像データにおいて主要被写体を特定する情報である主要被写体情報Ｄ０を管理して、動画像において主要被写体を追尾する（Ｓ１〜Ｓ１１）。顔認識部１２２及び頭部認識部１２４により複数の被写体に対応する複数の領域が追尾された状態において、主要被写体を変更するユーザ操作が入力された場合（Ｓ４１でＹＥＳ）、コントローラ１３５は、当該ユーザ操作が入力されたときの顔認識部１２２又は頭部認識部１２４の追尾結果に基づいて、変更前の主要被写体を特定する情報を、変更後の主要被写体を特定する情報に置き換えるように主要被写体情報Ｄ０を更新する（Ｓ４２）。

以上のデジタルカメラ１００によると、顔認識部１２２と頭部認識部１２４の何れの追尾結果を用いたとしても、主要被写体情報Ｄ０を管理することによって、主要被写体が追尾される（Ｓ１〜Ｓ１１）。複数の被写体が存在する場合にユーザによる被写体の選択操作が行われると（Ｓ４１でＹＥＳ）、ユーザ操作に応じて主要被写体情報Ｄ０を変更することで（Ｓ４２）、変更後の主要被写体の追尾を支障なく実現することができる。このように、ユーザ操作に応じて追尾する主要被写体の切り替えが容易に実現でき、所望の被写体を追尾する精度を良くすることができる。

本実施形態において、顔認識部１２２の追尾結果は、画像データにおける顔領域の位置及びサイズを含み、頭部認識部１２４の追尾結果は、画像データにおける頭部領域の位置及びサイズを含む。これにより、顔認識部１２２と頭部認識部１２４の何れの追尾結果を用いても、主要被写体の位置及びサイズを示す主要被写体情報Ｄ０を管理することができる（Ｓ１〜Ｓ１１）。

（他の実施形態）
以上のように、本出願において開示する技術の例示として、実施の形態１を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態１で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

実施の形態１では、顔追尾処理において連続して２回以上検出した顔領域を追尾の対象とする顔認識部１２２を説明した。本実施形態において、顔認識部１２２は、連続して所定回数以上検出した顔領域を追尾の対象としてもよい。所定回数は、例えば顔検出の精度及び周期等に応じて予め設定される２回より多い回数である。この場合、顔認識部１２２は、例えば顔認識情報Ｄ２２の顔領域に、ステップＳ６２で検出され且つステップＳ６６において同一顔領域に決定された回数を関連付けて保持しておき、当該回数が所定回数以上である顔領域の追尾フラグをオンにしてもよい。また、本実施形態の頭部認識部１２４においても、顔追尾処理における顔領域の代わりに、追尾対象の頭部領域が同様に決定されてもよい。

上記の実施形態では、顔追尾処理において、顔領域に追尾フラグを関連付けた顔認識情報Ｄ２２を用いて、連続して２回以上検出した顔領域を追尾の対象とする顔認識部１２２を説明した。本実施形態の顔認識部１２２は、顔追尾処理において、顔認識情報Ｄ２２を用いずに、検出した顔領域を追尾の対象として顔追尾情報Ｄ２を更新してもよい。また、本実施形態の頭部認識部１２４においても、顔追尾処理における顔領域の代わりに、検出した頭部領域を追尾の対象として、顔追尾処理と同様に頭部追尾情報Ｄ４が更新されてもよい。

実施の形態１では、被写体追尾処理により主要被写体を継続して特定することで、ＡＦ制御に用いるデジタルカメラ１００を説明した。本実施形態では、デジタルカメラ１００は、ＡＦ制御に限らず、主要被写体の追尾に基づき、ホワイトバランス（ＷＢ）の制御及び／または自動露出（ＡＥ）を実行してもよい。

実施の形態１では、スルー画像等の撮像画像Ｉｍに対する画像認識を行って、被写体を追尾するデジタルカメラ１００を説明した。本実施形態では、デジタルカメラ１００は、メモリカード１４２に過去に記憶した画像データにおいて画像認識を行い、被写体追尾処理を適用してもよい。

実施の形態１では、光学系１１０及びレンズ駆動部１１２を備えるデジタルカメラ１００を例示した。本実施形態の撮像装置は、光学系１１０及びレンズ駆動部１１２を備えなくてもよく、例えば交換レンズ式のカメラであってもよい。

実施の形態１では、画像追尾装置の例としてデジタルカメラを説明したが、これに限定されない。本開示の撮像装置は、画像取得機能を有する電子機器（例えば、ビデオカメラ、スマートフォン、タブレット端末等）であればよい。

実施の形態１では、画像追尾装置の一例として、画像取得部が撮像部としてイメージセンサ１１５により構成されるデジタルカメラ１００を説明した。本実施形態では、画像追尾装置は、例えば画像データを取得するインタフェース回路として構成された画像取得部を有する情報処理装置であってもよい。情報処理装置は、例えばＰＣである。本実施形態において画像追尾装置は、例えば追尾装置の外部にある撮像素子からインタフェース回路を介して取得した画像データに、被写体追尾等の処理を適用してもよい。

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

本開示は、画像データにおいて被写体を追尾する画像追尾装置に適用可能である。

１００デジタルカメラ
１１５イメージセンサ
１２０画像処理エンジン
１２２顔認識部
１２４頭部認識部
１２５バッファメモリ
１３０表示モニタ
１３５コントローラ
１４５フラッシュメモリ
１５０操作部

Claims

被写体が撮像された動画像において前記被写体を追尾する画像追尾装置であって、
前記動画像を示す画像データを取得する画像取得部と、
取得された画像データにおいて少なくとも１つの被写体の顔に対応する顔領域を検出して、前記動画像において前記顔領域を追尾する第１検出部と、
前記画像データにおいて、少なくとも１つの被写体の顔を包含する頭部に対応する頭部領域を検出して、前記動画像において前記頭部領域を追尾する第２検出部と、
前記第１検出部による前記顔領域の追尾結果と前記第２検出部による前記頭部領域の追尾結果とを互いに切り替えるように用いて、前記被写体を追尾する制御部と
を備える画像追尾装置。
前記制御部は、
前記第１検出部によって前記顔領域が追尾されたとき、前記第１検出部の追尾結果を用いて前記被写体を追尾し、
前記第１検出部によって前記顔領域が追尾されなくなったとき、前記第１検出部の追尾結果から前記第２検出部の追尾結果に切り替える
請求項１に記載の画像追尾装置。
前記制御部は、前記第２検出部の追尾結果に切り替えた後で前記第１検出部によって前記顔領域が追尾されたとき、前記第２検出部の追尾結果から前記第１検出部の追尾結果に切り替える
請求項２に記載の画像追尾装置。
前記制御部は、前記第１検出部の追尾結果と前記第２検出部の追尾結果との間の切り替え前後において、前記顔領域が前記頭部領域に包含される位置関係にある場合、切り替え後の追尾結果を用いて前記被写体を追尾する
請求項２又は３に記載の画像追尾装置。
前記第１検出部は複数の被写体の各顔領域を追尾し、及び／又は、前記第２検出部は複数の被写体の各頭部領域を追尾し、
前記制御部は、前記第１検出部の追尾結果と前記第２検出部の追尾結果に基づいて、前記複数の被写体において主要被写体と他の被写体とをそれぞれ追尾する
請求項１から４のいずれか１項に記載の画像追尾装置。
前記第１検出部が前記顔領域を検出する周期は、前記第２検出部が前記頭部領域を検出する周期よりも短い
請求項１から５のいずれか１項に記載の画像追尾装置。
前記第２検出部は、前記動画像における前記被写体の動きに応じて前記頭部領域の検出結果を補間して、前記頭部領域を追尾する
請求項６に記載の画像追尾装置。
前記第２検出部は、人と人以外の動物との少なくとも一方を含む被写体の頭部が撮像された画像データに基づく機械学習による学習済みモデルを用いて、前記頭部領域を検出する
請求項１から７のいずれか１項に記載の画像追尾装置。
前記画像取得部は、前記被写体を撮像して画像データを生成する撮像部である
請求項１から８のいずれか１項に記載の画像追尾装置。
被写体が撮像された動画像において前記被写体を追尾する画像追尾装置であって、
前記動画像を示す画像データを取得する画像取得部と、
取得された画像データにおいて被写体の顔領域を検出して、前記動画像において前記顔領域を追尾する第１検出部と、
前記画像データにおいて被写体の頭部領域を検出して、前記動画像において前記頭部領域を追尾する第２検出部と、
主要被写体を指定するユーザ操作を入力する操作部と、
前記第１及び第２検出部の追尾結果に基づいて、前記画像データにおいて前記主要被写体を特定する情報である主要被写体情報を管理して、前記動画像において前記主要被写体を追尾する制御部とを備え、
前記第１及び第２検出部により複数の被写体に対応する複数の領域が追尾された状態において、前記主要被写体を変更するユーザ操作が入力された場合、
前記制御部は、当該ユーザ操作が入力されたときの前記第１又は第２検出部の追尾結果に基づいて、変更前の主要被写体を特定する情報を、変更後の主要被写体を特定する情報に置き換えるように前記主要被写体情報を更新する
画像追尾装置。
前記第１検出部の追尾結果は、前記画像データにおける前記顔領域の位置及びサイズを含み、前記第２検出部の追尾結果は、前記画像データにおける前記頭部領域の位置及びサイズを含む、請求項１から１０のいずれか１項に記載の画像追尾装置。