JP2023084461A - 主被写体判定装置、撮像装置、主被写体判定方法、及びプログラム - Google Patents

主被写体判定装置、撮像装置、主被写体判定方法、及びプログラム Download PDF

Info

Publication number
JP2023084461A
JP2023084461A JP2021198650A JP2021198650A JP2023084461A JP 2023084461 A JP2023084461 A JP 2023084461A JP 2021198650 A JP2021198650 A JP 2021198650A JP 2021198650 A JP2021198650 A JP 2021198650A JP 2023084461 A JP2023084461 A JP 2023084461A
Authority
JP
Japan
Prior art keywords
main subject
subject
image
candidate
main
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021198650A
Other languages
English (en)
Inventor
玲治 長谷川
Reiji Hasegawa
知宏 西山
Tomohiro Nishiyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2021198650A priority Critical patent/JP2023084461A/ja
Priority to US18/061,358 priority patent/US20230177860A1/en
Publication of JP2023084461A publication Critical patent/JP2023084461A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

【課題】 複数の被写体が存在する画像においてユーザの意図に沿う可能性の高い主被写体を判定する技術を提供する。【解決手段】 異なるタイミングで撮影された画像を取得する取得手段と、前記画像内の被写体の特徴点の情報を用いて、前記被写体から主被写体の候補を選択する選択手段と、前記特徴点から算出される特徴量の情報を用いて、前記異なるタイミングごとに選択された前記主被写体の候補が同一か否かを判定する判定手段と、を有し、着目画像と前記着目画像が撮影されるより前の所定の時間内に撮影された1つ以上の画像において、前記選択手段が選択した前記主被写体の候補が前記判定手段によって、同一と判定された場合に、主被写体を決定することを特徴とする主被写体判定装置。【選択図】 図3

Description

本発明は、被写体の推定及び推定結果に基づいて主被写体を判定する技術に関するものである。
従来から、デジタルカメラ等の撮像装置において、Auto Focus(AF)などの撮像制御を行うために制御対象となる被写体を検出する様々な技術が提案されている。
特許文献1には、複数の人物を対象とした動作認識技術として、複数の人物を同時に追尾し、時系列データをリカレントニューラルネットワークに入れることで、動作の種類と、人物の位置を同時に推定する技術が開示されている。
特表2018-538631号公報
しかしながら、特許文献1の技術では、複数被写体の同時追尾、リカレントニューラルネットワークが必要になるため、撮像装置などのハードウェアに搭載するには、処理負荷が高い。
本発明はこのような状況に鑑みてなされたものであり、複数の被写体が存在する画像において、ユーザの意図に沿う可能性の高い主被写体を、処理負荷を低減しつつ高精度に判定する技術を提供することを目的とする。
上記課題を解決するために、本発明は、異なるタイミングで撮影された画像を取得する取得手段と、前記画像内の被写体の特徴点の情報を用いて、前記被写体から主被写体の候補を選択する選択手段と、前記特徴点から算出される特徴量の情報を用いて、前記異なるタイミングごとに選択された前記主被写体の候補が同一か否かを判定する判定手段と、を有し、着目画像と前記着目画像が撮影されるより前の所定の時間内に撮影された1つ以上の画像において、前記選択手段が選択した前記主被写体の候補が前記判定手段によって、同一と判定された場合に、主被写体を決定することを特徴とする主被写体判定装置を提供する。
また、本発明によれば、異なるタイミングで撮影された画像を取得する取得手段と、前記画像内の被写体から主被写体の候補を選択する選択手段と、前記異なるタイミングごとに選択された前記主被写体の候補が同一か否かを判定する判定手段と、を有し、着目画像を撮影するより前の所定の時間内に撮影された1つ以上の画像において、前記選択手段が前記主被写体の候補を選択し、かつ前記判定手段によって、前記所定の時間内に撮影された画像における主被写体の候補が前記着目画像における主被写体の候補と同一と判定された場合に、主被写体を決定することを特徴とする主被写体判定装置を提供する。
また、本発明によれば、異なるタイミングで撮影された画像を取得する取得ステップと、前記画像内の被写体の特徴点の情報を用いて、前記被写体から主被写体の候補を選択する選択ステップと、前記特徴点から算出される特徴量の情報を用いて、前記異なるタイミングごとに選択された前記主被写体の候補が同一か否かを判定する判定ステップと、を有し、着目画像と前記着目画像が撮影されるより前の所定の時間内に撮影された1つ以上の画像において、前記選択手段が選択した前記主被写体の候補が前記判定手段によって、同一と判定された場合に、主被写体を決定することを特徴とする主被写体判定装置の制御方法を提供する。
また、本発明によれば、異なるタイミングで撮影された画像を取得する取得ステップと、前記画像内の被写体から主被写体の候補を選択する選択ステップと、前記異なるタイミングごとに選択された前記主被写体の候補が同一か否かを判定する判定ステップと、を有し、着目画像を撮影するより前の所定の時間内に撮影された1つ以上の画像において、前記選択手段が前記主被写体の候補を選択し、かつ前記判定手段によって、前記所定の時間内に撮影された画像における主被写体の候補が前記着目画像における主被写体の候補と同一と判定された場合に、主被写体を決定することを特徴とする主被写体判定装置の制御方法を提供する。
本発明によれば、複数の被写体が存在する画像においてユーザの意図に沿う可能性の高い主被写体を精度よく判定することが可能となる。
主被写体判定装置を含む撮像装置100の構成を示すブロック図。 第1の実施形態に係る画像処理部152の詳細な構成の一部を示すブロック図。 第1の実施形態に係る主被写体判定処理のフローチャート。 姿勢取得部203が取得する情報の概念図。 処理対象の画像の異なるフレームにおける例。 第3の実施形態に係る主被写体判定処理のフローチャート。 第2の実施形態に係る主被写体候補の例。
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
[第1の実施形態]
<<撮像装置100の全体構成>>
図1は、主被写体判定装置を含む撮像装置100の構成を示すブロック図である。撮像装置100は、被写体を撮影して、動画や静止画のデータをテープや固体メモリ、光ディスクや磁気ディスクなどの各種メディアに記録するデジタルスチルカメラやビデオカメラなどであるが、これらに限定されるものではない。例えば、携帯電話(スマートフォン)、パーソナルコンピュータ(ラップトップ型、デスクトップ型、タブレット型など)、ゲーム機、車載センサ、FAFactory Automation)機器、ドローン、医療機器など、撮像装置を内蔵もしくは外部接続する任意の機器に適用可能である。従って、本明細書における「撮像装置」は、撮像機能を備えた任意の電子機器を包含することが意図されている。また、本明細書における「主被写体判定装置」は撮像装置により撮像された画像に基づいて主被写体を判定する任意の電子機器を包含することが意図されている。
以下では、被写体が人物である場合を例に説明を行う。また、主被写体は、ユーザが意図した撮像制御の対象となる被写体を表すものとする。なお、図1に示した構成は、撮像装置100の構成の一例に過ぎない。
撮像装置100内の各ユニットは、バス160を介して接続されている。また各ユニットは、主制御部151により制御される。
レンズユニット101は、固定1群レンズ102、ズームレンズ111、絞り103、固定3群レンズ121、及び、フォーカスレンズ131を備える撮影光学系である。絞り制御部105は、主制御部151の指令に従い、絞りモータ104(AM)を介して絞り103を駆動することにより、絞り103の開口径を調整して撮影時の光量調節を行う。ズーム制御部113は、ズームモータ112(ZM)を介してズームレンズ111を駆動することにより、焦点距離を変更する。フォーカス制御部133は、レンズユニット101のピント方向のずれ量に基づいてフォーカスモータ132(FM)を駆動する駆動量を決定する。加えてフォーカス制御部133は、フォーカスモータ132(FM)を介してフォーカスレンズ131を駆動することにより、焦点調節状態を制御する。フォーカス制御部133及びフォーカスモータ132によるフォーカスレンズ131の移動制御により、AF制御が実現される。フォーカスレンズ131は、焦点調節用レンズであり、図1には単レンズで簡略的に示されているが、通常複数のレンズで構成される。
レンズユニット101を介して撮像素子141上に結像する被写体像は、撮像素子141により電気信号に変換される。撮像素子141は、被写体像(光学像)を電気信号に光電変換する光電変換素子である。撮像素子141には、横方向にm画素、縦方向にn画素の受光素子が配置されている。撮像素子141上に結像されて光電変換された画像は、撮像信号処理部142により画像信号(画像データ)として整えられる。これにより、撮像面の画像を取得することができる。
撮像信号処理部142から出力される画像データは、撮像制御部143に送られ、一時的にRAM154(ランダムアクセスメモリ)に蓄積される。RAM154に蓄積された画像データは、画像圧縮解凍部153にて圧縮された後、画像記録媒体157に記録される。これと並行して、RAM154に蓄積された画像データは、画像処理部152に送られる。
画像処理部152は、RAM154に蓄積された画像データに対して予め定められた画像処理を適用する。画像処理部152が適用する画像処理には、ホワイトバランス調整処理、色補間(デモザイク)処理、ガンマ補正処理といった現像処理のほか、信号形式変換処理、スケーリング処理などがあるが、これらに限定されない。また本実施形態では、画像処理部152は、被写体の姿勢情報(例えば、関節位置)の位置情報をもとに主被写体候補を選択する。画像処理部152は、主被写体候補の選択処理の結果を他の画像処理(例えばホワイトバランス調整処理)に利用してもよい。さらに、画像処理部152は、異なる時刻に選択された主被写体候補が同一被写体であるかの判定を行う。画像処理部152は、処理した画像データ、各被写体の姿勢情報、主被写体候補の重心、顔、及び瞳の位置情報などをRAM154に保存する。また、画像処理部152は不図示の追尾部も有しており、ライブビュー中の画像などの画像間における被写体や特定の領域について追尾処理を行うことができる。
追尾部は、指定された位置から追跡を行う画像領域(被写体領域)を特定する。例えば、ある着目フレームにおける画像の被写体領域から特徴量を抽出し、抽出した特徴量を用いて、次々と供給される個々の画像内から、着目フレームの被写体領域と類似度の高い領域を被写体領域として探索する。画像の特徴量に基づいて領域を探索する方法としては、テンプレートマッチング、ヒストグラムマッチングおよび、KLT(Kanade―Lucas―Tomasi Feature Tracker)法などを用いることができる。なお、被写体を特徴量に基づいて探索することができれば、別の手法を用いてもかまわない。上記以外にも、被写体追尾用のCNNを学習し、異なるフレームの画像をCNNに入力し、直接追跡を行う画像領域を出力してもよい。
操作部156は、ボタンなどを含む入力インタフェースである。表示部150に表示される種々の機能アイコンに対してユーザが選択操作を行うことなどにより、撮影モードの変更や後述する被写体判定処理の方法の切り替えといった撮像装置100に対する様々な操作が行える。
主制御部151は、例えばCPUやMPUなどのプログラマブルプロセッサを1つ以上有する。そして、主制御部151は、例えばフラッシュメモリ155に記憶されたプログラムをRAM154に読み込んで実行することにより撮像装置100の各部を制御し、撮像装置100の機能を実現する。主制御部151はまた、被写体輝度の情報に基づいて露出条件(シャッタースピード又は蓄積時間、絞り値、及び感度)を自動的に決定するAE処理を実行する。被写体輝度の情報は、例えば画像処理部152から取得することができる。主制御部151は、例えば人物の顔など、特定被写体の領域を基準として露出条件を決定することもできる。
フォーカス制御部133は、RAM154に保存された主被写体の位置に対するAF制御を行う。絞り制御部105は、特定の被写体領域の輝度値を用いた露出制御を行う。
表示部150は、画像や主被写体の検出結果などを表示する。バッテリ159は、電源管理部158により適切に管理され、撮像装置100の全体に安定した電源供給を行う。フラッシュメモリ155には、撮像装置100の動作に必要な制御プログラムや、各部の動作に用いるパラメータ等が記録されている。ユーザの操作により撮像装置100が起動すると(電源OFF状態から電源ON状態へ移行すると)、フラッシュメモリ155に格納された制御プログラム及びパラメータがRAM154の一部に読み込まれる。主制御部151は、RAM154にロードされた制御プログラム及び定数に従って撮像装置100の動作を制御する。
<<主被写体判定処理>>
図2及び図3を参照して、画像処理部152が実行する主被写体判定処理について説明する。図2は、画像処理部152の詳細な構成の一部を示すブロック図である。図3は、主被写体判定処理のフローチャートである。本フローチャートの各ステップの処理は、特に断らない限り、画像処理部152の各部が主制御部151の制御下で動作することにより実現される。以下では、複数人がプレーするスポーツを主被写体判定処理の対象の撮影シーンとして説明を行うが、本実施形態を適用可能な撮影シーンはこれに限らない。
S301で、画像取得部201は、撮像制御部143から、Nフレーム目に撮像された画像を取得する。
S302で、姿勢取得部202は、画像取得部201が取得した画像において被写体(人物)を検出し、検出された被写体に対して姿勢推定を行い、姿勢情報を取得する。姿勢情報の取得は検出された被写体に対して後述する「関節位置」を取得することによって行われる。
姿勢取得部202で行う被写体や関節位置の検出方法は、例えば機械学習により学習されたCNN(コンボリューショナル・ニューラル・ネットワーク)といった学習済みモデルを用いてもよい。学習済みモデルを用いた被写体の検出では、姿勢取得部202は機械学習により生成される被写体検出用の辞書データを用いて被写体の検出を行うことができる。被写体の検出には「人物」用の辞書データや「動物」用の辞書データというように、特定の被写体ごとに異なる辞書データを用いてもよい。姿勢取得部202は辞書データを活用して被写体の検出を行い、どの辞書データによって被写体が検出されたのかによって、その後の姿勢推定の内容を変更する。例えば「人物」用の辞書データによって被写体の検出が完了した場合、「人物」に対応するように姿勢推定を行う。
姿勢取得部202にて被写体の検出が完了すると、検出された被写体の種類に応じて姿勢取得部202が被写体の姿勢推定を開始する。ここでは例として、検出された被写体が人物である場合を説明する。姿勢取得部202は、まず、被写体として人物の複数の関節の位置を特徴点として取得する。そして、取得された関節の位置の情報をもとに被写体の姿勢の推定が行われる。姿勢推定の方法には、ディープラーニングを活用した方法など、如何なる方法を用いてもよい。
なお、姿勢取得部202が行う被写体の検出方法、および関節位置の検出方法には、学習済みのCNN以外の任意の学習済みモデルが用いられてもよい。例えば、サポートベクタマシンや決定木等の機械学習により生成される学習済みモデルが、姿勢取得部202に適用されてもよい。また、姿勢取得部202は、機械学習により生成される学習済みモデルでなくてもよい。例えば、姿勢取得部202には、機械学習を用いない任意の被写体検出手法、および関節位置の検出手法が適用されてもよい。
S303で、選択部203は、姿勢情報をもとに、それぞれの被写体に対して、主被写体らしさの確率を算出する。
S304で選択部203は主被写体の候補となる被写体が存在するかを判定し、存在する場合は、S305に進む。主被写体らしさを表す確率の算出方法および、主被写体候補の選択の具体的な方法については、後述する。存在しない場合は、S310に進む。
S305において、判定部204がRAM154の情報を参照し、Nフレーム目とは異なるタイミングで撮像されているN-M~N-1フレーム目の画像内に主被写体候補が存在するか否かを判定し、存在する場合はS306に進み、存在しない場合は、S309に進む。N=1(1フレーム目)の場合はそれ以前のフレームが存在しないのでS305の処理の後、S309に進むことになる。
S306でRAM154に一つもしくは複数の主被写体候補の情報を格納し、S307に進む。
S307において、判定部204は、N-M~N-1フレーム目の画像の中で主被写体候補が検出された、Nフレームに時間的に近い一部のフレームにおける主被写体候補とマッチング(同一被写体判定)を行う。マッチングの結果、同一被写体と判定された場合は、S308に進み、否の場合はS309に進む。
ここでMは、フレームレートをfとしたとき、M/fが撮影シーンや被写体に対して適切な時間となるように調整されていると好ましい。例えばサッカーのようなスポーツシーンにおいて注目している被写体がシュート動作を行う場合、シュートの予備動作からシュートの瞬間(シャッターチャンス)に至るまでの時間(猶予時間)は一般に2、3秒程度である。したがって、Mの値はシャッターチャンス前に同一被写体判定が完了するように設定されていることが好ましく、М/fが猶予時間よりも短くなればよい。なお、撮影シーンや被写体によってシャッターチャンスまでの猶予時間は異なるため、必要に応じて判定部204がMの値を切り替えられるようにしてもよい。あるいはユーザによって事前にMの値が決定できるような構成としてもよい。また、N-Mフレームより前のフレームの情報は、S307の処理においては用いない。
S308において、判定部204が同一被写体と判定した被写体を主被写体として決定し、S309において、RAM154に主被写体の履歴情報として格納する。
S310において、フレームNをN+1に更新し、S311においてすべてのフレームを処理したか判定し、否の場合は、S301に戻る。
<<姿勢取得部および、選択部>>
図4は、姿勢取得部202が取得する情報の概念図である。図4(a)は、処理対象の画像を表しており、被写体401は、ボール403を蹴ろうとしている。被写体401は、撮影シーン中の重要な被写体である。本実施形態では、選択部203が姿勢取得部202にて取得された被写体の姿勢情報を用いることで、ユーザが撮像制御や監視(注視)等の対象として意図している可能性が高い被写体(主被写体)を判定する。一方、被写体402は非主被写体である。ここで、非主被写体とは、主被写体以外の被写体を表すものとする。
図4(b)は、被写体401及び402の姿勢情報の例を表す図である。関節411は、被写体401の各関節を表しており、関節412は、被写体402の各関節を表している。図4(b)では、関節(特徴点)として、頭頂部、首、肩、肘、手首、腰、膝、足首に対応する位置を取得する例を示しているが、関節位置はこれらの一部でもよいし、別の位置を取得してもよい。また、姿勢推定には関節位置だけでなく、関節同士を結ぶ軸などの情報を用いてもよい。
以下では、姿勢情報として、関節位置を取得する場合について説明する。
図3のS302において姿勢取得部202は、関節411及び関節412の画像中における2次元座標(x,y)を取得する。ここで、(x,y)の単位はピクセルである。姿勢取得部202は取得された関節の座標情報をもとに被写体の姿勢の推定を行う。具体的には、取得された各関節の座標情報をもとにそれぞれの関節位置の位置関係を把握し、その位置関係から推定される姿勢情報を取得する。被写体の姿勢の推定については学習済みのCNN以外の任意の学習済みモデルが用いられてもよい。例えば、サポートベクタマシンや決定木等の機械学習により生成される学習済みモデルが、姿勢取得部202に適用されてもよい。また、姿勢取得部202は、機械学習により生成される学習済みモデルでなくてもよい。例えば、姿勢取得部202には、機械学習を用いない任意の姿勢推定の手法が適用されてもよい。
図3の説明に戻る。S303で、選択部203は、姿勢取得部202が取得した関節の座標や姿勢情報に基づき、各被写体に対して主被写体らしさを表す信頼度(確率)を算出する。確率の算出方法は、ニューラルネットワーク、サポートベクタマシンや決定木などの機械学習の手法を用いることができる。また、機械学習に限らず、あるモデルに基づいて信頼度又は確率値を出力する関数を構築してもよい。学習済みの重みやバイアス値は、予めフラッシュメモリ155に保存しておき、必要に応じてRAM154に格納する。
なお、選択部203は、姿勢取得部202にて取得された関節の座標データに線形変換など所定の変換を施したデータを用いて信頼度を算出してもよい。この場合、姿勢取得部202や選択部203にて関節の座標データに対する所定の変換を行ってもよい。
本実施形態では、主被写体らしさを表す信頼度(被写体が処理対象画像の主被写体である可能性の度合いに対応する信頼度)として、被写体が処理対象画像の主被写体である確率を採用する場合について説明するが、確率以外の値を用いてもよい。例えば、信頼度として、被写体の重心位置とボールなどシーンにおける重要物体の重心位置との間の距離の逆数を用いることができる。例えばサッカーのシュートを行うシーンにおいてユーザが着目している被写体(シュートを行う人物)は重要物体であるサッカーボールと近いと予想されるので、上述の逆数を信頼度の算出に活用することが可能である。
S304で、選択部203は、検出した被写体(人物)の中で、確率が最大の被写体を主被写体候補として選択する。そして、選択部203は、S306において主被写体候補の関節の座標や、主被写体候補を表す代表的な座標(重心位置や、顔の位置など)をRAM154に格納する。これにより、選択処理が完了する。なお、S304の処理は判定部204側で行われてもよい。
上の説明では、単一フレームの姿勢情報を用いて主被写体候補を選択する場合について説明を行った。しかしながら、連続するフレームや動画を読み込み、時系列の姿勢情報を用いて確率を算出して主被写体を判定する構成を採用してもよい。時系列の姿勢情報を用いる場合は、各時刻における関節位置(特徴点)の情報を用いてもよいし、ある時刻の関節位置情報と、関節や被写体の動きベクトル(特徴点から算出される特徴量)の情報とを組み合わせて用いてもよい。その他にも、時系列情報を表すものであれば、任意の情報を用いることができる。
なお、選択部203に信頼度(確率)の算出について学習させる際には、重要な行動(記録、検出、あるいはモニタリングすべきイベントに係る行動)に移る前の状態(準備動作の状態)を主被写体の状態として学習させることができる。例えば、ボールを蹴る場合であれば、ボールを蹴ろうとして、足を振り上げた状態を主被写体の状態の1つとして学習することができる。この構成を採用する理由は、実際に主被写体となるべき被写体が重要な行動を起こした際に、的確に当該被写体を主被写体と判定し、撮像装置100の制御が当該主被写体に合わせて実行されている必要があるためである。例えば、主被写体に対応する信頼度(確率値)が予め設定した閾値を超えた場合に、自動で画像や映像を記録する制御(記録制御)を開始することにより、ユーザは重要な瞬間(シャッターチャンス)を逃さず撮影することもできる。この際、学習対象の状態から、重要な行動までの典型的な時間(シャッターチャンスまでの猶予時間)の情報を撮像装置100の制御に使用しても構わない。つまり、主制御部151が被写体から重要な行動を検出した場合に検出された重要な行動に対応する典型的な時間後にAF、露出などが完了し、本撮影動作(シャッターを切る)を行うよう制御するようにしてもよい。
<<判定部>>
図5は、処理対象の画像の異なるフレームにおける例である。図5(a)は、着目するフレーム(着目フレーム)の画像(着目画像)を表しており、図5(b)は、着目フレームより、Mフレーム前の画像を表している。選択部203が、501と503の被写体を選択した場合、判定部204は、被写体501の重心位置505と被写体503の重心位置506の距離を算出し、距離が予め定めた閾値未満であれば、同一被写体であるとみなす。これは、fをフレームレート[fps]とした際に、マッチング対象の時間M/f[sec]が十分に短ければ、その間に被写体が動く距離は限定的であると予想されるからである。なお、図5において重心位置505、506は理解のために円と交差する線分を組み合わせた図形(線分の交差位置を重心点とみなす)で示している。実際の重心位置は前述した2次元座標中における関節の位置から算出することが可能な座標上の点、もしくは領域として算出される。それ以外にも、画像の色や輝度ヒストグラムを用いたテンプレートマッチングや、関節の一部情報を用いたマッチングなど、同一被写体判定ができる手法であれば、これに限らない。一般的に、姿勢情報が検出されている被写体は、オクルージョンが発生している可能性が低い。したがって、簡易的な手法で高いマッチング精度を実現することが可能である。
以上で説明したように、第1の実施形態によれば、撮像装置100は、処理対象画像から検出された複数の被写体それぞれの姿勢情報を取得し、複数の被写体それぞれについて、姿勢情報に基づいて複数の被写体の中から主被写体の候補を選択する。そして、撮像装置100は、所定の時間内のフレームにて検出された主被写体候補間で同一判定を行うことにより、主被写体を決定する。
これにより、複数の被写体が存在する画像においてユーザの意図に沿う可能性の高い主被写体を判定することが可能となる。
また、主被写体判定処理において1回のみマッチングを行うことにより処理負荷を低減することができるほか、主被写体判定処理において2フレーム以上の情報を用いて同一被写体判定を行うことで、主被写体の検出精度をより向上させることができる。
<<表示部>>
表示部150において表示される画像や主被写体の検出結果について説明する。
主制御部151の指示に基づいて、表示部150は上述の主被写体判定が行われたのち、決定された主被写体にマーカーや枠などの表示を重畳した画像を表示してもよい。なお、マーカーや枠などの重畳表示は主被写体のみではなく、主被写体候補に対しても行なってもよい。その場合、主被写体候補と決定された主被写体の区別がつくようにマーカーや枠について色、太さ、形状などを変えて表示してもよい。例えば、主被写体に対して太い線の枠を重畳して表示し、主被写体候補について細い線の枠表示を行ってもよい。表示の仕方はこの例に限らず、ユーザが判別可能な表示であれば構わない。
マーカーや枠の表示は主被写体判定の完了を待つ必要はなく、画像中にて主被写体候補が検出された時点から開始してもよい。一方で画像中に主被写体候補、主被写体が存在しない場合は重畳表示をしなくてもよい。
また、ユーザが必要に応じて重畳表示をОN/OFFできるようにしてもよい。
[第2の実施形態]
第2の実施形態では、第1の実施形態における主被写体判定処理の変形例を説明する。
第2の実施形態において、撮像装置100の基本的な構成は第1の実施形態と同様である(図1参照)。以下、主に第1の実施形態と異なる点について説明する。
図3のS307において、判定部204はNに最も近いフレームだけでなく、RAM154に記録されたN-M~N-1のすべての主被写体候補とマッチングを行い、同一被写体と判定された場合は、S308に進み、否の場合はS309に進む。
このように、過去Mフレームすべての被写体候補とマッチングを行うことにより、図7のように、候補Aの検出の間に、候補Bが検出されても、候補Aを判定することができる。
以上で説明したように、第2の実施形態によれば、異なる人物が主被写体候補として検出されても過去の主被写体候補を取りこぼしにくくなり、主被写体の検出精度をより向上させることができる。
[第3の実施形態]
第3の実施形態では、第1~2の実施形態における主被写体判定処理と、被写体の追尾処理を同時に行う場合について説明する。
第3の実施形態において、撮像装置100の基本的な構成は第1~2の実施形態と同様である(図1参照)。以下、主に第1の実施形態と異なる点について説明する。
図6は、本実施形態のフローチャートである。S601では、画像処理部152の追尾部がN-1フレーム目まで追尾してきた被写体(追尾被写体)と同一の被写体をNフレーム目で姿勢取得部202が検出する。
S610は、図3におけるS303から、S309までを表したものであり、実施形態1で説明した主被写体判定処理である。S610において、主被写体が決定されたか否かをS602において判定し、主被写体が決定されている場合は、S603において、追尾被写体をS610で決定された主被写体に変更する。なお、S610で決定された主被写体と追尾被写体が同一の場合は、追尾被写体の変更は行わない。
以上説明したように、第3の実施形態によれば、追尾処理を用いている最中においても、複数の被写体からユーザの意図に沿う可能性の高い主被写体を判定し、さらにその被写体を追尾することが可能となる。
また、本実施形態では撮像装置100の撮像素子141は本体に固定され、同じ画角内で被写体を追尾する例を示した。しかし、各実施形態含めてこれに限らず、撮像装置100がパン・チルト・ズームの駆動機構を有し、被写体の動きに応じてパン・チルト・ズームの少なくともいずれかを行いながら被写体を追尾する構成であってもよい。
[第4の実施形態]
第4の実施形態では、第1~3の実施形態における主被写体判定処理の変形例を説明する。本実施形態では、複数の被写体について主被写体らしさを示す確率の値の評価と複数フレームにおけるマッチングを組み合わせて主被写体判定を行う。これにより、スポーツにおける競り合いのように、主被写体の可能性が高い被写体が複数存在するような場合に、主被写体候補の取りこぼしを減らしつつ、主被写体判定の精度を高めることができる。
第4の実施形態において、撮像装置100の基本的な構成は第1の実施形態と同様である(図1参照)。以下、主に第1の実施形態に沿って説明する。
本実施例では、図3のS301からS303について第1の実施形態と同様の処理が行われる。
S304にて選択部204は、主被写体らしさを示す確率が最大の値を有する被写体に加え、その確率の最大値との差が予め定めた値よりも小さい値を有する被写体も主被写体候補として選択する。
S305で、判定部204はRAM154の情報を参照し、N-M~N-1フレーム以内の画像に主被写体候補が存在するか否かを判定し、存在する場合はS306に進み、存在しない場合は、S309に進む。S306も第1の実施形態と同様の処理を行う。
S307ではRAM154に記録されたすべての主被写体候補とN-M~N-1フレームの中でマッチングを行い、同一被写体と判定された場合は、S308に進み、否の場合はS309に進む。また、実施形態1~3では、S307の同一被写体判定の際に、着目フレームとそれ以外の1フレームで同一被写体が取れることを条件にしたが、着目フレームと、それ以外の2フレーム以上でマッチングが取れることを条件にしてもよい。主被写体候補を複数格納する手法と、同一被写体判定の条件を厳しくする手法は同時に行ってもよいし、いずれか一方を行ってもよい。同一被写体判定の条件を厳しくすることで、主被写体候補が多数存在する状況においても、同一被写体判定の精度の低下を抑えることができる。
以上で説明したように、第4の実施形態によれば、画面内に主被写体である可能性が高い複数の被写体が存在する場合に、主被写体候補の取りこぼしを減らしつつ、被写体選択の精度を向上させることができる。
[その他の実施形態]
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。
100 撮像装置
141 撮像素子
151 主制御部
152 画像処理部
201 画像取得部
202 姿勢取得部
203 選択部
204 判定部
上記課題を解決するために、本発明は、異なるタイミングで撮された複数の画像を取得する取得手段と、前記画像内の被写体の特徴点の情報を用いて、前記被写体から主被写体の候補を選択する選択手段と、前記特徴点から算出される特徴量の情報を用いて、前記異なるタイミングごとに選択された前記主被写体の候補が同一被写体か否かを判定する判定手段と、を有し、着目画像と前記着目画像が撮されるより前の所定の時間内に撮された1つ以上の画像において、前記選択手段により選択された前記主被写体の候補が前記判定手段によって同被写体と判定された場合に、主被写体を決定することを特徴とする主被写体判定装置を提供する。
また、本発明によれば、異なるタイミングで撮された複数の画像を取得する取得手段と、前記画像内の被写体から主被写体の候補を選択する選択手段と、前記異なるタイミングごとに選択された前記主被写体の候補が同一被写体か否かを判定する判定手段と、を有し、着目画像を撮するより前の所定の時間内に撮された1つ以上の画像において、前記選択手段により前記主被写体の候補選択され、かつ前記判定手段によって前記所定の時間内に撮された画像における主被写体の候補が前記着目画像における主被写体の候補と同一被写体と判定された場合に、主被写体を決定することを特徴とする主被写体判定装置を提供する。
また、本発明によれば、異なるタイミングで撮された画像を取得する取得ステップと、前記画像内の被写体の特徴点の情報を用いて、前記被写体から主被写体の候補を選択する選択ステップと、前記特徴点から算出される特徴量の情報を用いて、前記異なるタイミングごとに選択された前記主被写体の候補が同一被写体か否かを判定する判定ステップと、を有し、着目画像と前記着目画像が撮されるより前の所定の時間内に撮された1つ以上の画像において、前記選択ステップにより選択された前記主被写体の候補が前記判定ステップによって同被写体と判定された場合に、主被写体を決定することを特徴とする主被写体判定装置の制御方法を提供する。
また、本発明によれば、異なるタイミングで撮された画像を取得する取得ステップと、前記画像内の被写体から主被写体の候補を選択する選択ステップと、前記異なるタイミングごとに選択された前記主被写体の候補が同一被写体か否かを判定する判定ステップと、を有し、着目画像を撮するより前の所定の時間内に撮された1つ以上の画像において、前記選択ステップにより前記主被写体の候補選択され、かつ前記判定ステップによって、前記所定の時間内に撮された画像における主被写体の候補が前記着目画像における主被写体の候補と同一被写体と判定された場合に、主被写体を決定することを特徴とする主被写体判定装置の制御方法を提供する。

Claims (15)

  1. 異なるタイミングで撮影された画像を取得する取得手段と、
    前記画像内の被写体の特徴点の情報を用いて、前記被写体から主被写体の候補を選択する選択手段と、
    前記特徴点から算出される特徴量の情報を用いて、前記異なるタイミングごとに選択された前記主被写体の候補が同一か否かを判定する判定手段と、を有し、
    着目画像と前記着目画像が撮影されるより前の所定の時間内に撮影された1つ以上の画像において、前記選択手段が選択した前記主被写体の候補が前記判定手段によって、同一と判定された場合に、主被写体を決定することを特徴とする主被写体判定装置。
  2. 前記被写体は、人物もしくは動物を表すことを特徴とする請求項1に記載の主被写体判定装置。
  3. 前記特徴点は、前記被写体における少なくとも1つ以上の関節位置であることを特徴とする請求項1または2に記載の主被写体判定装置。
  4. 前記特徴量の情報は、前記被写体の重心、前記被写体の体の一部を表す位置情報、前記特徴点から算出される前記被写体の位置もしくは動きベクトルであることを特徴とする請求項1乃至3のいずれか1項に記載の主被写体判定装置。
  5. 異なるタイミングで撮影された画像を取得する取得手段と、
    前記画像内の被写体から主被写体の候補を選択する選択手段と、
    前記異なるタイミングごとに選択された前記主被写体の候補が同一か否かを判定する判定手段と、を有し、
    着目画像を撮影するより前の所定の時間内に撮影された1つ以上の画像において、前記選択手段が前記主被写体の候補を選択し、かつ前記判定手段によって、前記所定の時間内に撮影された画像における主被写体の候補が前記着目画像における主被写体の候補と同一と判定された場合に、主被写体を決定することを特徴とする主被写体判定装置。
  6. 前記選択手段は、前記被写体から、主被写体である可能性の度合いに対応する信頼度を算出することを特徴とする請求項1乃至5のいずれか1項に記載の主被写体判定装置。
  7. 前記選択手段は、前記被写体と重要物体との間の距離を用いて信頼度の算出を行うことを特徴とする請求項6に記載の主被写体判定装置。
  8. 前記選択手段は、前記信頼度が最大の値を持つ被写体を前記主被写体の候補として選択することを特徴とする請求項6または7に記載の主被写体判定装置。
  9. 前記選択手段は、前記信頼度について最大の値との差が予め定めた値より小さい前記被写体も前記主被写体の候補として選択することを特徴とする請求項8に記載の主被写体判定装置。
  10. 前記被写体を追尾する追尾手段を有し、
    前記判定手段によって、前記主被写体の候補が同一と判定された場合に、前記着目画像における追尾の対象を前記主被写体に切り替えることを特徴とする請求項1乃至9のいずれか1項に記載の主被写体判定装置。
  11. 前記選択手段は、前記着目画像が撮影するより前の前記所定の時間内で撮影されていない画像から前記主被写体の候補の選択を行わないことを特徴とする請求項1乃至10のいずれか1項に記載の主被写体判定装置。
  12. 撮影光学系を介して結像された被写体像を撮像する撮像手段と、
    請求項1乃至11のいずれか1項に記載の主被写体判定装置を備えることを特徴とする撮像装置。
  13. 異なるタイミングで撮影された画像を取得する取得ステップと、
    前記画像内の被写体の特徴点の情報を用いて、前記被写体から主被写体の候補を選択する選択ステップと、
    前記特徴点から算出される特徴量の情報を用いて、前記異なるタイミングごとに選択された前記主被写体の候補が同一か否かを判定する判定ステップと、を有し、
    着目画像と前記着目画像が撮影されるより前の所定の時間内に撮影された1つ以上の画像において、前記選択手段が選択した前記主被写体の候補が前記判定手段によって、同一と判定された場合に、主被写体を決定することを特徴とする主被写体判定装置の制御方法。
  14. 異なるタイミングで撮影された画像を取得する取得ステップと、
    前記画像内の被写体から主被写体の候補を選択する選択ステップと、
    前記異なるタイミングごとに選択された前記主被写体の候補が同一か否かを判定する判定ステップと、を有し、
    着目画像を撮影するより前の所定の時間内に撮影された1つ以上の画像において、前記選択手段が前記主被写体の候補を選択し、かつ前記判定手段によって、前記所定の時間内に撮影された画像における主被写体の候補が前記着目画像における主被写体の候補と同一と判定された場合に、主被写体を決定することを特徴とする主被写体判定装置の制御方法。
  15. コンピュータを、請求項1乃至11のいずれか1項に記載の主被写体判定装置の各手段として機能させるためのプログラム。
JP2021198650A 2021-12-07 2021-12-07 主被写体判定装置、撮像装置、主被写体判定方法、及びプログラム Pending JP2023084461A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021198650A JP2023084461A (ja) 2021-12-07 2021-12-07 主被写体判定装置、撮像装置、主被写体判定方法、及びプログラム
US18/061,358 US20230177860A1 (en) 2021-12-07 2022-12-02 Main object determination apparatus, image capturing apparatus, and method for controlling main object determination apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021198650A JP2023084461A (ja) 2021-12-07 2021-12-07 主被写体判定装置、撮像装置、主被写体判定方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2023084461A true JP2023084461A (ja) 2023-06-19

Family

ID=86607872

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021198650A Pending JP2023084461A (ja) 2021-12-07 2021-12-07 主被写体判定装置、撮像装置、主被写体判定方法、及びプログラム

Country Status (2)

Country Link
US (1) US20230177860A1 (ja)
JP (1) JP2023084461A (ja)

Also Published As

Publication number Publication date
US20230177860A1 (en) 2023-06-08

Similar Documents

Publication Publication Date Title
JP4586709B2 (ja) 撮像装置
US8831282B2 (en) Imaging device including a face detector
JP5159515B2 (ja) 画像処理装置およびその制御方法
US8988529B2 (en) Target tracking apparatus, image tracking apparatus, methods of controlling operation of same, and digital camera
US9736356B2 (en) Photographing apparatus, and method for photographing moving object with the same
US8411997B2 (en) Image capture device and program storage medium
US20150207986A1 (en) Information processing apparatus, information processing method, and program
JP6049448B2 (ja) 被写体領域追跡装置、その制御方法及びプログラム
US20080285791A1 (en) Image processing apparatus and control method for same
US9367746B2 (en) Image processing apparatus for specifying an image relating to a predetermined moment from among a plurality of images
KR101537948B1 (ko) 얼굴 포즈 추정을 이용한 촬영 방법 및 장치
CN110944101A (zh) 摄像装置及图像记录方法
US20220321792A1 (en) Main subject determining apparatus, image capturing apparatus, main subject determining method, and storage medium
US12002279B2 (en) Image processing apparatus and method, and image capturing apparatus
JP5448868B2 (ja) 撮像装置および撮像装置の制御方法
WO2019137186A1 (zh) 一种食物识别方法及装置、存储介质、计算机设备
JP2023084461A (ja) 主被写体判定装置、撮像装置、主被写体判定方法、及びプログラム
JP2016081095A (ja) 被写体追跡装置、その制御方法、撮像装置、表示装置及びプログラム
JP2023124598A (ja) 主被写体判定装置、撮像装置、主被写体判定方法、及びプログラム
JP4849330B2 (ja) 表示制御装置および方法、撮像装置、情報処理装置および方法、並びにプログラム
JP2019134204A (ja) 撮像装置
JP2000175101A (ja) 自動追尾装置
JPH10255058A (ja) 動作検出装置および動作検出方法
WO2022030275A1 (ja) 撮像装置、情報処理装置、情報処理方法、及びプログラム
JP2024031627A (ja) 画像処理装置、撮像装置及びその制御方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230531

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230531

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231020

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20231213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240123