JP2023064499A - 情報処理装置、撮像システム、方法及びプログラム - Google Patents

情報処理装置、撮像システム、方法及びプログラム Download PDF

Info

Publication number
JP2023064499A
JP2023064499A JP2021174824A JP2021174824A JP2023064499A JP 2023064499 A JP2023064499 A JP 2023064499A JP 2021174824 A JP2021174824 A JP 2021174824A JP 2021174824 A JP2021174824 A JP 2021174824A JP 2023064499 A JP2023064499 A JP 2023064499A
Authority
JP
Japan
Prior art keywords
detection
screen
information processing
processing apparatus
detection result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021174824A
Other languages
English (en)
Inventor
悠 今野
Yu Konno
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2021174824A priority Critical patent/JP2023064499A/ja
Priority to US17/969,737 priority patent/US20230125410A1/en
Publication of JP2023064499A publication Critical patent/JP2023064499A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/631Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
    • H04N23/632Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters for displaying or modifying preview images prior to image capturing, e.g. variety of image resolutions or capturing parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/945User interactive design; Environments; Toolboxes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/617Upgrading or updating of programs or applications for camera control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ユーザが画像中のオブジェクト又はオブジェクトの特定部位を選択する際に、意図通りのオブジェクト又はオブジェクトの特定部位の選択を可能にする情報処理装置、撮像システム、方法及びプログラムを提供する。【解決手段】情報処理装置100は、画像から検出するオブジェクトに対する検出粒度が互いに異なる複数の学習済みモデルを用いて、検出部202で画像から検出した検出結果であるオブジェクト又は特定部位を、複数の学習済みモデル毎に切り替えて画面に表示する表示部204と、入力部205で取得した、画面に表示された検出結果に対するユーザ操作に基づいて、所定の処理を行うオブジェクトを決定する被写体決定部203、を備える。表示部204は、ユーザ操作で選択された注目学習済みモデルによる検出結果を画面に表示する。【選択図】図2

Description

本発明は、情報処理装置、撮像システム、方法及びプログラムに関する。
近年、深層学習の発達に伴い、画像から物体検出を行う際の検出精度が大幅に向上している。従来、顔及び人体等の特定のカテゴリーに属する物体をニューラルネットワーク(以下、NN)等に学習させることで、画像からの物体検出を実現していた。深層学習では、従来の手法と比べてより抽象的な概念をNNに学習させることができる。深層学習は、様々なカテゴリーに属する物体の情報を用いて物体らしさをNNに学習させることで、様々なカテゴリーの物体を同時に検出するマルチオブジェクト検出を可能とする。
非特許文献1~3は、深層学習を用いて画像からのマルチオブジェクト検出を行う手法について記載している。また、ユーザが被写体を撮影する際に、追尾処理及びオートフォーカス処理(以下、AF処理)の対象となる被写体を、デジタルカメラの画面から任意に選択するニーズがあり、画面から被写体を選択する機能は、既存の製品に広く実装されている。
特許文献1では、AF処理の対象となる被写体がタッチパネルのタッチ位置に応じて指定され、指定した被写体に連動して最適なAF処理の切り替えが行われることが記載されている。
特開2018-207309号公報
Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation., Ross Girshick et al., 2014 SSD: Single Shot MultiBox Detector, Wei Liu et al., 2015 You Only Look Once: Unified, Real-Time Object Detection, Joseph Redmon et al., 2015
特定のカテゴリーに依存しないマルチオブジェクト検出が可能である場合、検出対象は、人及び自動車等のオブジェクト、及び、人の一部(顔及び手)及び自動車の一部(ライト及びタイヤ)のオブジェクトを構成する特定部位となる。ここで、デジタルカメラ等の画面に検出対象の全情報を検出枠等で表示すると、膨大な数の情報が画面に表示されるため、ユーザはオブジェクト及び特定部位を視認しづらくなることがある。例えば、AF処理の対象となるオブジェクト又は特定部位は、ユーザの撮影意図及び嗜好に応じて異なるため、画面から検出するオブジェクト又は特定部位の定義及び膨大な情報の自動的な取捨選択は困難である。
一方、オブジェクトの検出枠及び特定部位の検出枠を画面に同時に表示した場合、ユーザがオブジェクトを選択したつもりであっても、オブジェクトの特定部位が選択されてしまうことがある。このように、画面に膨大な数の情報が表示される場合、ユーザが画面から意図通りのオブジェクト又は特定部位を選択することができなくなるため、ユーザの操作性が悪化する。特許文献1は、ユーザがタッチパネル上で選択した対象に対してAF処理を行う事例を記載している。
しかしながら、ユーザがタッチパネル上でタッチした位置に存在するオブジェクト又は特定部位のいずれを選択したのかを特定することは困難であるという課題がある。
本発明は、ユーザが画像中のオブジェクト又はオブジェクトの特定部位を選択する際に、意図通りのオブジェクト又はオブジェクトの特定部位の選択を可能にするための技術を提供する。
本発明の目的を達成するために、本発明の一実施形態に係る情報処理装置は、以下の構成を備える。すなわち、情報処理装置は、画像から検出するオブジェクトに対する検出粒度が互いに異なる複数の学習済みモデルにおける注目学習済みモデルによる検出結果を画面に表示する表示手段と、前記表示手段が前記複数の学習済みモデルごとに切り替えて前記画面に表示する前記検出結果に対するユーザ操作に基づいて、所定の処理を行うオブジェクトを決定する決定手段と、を備えることを特徴とする。
本発明によれば、ユーザが画像中のオブジェクト又はオブジェクトの特定部位を選択する際に、意図通りのオブジェクト又はオブジェクトの特定部位を選択することができる。
情報処理装置のハードウェア構成の一例を示す図。 第1実施形態に係る情報処理装置の機能構成の一例を示す図。 第1実施形態に係る注目被写体の決定処理のフローチャート。 第2実施形態に係る情報処理装置の機能構成の一例を示す図。 第2実施形態に係る注目被写体の決定処理のフローチャート。 複数の特定部位の検出枠を統合する一例を示す図。
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
(第1実施形態)
第1実施形態は、画像から検出するオブジェクトに対する検出粒度が互いに異なる複数の学習済みモデルにおける注目学習済みモデルによる検出結果を画面に表示する。第1実施形態は、注目学習済みモデルごとに切り替えて表示する検出結果に対するユーザ操作に基づいて、所定の処理を行うオブジェクトを決定する。ここで、撮像装置(例えば、デジタルカメラ)で撮影される人物、動物及び乗り物等の不特定で多様な物体の全体を「オブジェクト」と呼ぶ。一方、人物の一部(手及び足)、及び、バイクの一部(フロントライト及びタイヤ)等のオブジェクトの一部を「特定部位」と呼ぶ。第1実施形態は、オブジェクト又は特定部位の検出枠を撮像装置(例えば、デジタルカメラ)の画面及びファインダー上に表示し、ユーザは画面からオブジェクト又は特定部位を選択する。
第1実施形態は、ユーザが画面から選択したオブジェクト又は特定部位に対して、所定の処理として、例えば、追尾処理、AF処理及びカウント処理を撮像装置に行わせる。第1実施形態は、ユーザが意図通りのオブジェクト又は特定部位を選択することが可能なUI(ユーザ・インターフェース)を提供する。第1実施形態では、オブジェクト検出用と特定部位検出用の2つの学習済みモデルを保持するが、オブジェクトに対する検出粒度を段階的に変更した3つ以上の学習済みモデルを保持してもよい。検出粒度はオブジェクトに対する注目領域の広さとして定義する。また、ユーザが選択したオブジェクト又は特定部位に対して追尾処理及びAF処理を行うことに限定されず、オブジェクト又は特定部位の個数をカウントするカウント処理を行ってもよい。
図1は、情報処理装置のハードウェア構成の一例を示す図である。情報処理装置100は、CPU101、メモリ102、入力部103、記憶部104、表示部105及び通信部106を含む。情報処理装置100は、画像処理が可能な汎用的な装置であり、例えば、カメラ、スマートフォン、タブレット及びPC等を含む。情報処理装置100は、オブジェクトを撮像する撮像装置(不図示)と組み合わせられて用いられてもよく、撮像システム(不図示)は、撮像装置と情報処理装置100を含む。
CPU101は、情報処理装置100の各部を制御する装置であり、メモリ102に格納されたプログラム及びデータを実行することにより、各種処理を行う。
メモリ102は、各種データ及び起動プログラム等を記憶する記憶装置であり、例えば、ROMを含む。メモリ102は、CPU101が各種の処理を実行する際に用いるワークエリアを提供し、例えば、RAMを含む。
入力部103は、ユーザからの各種指示の入力を受け付ける装置であり、例えば、マウス、キーボード、ジョイスティック及び各種操作ボタンを含む。
記憶部104は、各種データ及びNNの学習用データを保存する記憶媒体であり、例えば、HDD、SSD、フラッシュメモリ及び光学メディア等を含む。
表示部105は、CPU101が処理した各種情報を表示する装置であり、例えば、液晶画面、有機EL画面、接触又は非接触タッチパネル、及び空中操作ディスプレイ等のUI(ユーザ・インタフェース)を含む。表示部105は、撮像装置(不図示)が撮像した画像及びサーバ(不図示)から受信したデータ等を画面に表示する。表示部105がタッチパネルである場合、ユーザはタッチパネルをタッチすることで各種の指示をCPU101に入力する。
通信部106は、情報処理装置100内の各部のデータのやりとりを行うための装置であり、例えば、ケーブル、バス、有線LAN及び無線LAN等を含む。
図2は、第1実施形態に係る情報処理装置の機能構成の一例を示す図である。情報処理装置100は、モデル保持部201、検出部202、被写体決定部203、表示部204及び入力部205を含む。
モデル保持部201は、少なくとも2つ以上の機械学習モデルに関する学習済モデルを保持する。モデル保持部201は、例えば、オブジェクト又はオブジェクトの一部を検出する際に参照する注目領域の広さがそれぞれ異なる(オブジェクトの検出粒度がそれぞれ異なる)2つの機械学習モデルを保持する。ここで、機械学習モデルとは、ディープラーニング(DL)等の機械学習アルゴリズムによる学習モデルのことをいう。また、学習済モデルとは、任意の機械学習アルゴリズムによる機械学習モデルに対して、事前に適切な教師データを用いてトレーニング又は学習を行ったモデルのことである。ただし、学習済モデルは、既に学習した以上の学習を行わないものではなく、追加の学習を行うこともできる。
教師データとは、機械学習モデルを学習させるための学習データのことである。教師データは、様々なカテゴリーに属するオブジェクト又は特定部位が映った入力データ(例えば、画像)、及び、画像内のオブジェクト又は特定部位の領域を枠で表示したGTデータのペアで構成される。入力データは、撮像装置が予め撮像した画像である。GT(Ground Truth)は、画像内のオブジェクト又は特定部位に対して事前に正解情報を付与した正解データのことである。様々なカテゴリーとは、人物、昆虫及び動物等の生物、及び、自動車及びバイク等の人工物等の分類であり、検出対象となるオブジェクト全般を含む。
2つの学習済みモデルは、オブジェクトを検出する際の注目領域の広さがそれぞれ異なる複数の教師データを用いて機械学習モデルを学習させる方法及び学習時の各種ハイパーパラメータを調整する方法等で実現される。モデル保持部201は、オブジェクトを検出する際の注目領域の広さがそれぞれ異なる複数の教師データの一例として、1つの入力データ(画像)に対しGTデータA及びGTデータBを用意する。GTデータAは、入力データ(画像)内の各オブジェクト(例えば、人物及び車)の領域に枠を付与したGTであり、オブジェクトに対する注目領域が広いモデルの学習に利用される。GTデータBは、入力データ(画像)内の各オブジェクトの特定部位(例えば、人物の顔及び車のタイヤ)の領域に枠を付与したGTであり、オブジェクトに対する注目領域が狭いモデルの学習に利用される。
入力データ(画像)及び、GTデータA又はGTデータBを用いて機械学習モデルの学習をそれぞれ行うと、GTデータAで学習した学習済みモデルAはオブジェクトを検出し、GTデータBで学習した学習済みモデルBは特定部位を検出する。このように、オブジェクトを検出する際の注目領域の広さがそれぞれ異なる複数の教師データを用意し、それらの教師データを機械学習モデルに学習させることで、オブジェクト又は特定部位を検出する学習済みモデルが得られる。
検出部202は、既知のパターン認識技術又は機械学習を用いた認識技術等を用いて、画像からオブジェクト又は特定部位を検出し、それぞれの検出結果を得る。ここで、オブジェクト又は特定部位の検出とは、モデル保持部201が有する2つの学習済モデルを用いて、画像から様々なカテゴリーに属するオブジェクト又は特定部位の位置を特定することをいう。
オブジェクト又は特定部位の検出結果は、画像上の座標情報、及び、オブジェクト又は特定部位の存在確率を表す尤度で表される。画像上の座標情報は、画像上の矩形領域の中心位置及び矩形領域のサイズで表される。なお、画像上の座標情報は、オブジェクト又は特定部位の回転角に関する情報を有していてもよい。
被写体決定部203は、検出部202の学習済みモデルが検出したオブジェクト又は特定部位の検出枠と、後述の入力部205から受信した座標情報とを用いて、画面上でユーザが指定したオブジェクト又は特定部位を決定する。オブジェクト又は特定部位の検出枠は、画像上で任意の図形として、例えば、矩形又は楕円等で表される。表示部204は、オブジェクト又は特定部位の検出枠を画像上に重畳して、表示部105の画面に表示する。被写体決定部203は、ユーザが画面から選択したオブジェクト又は特定部位の座標情報を記憶部104に保存する。また、被写体決定部203は、決定されたオブジェクト又は特定部位の追尾処理、AF処理及びカウント処理の少なくともいずれかを行うように撮像装置(不図示)に指示することで、それらの処理の制御を行う。
表示部204は、検出部202が検出したオブジェクト又は特定部位の検出枠と、被写体決定部203が決定した注目オブジェクト又は注目特定部位を表示部105の画面に同時に表示する。ここで、表示部204は、オブジェクト又は特定部位の検出枠、及び、注目オブジェクト又は注目特定部位の枠の太さ及び色を変更して、それらを区別可能な形式で画面に表示する。
入力部205は、表示部105のタッチパネル上でユーザの指が接触した位置を検出し、この位置に対応する座標情報を被写体決定部203へ出力する。
図3は、第1実施形態に係る注目被写体の決定処理のフローチャートである。
S301で、検出部202は、記憶部104からオブジェクトが映る画像を取得する。
S302で、検出部202は、モデル保持部201が有する2つの機械学習モデルに関する学習済みモデルから、注目被写体の検出処理に用いる学習済みモデルを選択する。検出部202は、初回の注目被写体の検出処理を行う場合、オブジェクトに対する注目領域が最も広い(検出オブジェクトの粒度が最も粗い)学習済みモデルを選択する。
また、検出部202は、S310の処理でNoと判定されて、2回目以降の注目被写体の検出処理を行う場合、前回選択した学習済みモデルよりもオブジェクトに対する注目領域が狭い(検出オブジェクトの粒度がより細かい)学習済みモデルを選択する。
S303で、検出部202は、S302で選択した学習済みモデルを用いて、画像からオブジェクトとして、様々なカテゴリーに属するオブジェクト又は特定部位を検出する。オブジェクト又は特定部位の検出結果は、画像上の座標情報及び尤度で表される。
S304で、表示部204は、画像上のオブジェクトに対する検出処理が初回であるか否かを判定する。表示部204は、画像上のオブジェクトに対する検出処理が初回であると判定した場合(S304でYes)、処理はS305に進む。表示部204は、画像上のオブジェクトに対する検出処理が初回ではないと判定した場合(S304でNo)、処理はS312に進む。
S305で、表示部204は、画像上にS303で検出された様々なカテゴリーに属するオブジェクト又は特定部位の検出枠を重畳して表示部105の画面に表示する。ここで、表示部204は、全てのオブジェクト又は特定部位の検出枠を画像に重畳して画面に表示するのではなく、尤度が所定の閾値を超えるオブジェクト又は特定部位の検出枠のみを表示してもよい。表示部204は、オブジェクト又は特定部位の検出枠によるノイズが多いと判定した場合、画面に表示するオブジェクト又は特定部位の検出枠を限定することで、オブジェクト又は特定部位の検出枠によるノイズを低減できる。なお、表示部204は、オブジェクトに対する初回の検出処理では、オブジェクトに対する注目領域が最も広い学習済みモデルが利用されるため、様々なカテゴリーに属するオブジェクトの検出枠を画像上に重畳して画面に表示する。
S312で、表示部204は、検出したオブジェクトの周辺領域を拡大した状態の検出枠を重畳して表示部105の画面に表示する。
S306で、入力部205は、表示部105の画面を介して、ユーザからの入力情報を受け付ける。ユーザは、表示部105が表示した画像上の検出枠の中から追尾処理、AF処理及びカウント処理の少なくともいずれかを行うオブジェクト又は特定部位に対応する検出枠を選択する。入力部205は、タッチパネル上でユーザの指が接触した位置情報を、画像上の座標情報に変換する。
S307で、検出部202は、S306で取得した画像上の座標情報とS303で検出したオブジェクト又は特定部位の検出枠を用いて、注目被写体(注目オブジェクト又は注目特定部位)を求める。注目被写体は、例えば、画像上の座標情報と、オブジェクト又は特定部位の検出枠の中心座標とのユークリッド距離が最も近いオブジェクト又は特定部位の検出枠に基づいて求められる。あるいは、注目被写体は、オブジェクト又は特定部位の検出枠の代替として表示されるツリービュー及びシンボル等から、ユーザが意図した被写体を1つ選択することで決定されてもよい。
S308で、検出部202は、S302で決定した選択中の学習済みモデルが、モデル保持部201の学習済みモデルのうち、オブジェクトに対する注目領域が最も狭い学習済みモデルであるか否かを判定する。検出部202は、選択中の学習済みモデルが、オブジェクトに対する注目領域が最も狭い学習済みモデルであると判定した場合(S308でYes)、処理はS311に進む。検出部202は、選択中の学習済みモデルが、オブジェクトに対する注目領域が最も狭い学習済みモデルではないと判定した場合(S308でNo)、処理はS309に進む。
S309で、被写体決定部203は、S307で求めた注目被写体を最終の注目被写体とするか否かを決定する。ここで、被写体決定部203は、注目被写体の決定処理を終了するか否かについて、ユーザからの入力操作を受け付ける。
S310で、被写体決定部203は、注目被写体の決定処理を終了するか否かを、第1判定条件と第2判定条件とに基づいて判定する。第1判定条件は、「S309でユーザにより注目被写体の決定処理の終了が選択された」である。第2判定条件は、「S307で選択された注目被写体の大きさが、事前に設定された注目被写体の規定サイズよりも小さい」である。被写体決定部203は、第1判定条件と第2判定条件のいずれかを満たしていると判定した場合(S310でYes)、処理はS311に進む。被写体決定部203は、第1判定条件と第2判定条件のいずれも満たしていないと判定した場合(S310でNo)、処理はS302に戻り、注目被写体決定処理を続行する。
S311で、被写体決定部203は、S307で求めた注目被写体を最終注目被写体として決定し、注目被写体の座標情報を記憶部104に保存し、注目被写体の決定処理を終了する。その後、表示部204は、注目被写体の検出枠を画像上に重畳して、表示部105の画面に表示する。被写体決定部203は、注目被写体の追尾処理、AF処理及びカウント処理の少なくともいずれかを行うように撮像装置(不図示)に指示することで、それらの処理の制御を行う。
(第1実施形態の変形例1)
S304で表示部204は、画像内のオブジェクトに対する検出処理が初回であるか否かを判定しなくてもよい。すなわち、入力部205は、S303の処理の直後にS306の処理を行う。これにより、表示部204は、検出オブジェクトの周辺領域を拡大した状態の検出枠を重畳して表示部105の画面に表示せずに、検出オブジェクトの検出枠を元々の画像に重畳して画面に表示する。
(第1実施形態の変形例2)
S307で検出部202は、S303で検出した複数の特定部位の検出枠の中から1つの注目被写体を決定するのではなく、複数の特定部位の検出枠を用いてオブジェクトの検出枠を算出してもよい。オブジェクトの検出枠は、例えば、複数の複数の特定部位の検出枠を統合した大きな検出枠(統合検出結果)として算出される。図6は、複数の特定部位の検出枠を統合する一例を示す図である。図6(a)は、学習済みモデルBを用いて検出した複数の特定部位の検出枠を画像上に重畳した合成画像を示し、破線で示す複数の検出枠は特定部位の検出枠を示す。図6(b)は、複数の特定部位の検出枠を統合して算出したオブジェクトの検出枠を画像上に重畳した合成画像を示し、実線で示す検出枠はオブジェクトの検出枠に相当する。図6(c)は、実線の検出枠と破線の検出枠を含む全ての検出枠を画像上に重畳した合成画像を示す。図6(c)における実線で示す検出枠は、全ての破線の検出枠及びオブジェクト(例えば、車)を内包し、最小限のサイズとなるように算出される。
なお、複数の特定部位の検出枠を統合してオブジェクトの検出枠を算出する一例を説明したが、上記と同様の方法により、複数のオブジェクト検出結果を統合した大きな検出枠(統合検出結果)を算出してもよい。そして、表示部204は、画像上に算出したオブジェクトの検出枠(図6(b)で図示)又は特定部位の検出枠(図6(a)で図示)を重畳して表示部105の画面に表示する。入力部205は、表示部105の画面を介して、ユーザからの入力情報を受け付ける。ユーザは、表示部105が表示した画像上のオブジェクトの検出枠又は特定部位の検出枠から追尾処理、AF処理及びカウント処理の少なくともいずれかを行うオブジェクト又は特定部位に対応する検出枠を選択する。
(第1実施形態の変形例3)
注目被写体の決定処理では、同一の学習済みモデルを用いて画像から特定部位の検出を行ったとしても、追加処理(例えば、特定部位の検出枠を表示する際の尤度の閾値の設定)の有無に応じて、特定部位の検出枠が変化する。図6で説明したように、検出部202は、1つの学習済みモデルで検出した図6(a)に示す特定部位の検出枠に基づいて、図6(b)に示すオブジェクトの検出枠を算出する。つまり、追加処理に応じて変化した複数の特定部位の検出枠に基づいて新たにオブジェクトの検出枠を算出する場合、特定部位検出用の学習済みモデルが同一であっても、算出されるオブジェクトの検出枠のサイズが変化する。そのため、モデル保持部201は、オブジェクトに対する検出粒度が互いに異なる複数の学習済みモデルを保持するのではなく、1つの学習済みモデルのみを保持してもよい。
(第1実施形態の変形例4)
入力部205は、タッチパネル上でユーザの指が接触した位置から座標を取得するのではなく、ユーザの視線情報及びジェスチャー等の非接触技術を用いて画像上の位置情報を取得してもよい。ユーザの視線情報とは、表示部105に向けられたユーザの視線を撮像装置等で検出することによって取得される少なくとも1点以上の座標のことをいう。非接触技術とは、ユーザが画面又はボタンに触れることなく入力操作を行う技術のことをいう。非接触技術は、赤外線及び静電容量の変化を利用したセンサー、撮像装置による画像認識、音声認識等のセンシング技術、及び携帯端末(例えば、スマートフォン及びタブレット)を利用した無線制御技術等を用いることで実現される。非接触技術に用いる画面は、例えば、非接触タッチパネル及び空中操作ディスプレイ等をさらに含む。
(第1実施形態の変形例5)
ユーザが表示部105の画面の表示変更の操作をした場合、表示部204はユーザの入力に応じて、選択中の学習済みモデルを変更し、表示部105の画面にオブジェクト又は特定部位の検出枠を表示してもよい。例えば、ユーザが、表示部105の画面上のオブジェクトを拡大表示する入力をした場合、検出部202は選択中のオブジェクト検出用の学習済みモデルAから特定部位検出用の学習済みモデルBに変更する。そして、表示部204は、学習済みモデルBを用いて検出した特定部位の検出枠を画像上に重畳して表示する。一方、ユーザが、表示部105の画面上の特定部位を縮小表示する入力をした場合、検出部202は、選択中の特定部位検出用の学習済みモデルBをオブジェクト検出用の学習済みモデルAに変更する。そして、表示部204は、学習済みモデルAを用いて検出したオブジェクトの検出枠を画像上に重畳して表示する。
以上の通り、第1実施形態によれば、オブジェクト及び特定部位の検出枠を同時に画面に表示するのではなく、複数の学習済みモデルにおける注目学習済みモデルに対応する、オブジェクト又は特定部位の検出枠を段階的に表示する。これにより、ユーザは画面からオブジェクト又は特定部位を視認しやすくなり、オブジェクト又は特定部位の選択を容易に行うことができる。さらに、ユーザが、意図的にオブジェクトを選択したのか、又は、特定部位を選択したのかを容易に特定することができる。第1実施形態によれば、ユーザが画面上で選択したオブジェクト又は特定部位を精度よく検出することが可能である。
(第2実施形態)
第2実施形態は、予め複数の学習済みモデルで画像からオブジェクト及び特定部位の検出を行い、複数の学習済みモデルのうち1つの学習済みモデルを選択中の学習済みモデルとして設定する。第2実施形態は、選択中の学習済みモデルに対応するオブジェクト又は特定部位の検出枠を画面に表示する。第2実施形態は、選択中の学習済みモデルを切り替えるボタン等を介したユーザ入力により、他の学習済みモデルに切り替える。そのため、第2実施形態は、第1実施形態のようにユーザが画面上で何度も座標指定を行うことなしに、一回の座標指定で特定部位を選択することが可能である。以下、第2実施形態では、第1実施形態との差分について説明する。
情報処理装置100のハードウェアの構成は、第1実施形態と同様であるため説明を省略する。図4は、第2実施形態に係る情報処理装置の機能構成の一例を示す図である。
情報処理装置100は、モデル保持部401、検出部402、被写体決定部403、表示部404、入力部405及びモデル選択部406を含む。
モデル保持部401はモデル保持部201と同様の機能を有し、入力部405は入力部205と同様の機能を有するため説明を省略する。
検出部402は、検出部202と同様に、画像からオブジェクト又は特定部位の検出を行うことで、オブジェクト又は特定部位の検出結果を取得する。検出部402は、一回の検出処理で用いる学習済みモデルの数が多い点で、検出部202とは異なる。すなわち、検出部402は、一回の検出処理においてモデル保持部401が有する全ての学習済みモデルを用いて画像からオブジェクト及び特定部位を検出する。モデル保持部401は、検出部402による画像からのオブジェクト及び特定部位の検出結果を保持する。一方、検出部202は、一回の検出処理で用いる学習済みモデルとして、図3のS302で選択された1つの学習済みモデルのみを用いている。
検出部402は、モデル選択部406から、モデル保持部401が保持する複数の学習済みモデルの中から選択すべき学習済みモデルの指定を受け取ると、選択中の学習済みモデルを指定された学習済みモデルに変更する。検出部402は、新たに選択した学習済みモデルを用いて検出したオブジェクト又は特定部位の検出結果を被写体決定部403へ送信する。
被写体決定部403は、検出部402の学習済みモデルが検出したオブジェクト又は特定部位の検出枠と、入力部405から受信した座標情報とを用いて、画像上でユーザが指定する注目オブジェクト又は注目特定部位の検出枠を決定する。注目オブジェクト又は注目特定部位の検出枠は、画像上の任意の図形として、例えば、矩形又は楕円等で表され、表示部204はオブジェクト又は特定部位の検出枠を画像上に重畳して表示部105の画面に表示する。
表示部404は、検出部402が検出したオブジェクト又は特定部位の検出枠と、被写体決定部403が決定した注目オブジェクト又は注目特定部位の検出枠を表示部105の画面に表示する。
モデル選択部406は、情報処理装置100に対するユーザ操作の入力を受け付け、受け付けた入力を検出部402へ出力する。ユーザ操作の入力は、次に選択する学習済みモデルは現在選択中の学習済みモデルよりもオブジェクトに対する注目領域が広い学習済みモデルか、又は、注目領域が狭い学習済みモデルかのいずれかの選択である。モデル選択部406は、ユーザ操作の入力を受け取ると、検出部402にユーザ操作の入力を送信する。そして、検出部402は、受信したユーザ操作の入力に応じて、現在選択中の学習済みモデルを新たな学習済みモデルへと変更する。
図5は、第2実施形態に係る注目被写体の決定処理のフローチャートである。
S501で、検出部402は、記憶部104からオブジェクトが映る画像を取得する。
S502で、検出部402は、モデル保持部401が保持する全ての学習済みモデルを用いて画像からオブジェクト及び特定部位を検出する。
S503で、表示部404は、検出部402が検出したオブジェクト及び特定部位の検出結果のうち、1つの学習済みモデルで検出したオブジェクト又は特定部位の検出枠を表示部105の画面に表示する。モデル選択部406は、オブジェクトに対する初回の検出処理を行う場合、オブジェクトに対する注目領域が最も広い学習済みモデルを選択する。あるいは、初回のオブジェクトの検出処理時に表示する注目領域の広さは、ユーザが事前に設定した広さであってもよい。また、モデル選択部406は、S506の処理後の2回目以降のオブジェクトの検出処理の場合、S506で選択された学習済みモデルを選択する。
S504で、入力部405又はモデル選択部406は、ユーザからの入力情報を受け付ける。
S505で、検出部402は、入力部405又はモデル選択部406のいずれの入力情報であるかを判定する。検出部402は、モデル選択部406から得られた入力情報(学習済みモデルの選択情報)であると判定した場合、処理はS506に進む。一方、検出部402は、入力部405から得られた入力情報として画像上の座標情報であると判定した場合、処理はS507に進む。
S506で、モデル選択部406は、S504で取得したモデル選択情報を用いて、選択中の学習済みモデルを、モデル保持部401が保持する他の学習済みモデルへと変更する。表示部404は、選択された学習済みモデルに応じて、表示部105の画面に表示するオブジェクト又は特定部位の検出枠を変更して、処理はS503に戻る。S503~S505の処理は、上記と同様であるので説明を省略する。
S507で、検出部402は、S504で取得した画像上の座標情報及び選択中の学習済みモデルによるオブジェクト又は特定部位の検出枠を用いて、注目被写体を検出する。注目被写体は、第1実施形態と同様に、画像上の座標情報と、オブジェクト又は特定部位の検出枠の中心座標とのユークリッド距離が最も近いオブジェクト又は特定部位の検出枠に基づいて求められる。被写体決定部403は、検出部402が検出した注目被写体を最終注目被写体として決定し、最終注目被写体の座標情報を記憶部104に保存し、注目被写体の決定処理を終了する。その後、表示部204は、注目被写体の検出枠を画像上に重畳して、表示部105の画面に表示する。被写体決定部203は、注目被写体の追尾処理、AF処理及びカウント処理の少なくともいずれかを行うように撮像装置(不図示)に指示することで、それらの処理の制御を行う。
(第2実施形態の変形例1)
S503で表示部404は、表示部105の画面に表示するオブジェクト又は特定部位の検出枠を、モデル選択部406を介したユーザの入力情報を受け付けることなしに、所定時間の経過でオブジェクト又は特定部位の検出枠の表示を切り替えてもよい。例えば、表示部404は、オブジェクトの検出枠を表示部105の画面に表示し、その表示から所定時間の経過後に、全てのオブジェクトに対する特定部位の検出枠を画面に表示する。これにより、ユーザは、オブジェクトに対する検出粒度が互いに異なる学習済みモデルの切り替え操作を行うことなしに、画面上に表示されたオブジェクト又は特定部位に対応する検出枠を選択することができる。
以上の通り、第2実施形態によれば、選択中の学習済みモデルをユーザ操作に応じて切り替えることで、オブジェクトに対する検出粒度が互いに異なる学習済みモデルによる検出枠を画面に表示できる。これにより、ユーザが要求する情報以外の情報を画面から排除することができ、必要な情報のみをユーザに提供することができる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
10:情報処理装置、101:CPU、102:ROM、103:RAM、104:記憶部、105:入力部、106:表示部、107:通信部

Claims (17)

  1. 画像から検出するオブジェクトに対する検出粒度が互いに異なる複数の学習済みモデルにおける注目学習済みモデルによる検出結果を画面に表示する表示手段と、
    前記表示手段が前記複数の学習済みモデルごとに切り替えて前記画面に表示する前記検出結果に対するユーザ操作に基づいて、所定の処理を行うオブジェクトを決定する決定手段と、を備える、
    ことを特徴とする情報処理装置。
  2. 前記表示手段は、ユーザ操作で選択された前記注目学習済みモデルによる検出結果を前記画面に表示する、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記表示手段は、前記注目学習済みモデルによる検出結果を前記画像に重畳して表示してから所定時間の経過後に、前記注目学習済みモデルを、前記複数の学習済みモデルにおける他の注目学習済みモデルに切り替えて、前記他の注目学習済みモデルによる検出結果を前記画面に表示する、
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記表示手段は、前記決定手段が決定した前記オブジェクトと、前記検出結果とを区別可能な形式で前記画面に表示する、
    ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。
  5. 前記表示手段は、前記画面上の前記検出結果の表示の変更を行うユーザ操作を受け付けた場合、前記表示の変更に応じて、前記注目学習済みモデルを、前記複数の学習済みモデルにおける他の注目学習済みモデルに切り替えて、前記他の注目学習済みモデルによる検出結果を前記画面に表示する、
    ことを特徴とする請求項1から4のいずれか一項に記載の情報処理装置。
  6. 前記検出結果は、前記画像上の前記オブジェクトの座標情報と尤度とを含み、
    前記表示手段は、前記尤度が閾値を超える場合に、前記検出結果を前記画面に表示する、
    ことを特徴とする請求項1から5のいずれか一項に記載の情報処理装置。
  7. 前記表示手段は、前記画像上のオブジェクトに対する検出処理が初回ではないと判定した場合、前記ユーザ操作で選択された前記検出結果の周辺領域を拡大した状態で前記画像に重畳して前記画面に表示する、
    ことを特徴とする請求項1から6のいずれか一項に記載の情報処理装置。
  8. 前記決定手段は、前記オブジェクトを決定する処理を終了するユーザ操作を受け付けたか、又は、前記ユーザ操作で選択された前記検出結果が予め規定したオブジェクトのサイズよりも小さいと判定した場合、前記選択された検出結果を注目オブジェクトとして決定する、
    ことを特徴とする請求項1から7のいずれか一項に記載の情報処理装置。
  9. 前記複数の学習済みモデルは、前記オブジェクトに対する検出粒度が粗い第1学習済みモデルと、前記オブジェクトに対する検出粒度が細かい第2学習済みモデルとを含む、
    ことを特徴とする請求項1から8のいずれか一項に記載の情報処理装置。
  10. 前記所定の処理は、前記決定手段が決定した前記オブジェクトに対する追尾処理、AF処理及びカウント処理の少なくともいずれかを含み、
    前記所定の処理を撮像装置に実行させる制御を行う制御手段を備える、
    ことを特徴とする請求項1から9のいずれか一項に記載の情報処理装置。
  11. 前記検出結果は、前記オブジェクトの全体及び前記オブジェクトの特定部位の少なくともいずれかの検出結果を含む、
    ことを特徴とする請求項1から10のいずれか一項に記載の情報処理装置。
  12. 前記ユーザ操作は、前記画面上に接触したユーザの指の位置情報、前記ユーザの視線情報及び前記ユーザのジェスチャーの少なくともいずれかに基づく操作を含む、
    ことを特徴とする請求項1から11のいずれか一項に記載の情報処理装置。
  13. 前記画面はタッチパネル、非接触タッチパネル及び空中操作ディスプレイの少なくともいずれかを含む、
    ことを特徴とする請求項1から12のいずれか一項に記載の情報処理装置。
  14. 画像からオブジェクトを検出する学習済みモデルによる検出結果と、前記検出結果を統合した統合検出結果とのいずれかを画面に表示する表示手段と、
    前記表示手段がユーザ操作ごとに切り替えて前記画面に表示する前記検出結果又は前記統合検出結果に対するユーザ操作に基づいて、所定の処理を行うオブジェクト又は前記統合検出結果に対応する他のオブジェクトを決定する決定手段と、を備える、
    ことを特徴とする情報処理装置。
  15. 前記オブジェクトを撮像する撮像装置と、
    請求項1から14のいずれか一項に記載の情報処理装置と、
    を備える撮像システム。
  16. 画像から検出するオブジェクトに対する検出粒度が互いに異なる複数の学習済みモデルにおける注目学習済みモデルによる検出結果を画面に表示する表示工程と、
    前記表示工程で前記複数の学習済みモデルごとに切り替えて前記画面に表示する前記検出結果に対するユーザ操作に基づいて、所定の処理を行うオブジェクトを決定する決定工程と、を備える、
    ことを特徴とする方法。
  17. コンピュータを、請求項1から14のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
JP2021174824A 2021-10-26 2021-10-26 情報処理装置、撮像システム、方法及びプログラム Pending JP2023064499A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021174824A JP2023064499A (ja) 2021-10-26 2021-10-26 情報処理装置、撮像システム、方法及びプログラム
US17/969,737 US20230125410A1 (en) 2021-10-26 2022-10-20 Information processing apparatus, image capturing system, method, and non-transitory computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021174824A JP2023064499A (ja) 2021-10-26 2021-10-26 情報処理装置、撮像システム、方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2023064499A true JP2023064499A (ja) 2023-05-11

Family

ID=86057455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021174824A Pending JP2023064499A (ja) 2021-10-26 2021-10-26 情報処理装置、撮像システム、方法及びプログラム

Country Status (2)

Country Link
US (1) US20230125410A1 (ja)
JP (1) JP2023064499A (ja)

Also Published As

Publication number Publication date
US20230125410A1 (en) 2023-04-27

Similar Documents

Publication Publication Date Title
KR101533686B1 (ko) 시선 추적 장치 및 방법, 이를 수행하기 위한 기록매체
EP3163509A1 (en) Method for region extraction, method for model training, and devices thereof
JP6587435B2 (ja) 画像処理装置、情報処理方法及びプログラム
KR101364571B1 (ko) 영상 기반의 손 검출 장치 및 그 방법
CN107124543B (zh) 一种拍摄方法及移动终端
EP3133527A1 (en) Human face recognition method, apparatus and terminal
CN105849673A (zh) 基于自然三维手势的人机导览方法
JP5662670B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US9836130B2 (en) Operation input device, operation input method, and program
CN107368810A (zh) 人脸检测方法及装置
KR20170056860A (ko) 이미지 생성 방법 및 장치
KR101631011B1 (ko) 제스처 인식 장치 및 제스처 인식 장치의 제어 방법
JP5438601B2 (ja) 人物動作判定装置およびそのプログラム
CN109274891B (zh) 一种图像处理方法、装置及其存储介质
EP3933552A1 (en) Method and device for determining gaze position of user, storage medium, and electronic apparatus
CN112115894B (zh) 手部关键点检测模型的训练方法、装置及电子设备
JP2011188024A (ja) 情報処理装置、情報処理方法およびプログラム
CN107592458B (zh) 一种拍摄方法及移动终端
US20170344858A1 (en) Control device, control method, and computer program product
CN107797748B (zh) 虚拟键盘输入方法和装置及机器人
JP6393409B2 (ja) 画像認識システム、カメラ状態推定装置及びプログラム
CN110232417B (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质
JP2023064499A (ja) 情報処理装置、撮像システム、方法及びプログラム
JP6465197B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2012003724A (ja) 三次元指先位置検出方法、三次元指先位置検出装置、及びプログラム