JP2023064499A

JP2023064499A - 情報処理装置、撮像システム、方法及びプログラム

Info

Publication number: JP2023064499A
Application number: JP2021174824A
Authority: JP
Inventors: 悠今野; Yu Konno
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2023-05-11
Also published as: US20230125410A1

Abstract

【課題】ユーザが画像中のオブジェクト又はオブジェクトの特定部位を選択する際に、意図通りのオブジェクト又はオブジェクトの特定部位の選択を可能にする情報処理装置、撮像システム、方法及びプログラムを提供する。【解決手段】情報処理装置１００は、画像から検出するオブジェクトに対する検出粒度が互いに異なる複数の学習済みモデルを用いて、検出部２０２で画像から検出した検出結果であるオブジェクト又は特定部位を、複数の学習済みモデル毎に切り替えて画面に表示する表示部２０４と、入力部２０５で取得した、画面に表示された検出結果に対するユーザ操作に基づいて、所定の処理を行うオブジェクトを決定する被写体決定部２０３、を備える。表示部２０４は、ユーザ操作で選択された注目学習済みモデルによる検出結果を画面に表示する。【選択図】図２

Description

本発明は、情報処理装置、撮像システム、方法及びプログラムに関する。

近年、深層学習の発達に伴い、画像から物体検出を行う際の検出精度が大幅に向上している。従来、顔及び人体等の特定のカテゴリーに属する物体をニューラルネットワーク（以下、ＮＮ）等に学習させることで、画像からの物体検出を実現していた。深層学習では、従来の手法と比べてより抽象的な概念をＮＮに学習させることができる。深層学習は、様々なカテゴリーに属する物体の情報を用いて物体らしさをＮＮに学習させることで、様々なカテゴリーの物体を同時に検出するマルチオブジェクト検出を可能とする。

非特許文献１～３は、深層学習を用いて画像からのマルチオブジェクト検出を行う手法について記載している。また、ユーザが被写体を撮影する際に、追尾処理及びオートフォーカス処理（以下、ＡＦ処理）の対象となる被写体を、デジタルカメラの画面から任意に選択するニーズがあり、画面から被写体を選択する機能は、既存の製品に広く実装されている。

特許文献１では、ＡＦ処理の対象となる被写体がタッチパネルのタッチ位置に応じて指定され、指定した被写体に連動して最適なＡＦ処理の切り替えが行われることが記載されている。

特開２０１８－２０７３０９号公報

ＲｉｃｈＦｅａｔｕｒｅＨｉｅｒａｒｃｈｉｅｓｆｏｒＡｃｃｕｒａｔｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎａｎｄＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ．，ＲｏｓｓＧｉｒｓｈｉｃｋｅｔａｌ．，２０１４ＳＳＤ：ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉＢｏｘＤｅｔｅｃｔｏｒ，ＷｅｉＬｉｕｅｔａｌ．，２０１５ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ：Ｕｎｉｆｉｅｄ，Ｒｅａｌ－ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ，ＪｏｓｅｐｈＲｅｄｍｏｎｅｔａｌ．，２０１５

特定のカテゴリーに依存しないマルチオブジェクト検出が可能である場合、検出対象は、人及び自動車等のオブジェクト、及び、人の一部（顔及び手）及び自動車の一部（ライト及びタイヤ）のオブジェクトを構成する特定部位となる。ここで、デジタルカメラ等の画面に検出対象の全情報を検出枠等で表示すると、膨大な数の情報が画面に表示されるため、ユーザはオブジェクト及び特定部位を視認しづらくなることがある。例えば、ＡＦ処理の対象となるオブジェクト又は特定部位は、ユーザの撮影意図及び嗜好に応じて異なるため、画面から検出するオブジェクト又は特定部位の定義及び膨大な情報の自動的な取捨選択は困難である。

一方、オブジェクトの検出枠及び特定部位の検出枠を画面に同時に表示した場合、ユーザがオブジェクトを選択したつもりであっても、オブジェクトの特定部位が選択されてしまうことがある。このように、画面に膨大な数の情報が表示される場合、ユーザが画面から意図通りのオブジェクト又は特定部位を選択することができなくなるため、ユーザの操作性が悪化する。特許文献１は、ユーザがタッチパネル上で選択した対象に対してＡＦ処理を行う事例を記載している。

しかしながら、ユーザがタッチパネル上でタッチした位置に存在するオブジェクト又は特定部位のいずれを選択したのかを特定することは困難であるという課題がある。

本発明は、ユーザが画像中のオブジェクト又はオブジェクトの特定部位を選択する際に、意図通りのオブジェクト又はオブジェクトの特定部位の選択を可能にするための技術を提供する。

本発明の目的を達成するために、本発明の一実施形態に係る情報処理装置は、以下の構成を備える。すなわち、情報処理装置は、画像から検出するオブジェクトに対する検出粒度が互いに異なる複数の学習済みモデルにおける注目学習済みモデルによる検出結果を画面に表示する表示手段と、前記表示手段が前記複数の学習済みモデルごとに切り替えて前記画面に表示する前記検出結果に対するユーザ操作に基づいて、所定の処理を行うオブジェクトを決定する決定手段と、を備えることを特徴とする。

本発明によれば、ユーザが画像中のオブジェクト又はオブジェクトの特定部位を選択する際に、意図通りのオブジェクト又はオブジェクトの特定部位を選択することができる。

情報処理装置のハードウェア構成の一例を示す図。第１実施形態に係る情報処理装置の機能構成の一例を示す図。第１実施形態に係る注目被写体の決定処理のフローチャート。第２実施形態に係る情報処理装置の機能構成の一例を示す図。第２実施形態に係る注目被写体の決定処理のフローチャート。複数の特定部位の検出枠を統合する一例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

（第１実施形態）
第１実施形態は、画像から検出するオブジェクトに対する検出粒度が互いに異なる複数の学習済みモデルにおける注目学習済みモデルによる検出結果を画面に表示する。第１実施形態は、注目学習済みモデルごとに切り替えて表示する検出結果に対するユーザ操作に基づいて、所定の処理を行うオブジェクトを決定する。ここで、撮像装置（例えば、デジタルカメラ）で撮影される人物、動物及び乗り物等の不特定で多様な物体の全体を「オブジェクト」と呼ぶ。一方、人物の一部（手及び足）、及び、バイクの一部（フロントライト及びタイヤ）等のオブジェクトの一部を「特定部位」と呼ぶ。第１実施形態は、オブジェクト又は特定部位の検出枠を撮像装置（例えば、デジタルカメラ）の画面及びファインダー上に表示し、ユーザは画面からオブジェクト又は特定部位を選択する。

第１実施形態は、ユーザが画面から選択したオブジェクト又は特定部位に対して、所定の処理として、例えば、追尾処理、ＡＦ処理及びカウント処理を撮像装置に行わせる。第１実施形態は、ユーザが意図通りのオブジェクト又は特定部位を選択することが可能なＵＩ（ユーザ・インターフェース）を提供する。第１実施形態では、オブジェクト検出用と特定部位検出用の２つの学習済みモデルを保持するが、オブジェクトに対する検出粒度を段階的に変更した３つ以上の学習済みモデルを保持してもよい。検出粒度はオブジェクトに対する注目領域の広さとして定義する。また、ユーザが選択したオブジェクト又は特定部位に対して追尾処理及びＡＦ処理を行うことに限定されず、オブジェクト又は特定部位の個数をカウントするカウント処理を行ってもよい。

図１は、情報処理装置のハードウェア構成の一例を示す図である。情報処理装置１００は、ＣＰＵ１０１、メモリ１０２、入力部１０３、記憶部１０４、表示部１０５及び通信部１０６を含む。情報処理装置１００は、画像処理が可能な汎用的な装置であり、例えば、カメラ、スマートフォン、タブレット及びＰＣ等を含む。情報処理装置１００は、オブジェクトを撮像する撮像装置（不図示）と組み合わせられて用いられてもよく、撮像システム（不図示）は、撮像装置と情報処理装置１００を含む。

ＣＰＵ１０１は、情報処理装置１００の各部を制御する装置であり、メモリ１０２に格納されたプログラム及びデータを実行することにより、各種処理を行う。

メモリ１０２は、各種データ及び起動プログラム等を記憶する記憶装置であり、例えば、ＲＯＭを含む。メモリ１０２は、ＣＰＵ１０１が各種の処理を実行する際に用いるワークエリアを提供し、例えば、ＲＡＭを含む。

入力部１０３は、ユーザからの各種指示の入力を受け付ける装置であり、例えば、マウス、キーボード、ジョイスティック及び各種操作ボタンを含む。

記憶部１０４は、各種データ及びＮＮの学習用データを保存する記憶媒体であり、例えば、ＨＤＤ、ＳＳＤ、フラッシュメモリ及び光学メディア等を含む。

表示部１０５は、ＣＰＵ１０１が処理した各種情報を表示する装置であり、例えば、液晶画面、有機ＥＬ画面、接触又は非接触タッチパネル、及び空中操作ディスプレイ等のＵＩ（ユーザ・インタフェース）を含む。表示部１０５は、撮像装置（不図示）が撮像した画像及びサーバ（不図示）から受信したデータ等を画面に表示する。表示部１０５がタッチパネルである場合、ユーザはタッチパネルをタッチすることで各種の指示をＣＰＵ１０１に入力する。

通信部１０６は、情報処理装置１００内の各部のデータのやりとりを行うための装置であり、例えば、ケーブル、バス、有線ＬＡＮ及び無線ＬＡＮ等を含む。

図２は、第１実施形態に係る情報処理装置の機能構成の一例を示す図である。情報処理装置１００は、モデル保持部２０１、検出部２０２、被写体決定部２０３、表示部２０４及び入力部２０５を含む。

モデル保持部２０１は、少なくとも２つ以上の機械学習モデルに関する学習済モデルを保持する。モデル保持部２０１は、例えば、オブジェクト又はオブジェクトの一部を検出する際に参照する注目領域の広さがそれぞれ異なる（オブジェクトの検出粒度がそれぞれ異なる）２つの機械学習モデルを保持する。ここで、機械学習モデルとは、ディープラーニング（ＤＬ）等の機械学習アルゴリズムによる学習モデルのことをいう。また、学習済モデルとは、任意の機械学習アルゴリズムによる機械学習モデルに対して、事前に適切な教師データを用いてトレーニング又は学習を行ったモデルのことである。ただし、学習済モデルは、既に学習した以上の学習を行わないものではなく、追加の学習を行うこともできる。

教師データとは、機械学習モデルを学習させるための学習データのことである。教師データは、様々なカテゴリーに属するオブジェクト又は特定部位が映った入力データ（例えば、画像）、及び、画像内のオブジェクト又は特定部位の領域を枠で表示したＧＴデータのペアで構成される。入力データは、撮像装置が予め撮像した画像である。ＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）は、画像内のオブジェクト又は特定部位に対して事前に正解情報を付与した正解データのことである。様々なカテゴリーとは、人物、昆虫及び動物等の生物、及び、自動車及びバイク等の人工物等の分類であり、検出対象となるオブジェクト全般を含む。

２つの学習済みモデルは、オブジェクトを検出する際の注目領域の広さがそれぞれ異なる複数の教師データを用いて機械学習モデルを学習させる方法及び学習時の各種ハイパーパラメータを調整する方法等で実現される。モデル保持部２０１は、オブジェクトを検出する際の注目領域の広さがそれぞれ異なる複数の教師データの一例として、１つの入力データ（画像）に対しＧＴデータＡ及びＧＴデータＢを用意する。ＧＴデータＡは、入力データ（画像）内の各オブジェクト（例えば、人物及び車）の領域に枠を付与したＧＴであり、オブジェクトに対する注目領域が広いモデルの学習に利用される。ＧＴデータＢは、入力データ（画像）内の各オブジェクトの特定部位（例えば、人物の顔及び車のタイヤ）の領域に枠を付与したＧＴであり、オブジェクトに対する注目領域が狭いモデルの学習に利用される。

入力データ（画像）及び、ＧＴデータＡ又はＧＴデータＢを用いて機械学習モデルの学習をそれぞれ行うと、ＧＴデータＡで学習した学習済みモデルＡはオブジェクトを検出し、ＧＴデータＢで学習した学習済みモデルＢは特定部位を検出する。このように、オブジェクトを検出する際の注目領域の広さがそれぞれ異なる複数の教師データを用意し、それらの教師データを機械学習モデルに学習させることで、オブジェクト又は特定部位を検出する学習済みモデルが得られる。

検出部２０２は、既知のパターン認識技術又は機械学習を用いた認識技術等を用いて、画像からオブジェクト又は特定部位を検出し、それぞれの検出結果を得る。ここで、オブジェクト又は特定部位の検出とは、モデル保持部２０１が有する２つの学習済モデルを用いて、画像から様々なカテゴリーに属するオブジェクト又は特定部位の位置を特定することをいう。

オブジェクト又は特定部位の検出結果は、画像上の座標情報、及び、オブジェクト又は特定部位の存在確率を表す尤度で表される。画像上の座標情報は、画像上の矩形領域の中心位置及び矩形領域のサイズで表される。なお、画像上の座標情報は、オブジェクト又は特定部位の回転角に関する情報を有していてもよい。

被写体決定部２０３は、検出部２０２の学習済みモデルが検出したオブジェクト又は特定部位の検出枠と、後述の入力部２０５から受信した座標情報とを用いて、画面上でユーザが指定したオブジェクト又は特定部位を決定する。オブジェクト又は特定部位の検出枠は、画像上で任意の図形として、例えば、矩形又は楕円等で表される。表示部２０４は、オブジェクト又は特定部位の検出枠を画像上に重畳して、表示部１０５の画面に表示する。被写体決定部２０３は、ユーザが画面から選択したオブジェクト又は特定部位の座標情報を記憶部１０４に保存する。また、被写体決定部２０３は、決定されたオブジェクト又は特定部位の追尾処理、ＡＦ処理及びカウント処理の少なくともいずれかを行うように撮像装置（不図示）に指示することで、それらの処理の制御を行う。

表示部２０４は、検出部２０２が検出したオブジェクト又は特定部位の検出枠と、被写体決定部２０３が決定した注目オブジェクト又は注目特定部位を表示部１０５の画面に同時に表示する。ここで、表示部２０４は、オブジェクト又は特定部位の検出枠、及び、注目オブジェクト又は注目特定部位の枠の太さ及び色を変更して、それらを区別可能な形式で画面に表示する。

入力部２０５は、表示部１０５のタッチパネル上でユーザの指が接触した位置を検出し、この位置に対応する座標情報を被写体決定部２０３へ出力する。

図３は、第１実施形態に係る注目被写体の決定処理のフローチャートである。

Ｓ３０１で、検出部２０２は、記憶部１０４からオブジェクトが映る画像を取得する。

Ｓ３０２で、検出部２０２は、モデル保持部２０１が有する２つの機械学習モデルに関する学習済みモデルから、注目被写体の検出処理に用いる学習済みモデルを選択する。検出部２０２は、初回の注目被写体の検出処理を行う場合、オブジェクトに対する注目領域が最も広い（検出オブジェクトの粒度が最も粗い）学習済みモデルを選択する。

また、検出部２０２は、Ｓ３１０の処理でＮｏと判定されて、２回目以降の注目被写体の検出処理を行う場合、前回選択した学習済みモデルよりもオブジェクトに対する注目領域が狭い（検出オブジェクトの粒度がより細かい）学習済みモデルを選択する。

Ｓ３０３で、検出部２０２は、Ｓ３０２で選択した学習済みモデルを用いて、画像からオブジェクトとして、様々なカテゴリーに属するオブジェクト又は特定部位を検出する。オブジェクト又は特定部位の検出結果は、画像上の座標情報及び尤度で表される。

Ｓ３０４で、表示部２０４は、画像上のオブジェクトに対する検出処理が初回であるか否かを判定する。表示部２０４は、画像上のオブジェクトに対する検出処理が初回であると判定した場合（Ｓ３０４でＹｅｓ）、処理はＳ３０５に進む。表示部２０４は、画像上のオブジェクトに対する検出処理が初回ではないと判定した場合（Ｓ３０４でＮｏ）、処理はＳ３１２に進む。

Ｓ３０５で、表示部２０４は、画像上にＳ３０３で検出された様々なカテゴリーに属するオブジェクト又は特定部位の検出枠を重畳して表示部１０５の画面に表示する。ここで、表示部２０４は、全てのオブジェクト又は特定部位の検出枠を画像に重畳して画面に表示するのではなく、尤度が所定の閾値を超えるオブジェクト又は特定部位の検出枠のみを表示してもよい。表示部２０４は、オブジェクト又は特定部位の検出枠によるノイズが多いと判定した場合、画面に表示するオブジェクト又は特定部位の検出枠を限定することで、オブジェクト又は特定部位の検出枠によるノイズを低減できる。なお、表示部２０４は、オブジェクトに対する初回の検出処理では、オブジェクトに対する注目領域が最も広い学習済みモデルが利用されるため、様々なカテゴリーに属するオブジェクトの検出枠を画像上に重畳して画面に表示する。

Ｓ３１２で、表示部２０４は、検出したオブジェクトの周辺領域を拡大した状態の検出枠を重畳して表示部１０５の画面に表示する。

Ｓ３０６で、入力部２０５は、表示部１０５の画面を介して、ユーザからの入力情報を受け付ける。ユーザは、表示部１０５が表示した画像上の検出枠の中から追尾処理、ＡＦ処理及びカウント処理の少なくともいずれかを行うオブジェクト又は特定部位に対応する検出枠を選択する。入力部２０５は、タッチパネル上でユーザの指が接触した位置情報を、画像上の座標情報に変換する。

Ｓ３０７で、検出部２０２は、Ｓ３０６で取得した画像上の座標情報とＳ３０３で検出したオブジェクト又は特定部位の検出枠を用いて、注目被写体（注目オブジェクト又は注目特定部位）を求める。注目被写体は、例えば、画像上の座標情報と、オブジェクト又は特定部位の検出枠の中心座標とのユークリッド距離が最も近いオブジェクト又は特定部位の検出枠に基づいて求められる。あるいは、注目被写体は、オブジェクト又は特定部位の検出枠の代替として表示されるツリービュー及びシンボル等から、ユーザが意図した被写体を１つ選択することで決定されてもよい。

Ｓ３０８で、検出部２０２は、Ｓ３０２で決定した選択中の学習済みモデルが、モデル保持部２０１の学習済みモデルのうち、オブジェクトに対する注目領域が最も狭い学習済みモデルであるか否かを判定する。検出部２０２は、選択中の学習済みモデルが、オブジェクトに対する注目領域が最も狭い学習済みモデルであると判定した場合（Ｓ３０８でＹｅｓ）、処理はＳ３１１に進む。検出部２０２は、選択中の学習済みモデルが、オブジェクトに対する注目領域が最も狭い学習済みモデルではないと判定した場合（Ｓ３０８でＮｏ）、処理はＳ３０９に進む。

Ｓ３０９で、被写体決定部２０３は、Ｓ３０７で求めた注目被写体を最終の注目被写体とするか否かを決定する。ここで、被写体決定部２０３は、注目被写体の決定処理を終了するか否かについて、ユーザからの入力操作を受け付ける。

Ｓ３１０で、被写体決定部２０３は、注目被写体の決定処理を終了するか否かを、第１判定条件と第２判定条件とに基づいて判定する。第１判定条件は、「Ｓ３０９でユーザにより注目被写体の決定処理の終了が選択された」である。第２判定条件は、「Ｓ３０７で選択された注目被写体の大きさが、事前に設定された注目被写体の規定サイズよりも小さい」である。被写体決定部２０３は、第１判定条件と第２判定条件のいずれかを満たしていると判定した場合（Ｓ３１０でＹｅｓ）、処理はＳ３１１に進む。被写体決定部２０３は、第１判定条件と第２判定条件のいずれも満たしていないと判定した場合（Ｓ３１０でＮｏ）、処理はＳ３０２に戻り、注目被写体決定処理を続行する。

Ｓ３１１で、被写体決定部２０３は、Ｓ３０７で求めた注目被写体を最終注目被写体として決定し、注目被写体の座標情報を記憶部１０４に保存し、注目被写体の決定処理を終了する。その後、表示部２０４は、注目被写体の検出枠を画像上に重畳して、表示部１０５の画面に表示する。被写体決定部２０３は、注目被写体の追尾処理、ＡＦ処理及びカウント処理の少なくともいずれかを行うように撮像装置（不図示）に指示することで、それらの処理の制御を行う。

（第１実施形態の変形例１）
Ｓ３０４で表示部２０４は、画像内のオブジェクトに対する検出処理が初回であるか否かを判定しなくてもよい。すなわち、入力部２０５は、Ｓ３０３の処理の直後にＳ３０６の処理を行う。これにより、表示部２０４は、検出オブジェクトの周辺領域を拡大した状態の検出枠を重畳して表示部１０５の画面に表示せずに、検出オブジェクトの検出枠を元々の画像に重畳して画面に表示する。

（第１実施形態の変形例２）
Ｓ３０７で検出部２０２は、Ｓ３０３で検出した複数の特定部位の検出枠の中から１つの注目被写体を決定するのではなく、複数の特定部位の検出枠を用いてオブジェクトの検出枠を算出してもよい。オブジェクトの検出枠は、例えば、複数の複数の特定部位の検出枠を統合した大きな検出枠（統合検出結果）として算出される。図６は、複数の特定部位の検出枠を統合する一例を示す図である。図６（ａ）は、学習済みモデルＢを用いて検出した複数の特定部位の検出枠を画像上に重畳した合成画像を示し、破線で示す複数の検出枠は特定部位の検出枠を示す。図６（ｂ）は、複数の特定部位の検出枠を統合して算出したオブジェクトの検出枠を画像上に重畳した合成画像を示し、実線で示す検出枠はオブジェクトの検出枠に相当する。図６（ｃ）は、実線の検出枠と破線の検出枠を含む全ての検出枠を画像上に重畳した合成画像を示す。図６（ｃ）における実線で示す検出枠は、全ての破線の検出枠及びオブジェクト（例えば、車）を内包し、最小限のサイズとなるように算出される。

なお、複数の特定部位の検出枠を統合してオブジェクトの検出枠を算出する一例を説明したが、上記と同様の方法により、複数のオブジェクト検出結果を統合した大きな検出枠（統合検出結果）を算出してもよい。そして、表示部２０４は、画像上に算出したオブジェクトの検出枠（図６（ｂ）で図示）又は特定部位の検出枠（図６（ａ）で図示）を重畳して表示部１０５の画面に表示する。入力部２０５は、表示部１０５の画面を介して、ユーザからの入力情報を受け付ける。ユーザは、表示部１０５が表示した画像上のオブジェクトの検出枠又は特定部位の検出枠から追尾処理、ＡＦ処理及びカウント処理の少なくともいずれかを行うオブジェクト又は特定部位に対応する検出枠を選択する。

（第１実施形態の変形例３）
注目被写体の決定処理では、同一の学習済みモデルを用いて画像から特定部位の検出を行ったとしても、追加処理（例えば、特定部位の検出枠を表示する際の尤度の閾値の設定）の有無に応じて、特定部位の検出枠が変化する。図６で説明したように、検出部２０２は、１つの学習済みモデルで検出した図６（ａ）に示す特定部位の検出枠に基づいて、図６（ｂ）に示すオブジェクトの検出枠を算出する。つまり、追加処理に応じて変化した複数の特定部位の検出枠に基づいて新たにオブジェクトの検出枠を算出する場合、特定部位検出用の学習済みモデルが同一であっても、算出されるオブジェクトの検出枠のサイズが変化する。そのため、モデル保持部２０１は、オブジェクトに対する検出粒度が互いに異なる複数の学習済みモデルを保持するのではなく、１つの学習済みモデルのみを保持してもよい。

（第１実施形態の変形例４）
入力部２０５は、タッチパネル上でユーザの指が接触した位置から座標を取得するのではなく、ユーザの視線情報及びジェスチャー等の非接触技術を用いて画像上の位置情報を取得してもよい。ユーザの視線情報とは、表示部１０５に向けられたユーザの視線を撮像装置等で検出することによって取得される少なくとも１点以上の座標のことをいう。非接触技術とは、ユーザが画面又はボタンに触れることなく入力操作を行う技術のことをいう。非接触技術は、赤外線及び静電容量の変化を利用したセンサー、撮像装置による画像認識、音声認識等のセンシング技術、及び携帯端末（例えば、スマートフォン及びタブレット）を利用した無線制御技術等を用いることで実現される。非接触技術に用いる画面は、例えば、非接触タッチパネル及び空中操作ディスプレイ等をさらに含む。

（第１実施形態の変形例５）
ユーザが表示部１０５の画面の表示変更の操作をした場合、表示部２０４はユーザの入力に応じて、選択中の学習済みモデルを変更し、表示部１０５の画面にオブジェクト又は特定部位の検出枠を表示してもよい。例えば、ユーザが、表示部１０５の画面上のオブジェクトを拡大表示する入力をした場合、検出部２０２は選択中のオブジェクト検出用の学習済みモデルＡから特定部位検出用の学習済みモデルＢに変更する。そして、表示部２０４は、学習済みモデルＢを用いて検出した特定部位の検出枠を画像上に重畳して表示する。一方、ユーザが、表示部１０５の画面上の特定部位を縮小表示する入力をした場合、検出部２０２は、選択中の特定部位検出用の学習済みモデルＢをオブジェクト検出用の学習済みモデルＡに変更する。そして、表示部２０４は、学習済みモデルＡを用いて検出したオブジェクトの検出枠を画像上に重畳して表示する。

以上の通り、第１実施形態によれば、オブジェクト及び特定部位の検出枠を同時に画面に表示するのではなく、複数の学習済みモデルにおける注目学習済みモデルに対応する、オブジェクト又は特定部位の検出枠を段階的に表示する。これにより、ユーザは画面からオブジェクト又は特定部位を視認しやすくなり、オブジェクト又は特定部位の選択を容易に行うことができる。さらに、ユーザが、意図的にオブジェクトを選択したのか、又は、特定部位を選択したのかを容易に特定することができる。第１実施形態によれば、ユーザが画面上で選択したオブジェクト又は特定部位を精度よく検出することが可能である。

（第２実施形態）
第２実施形態は、予め複数の学習済みモデルで画像からオブジェクト及び特定部位の検出を行い、複数の学習済みモデルのうち１つの学習済みモデルを選択中の学習済みモデルとして設定する。第２実施形態は、選択中の学習済みモデルに対応するオブジェクト又は特定部位の検出枠を画面に表示する。第２実施形態は、選択中の学習済みモデルを切り替えるボタン等を介したユーザ入力により、他の学習済みモデルに切り替える。そのため、第２実施形態は、第１実施形態のようにユーザが画面上で何度も座標指定を行うことなしに、一回の座標指定で特定部位を選択することが可能である。以下、第２実施形態では、第１実施形態との差分について説明する。

情報処理装置１００のハードウェアの構成は、第１実施形態と同様であるため説明を省略する。図４は、第２実施形態に係る情報処理装置の機能構成の一例を示す図である。

情報処理装置１００は、モデル保持部４０１、検出部４０２、被写体決定部４０３、表示部４０４、入力部４０５及びモデル選択部４０６を含む。

モデル保持部４０１はモデル保持部２０１と同様の機能を有し、入力部４０５は入力部２０５と同様の機能を有するため説明を省略する。

検出部４０２は、検出部２０２と同様に、画像からオブジェクト又は特定部位の検出を行うことで、オブジェクト又は特定部位の検出結果を取得する。検出部４０２は、一回の検出処理で用いる学習済みモデルの数が多い点で、検出部２０２とは異なる。すなわち、検出部４０２は、一回の検出処理においてモデル保持部４０１が有する全ての学習済みモデルを用いて画像からオブジェクト及び特定部位を検出する。モデル保持部４０１は、検出部４０２による画像からのオブジェクト及び特定部位の検出結果を保持する。一方、検出部２０２は、一回の検出処理で用いる学習済みモデルとして、図３のＳ３０２で選択された１つの学習済みモデルのみを用いている。

検出部４０２は、モデル選択部４０６から、モデル保持部４０１が保持する複数の学習済みモデルの中から選択すべき学習済みモデルの指定を受け取ると、選択中の学習済みモデルを指定された学習済みモデルに変更する。検出部４０２は、新たに選択した学習済みモデルを用いて検出したオブジェクト又は特定部位の検出結果を被写体決定部４０３へ送信する。

被写体決定部４０３は、検出部４０２の学習済みモデルが検出したオブジェクト又は特定部位の検出枠と、入力部４０５から受信した座標情報とを用いて、画像上でユーザが指定する注目オブジェクト又は注目特定部位の検出枠を決定する。注目オブジェクト又は注目特定部位の検出枠は、画像上の任意の図形として、例えば、矩形又は楕円等で表され、表示部２０４はオブジェクト又は特定部位の検出枠を画像上に重畳して表示部１０５の画面に表示する。

表示部４０４は、検出部４０２が検出したオブジェクト又は特定部位の検出枠と、被写体決定部４０３が決定した注目オブジェクト又は注目特定部位の検出枠を表示部１０５の画面に表示する。

モデル選択部４０６は、情報処理装置１００に対するユーザ操作の入力を受け付け、受け付けた入力を検出部４０２へ出力する。ユーザ操作の入力は、次に選択する学習済みモデルは現在選択中の学習済みモデルよりもオブジェクトに対する注目領域が広い学習済みモデルか、又は、注目領域が狭い学習済みモデルかのいずれかの選択である。モデル選択部４０６は、ユーザ操作の入力を受け取ると、検出部４０２にユーザ操作の入力を送信する。そして、検出部４０２は、受信したユーザ操作の入力に応じて、現在選択中の学習済みモデルを新たな学習済みモデルへと変更する。

図５は、第２実施形態に係る注目被写体の決定処理のフローチャートである。

Ｓ５０１で、検出部４０２は、記憶部１０４からオブジェクトが映る画像を取得する。

Ｓ５０２で、検出部４０２は、モデル保持部４０１が保持する全ての学習済みモデルを用いて画像からオブジェクト及び特定部位を検出する。

Ｓ５０３で、表示部４０４は、検出部４０２が検出したオブジェクト及び特定部位の検出結果のうち、１つの学習済みモデルで検出したオブジェクト又は特定部位の検出枠を表示部１０５の画面に表示する。モデル選択部４０６は、オブジェクトに対する初回の検出処理を行う場合、オブジェクトに対する注目領域が最も広い学習済みモデルを選択する。あるいは、初回のオブジェクトの検出処理時に表示する注目領域の広さは、ユーザが事前に設定した広さであってもよい。また、モデル選択部４０６は、Ｓ５０６の処理後の２回目以降のオブジェクトの検出処理の場合、Ｓ５０６で選択された学習済みモデルを選択する。

Ｓ５０４で、入力部４０５又はモデル選択部４０６は、ユーザからの入力情報を受け付ける。

Ｓ５０５で、検出部４０２は、入力部４０５又はモデル選択部４０６のいずれの入力情報であるかを判定する。検出部４０２は、モデル選択部４０６から得られた入力情報（学習済みモデルの選択情報）であると判定した場合、処理はＳ５０６に進む。一方、検出部４０２は、入力部４０５から得られた入力情報として画像上の座標情報であると判定した場合、処理はＳ５０７に進む。

Ｓ５０６で、モデル選択部４０６は、Ｓ５０４で取得したモデル選択情報を用いて、選択中の学習済みモデルを、モデル保持部４０１が保持する他の学習済みモデルへと変更する。表示部４０４は、選択された学習済みモデルに応じて、表示部１０５の画面に表示するオブジェクト又は特定部位の検出枠を変更して、処理はＳ５０３に戻る。Ｓ５０３～Ｓ５０５の処理は、上記と同様であるので説明を省略する。

Ｓ５０７で、検出部４０２は、Ｓ５０４で取得した画像上の座標情報及び選択中の学習済みモデルによるオブジェクト又は特定部位の検出枠を用いて、注目被写体を検出する。注目被写体は、第１実施形態と同様に、画像上の座標情報と、オブジェクト又は特定部位の検出枠の中心座標とのユークリッド距離が最も近いオブジェクト又は特定部位の検出枠に基づいて求められる。被写体決定部４０３は、検出部４０２が検出した注目被写体を最終注目被写体として決定し、最終注目被写体の座標情報を記憶部１０４に保存し、注目被写体の決定処理を終了する。その後、表示部２０４は、注目被写体の検出枠を画像上に重畳して、表示部１０５の画面に表示する。被写体決定部２０３は、注目被写体の追尾処理、ＡＦ処理及びカウント処理の少なくともいずれかを行うように撮像装置（不図示）に指示することで、それらの処理の制御を行う。

（第２実施形態の変形例１）
Ｓ５０３で表示部４０４は、表示部１０５の画面に表示するオブジェクト又は特定部位の検出枠を、モデル選択部４０６を介したユーザの入力情報を受け付けることなしに、所定時間の経過でオブジェクト又は特定部位の検出枠の表示を切り替えてもよい。例えば、表示部４０４は、オブジェクトの検出枠を表示部１０５の画面に表示し、その表示から所定時間の経過後に、全てのオブジェクトに対する特定部位の検出枠を画面に表示する。これにより、ユーザは、オブジェクトに対する検出粒度が互いに異なる学習済みモデルの切り替え操作を行うことなしに、画面上に表示されたオブジェクト又は特定部位に対応する検出枠を選択することができる。

以上の通り、第２実施形態によれば、選択中の学習済みモデルをユーザ操作に応じて切り替えることで、オブジェクトに対する検出粒度が互いに異なる学習済みモデルによる検出枠を画面に表示できる。これにより、ユーザが要求する情報以外の情報を画面から排除することができ、必要な情報のみをユーザに提供することができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１０：情報処理装置、１０１：ＣＰＵ、１０２：ＲＯＭ、１０３：ＲＡＭ、１０４：記憶部、１０５：入力部、１０６：表示部、１０７：通信部

Claims

画像から検出するオブジェクトに対する検出粒度が互いに異なる複数の学習済みモデルにおける注目学習済みモデルによる検出結果を画面に表示する表示手段と、
前記表示手段が前記複数の学習済みモデルごとに切り替えて前記画面に表示する前記検出結果に対するユーザ操作に基づいて、所定の処理を行うオブジェクトを決定する決定手段と、を備える、
ことを特徴とする情報処理装置。
前記表示手段は、ユーザ操作で選択された前記注目学習済みモデルによる検出結果を前記画面に表示する、
ことを特徴とする請求項１に記載の情報処理装置。
前記表示手段は、前記注目学習済みモデルによる検出結果を前記画像に重畳して表示してから所定時間の経過後に、前記注目学習済みモデルを、前記複数の学習済みモデルにおける他の注目学習済みモデルに切り替えて、前記他の注目学習済みモデルによる検出結果を前記画面に表示する、
ことを特徴とする請求項１又は２に記載の情報処理装置。
前記表示手段は、前記決定手段が決定した前記オブジェクトと、前記検出結果とを区別可能な形式で前記画面に表示する、
ことを特徴とする請求項１から３のいずれか一項に記載の情報処理装置。
前記表示手段は、前記画面上の前記検出結果の表示の変更を行うユーザ操作を受け付けた場合、前記表示の変更に応じて、前記注目学習済みモデルを、前記複数の学習済みモデルにおける他の注目学習済みモデルに切り替えて、前記他の注目学習済みモデルによる検出結果を前記画面に表示する、
ことを特徴とする請求項１から４のいずれか一項に記載の情報処理装置。
前記検出結果は、前記画像上の前記オブジェクトの座標情報と尤度とを含み、
前記表示手段は、前記尤度が閾値を超える場合に、前記検出結果を前記画面に表示する、
ことを特徴とする請求項１から５のいずれか一項に記載の情報処理装置。
前記表示手段は、前記画像上のオブジェクトに対する検出処理が初回ではないと判定した場合、前記ユーザ操作で選択された前記検出結果の周辺領域を拡大した状態で前記画像に重畳して前記画面に表示する、
ことを特徴とする請求項１から６のいずれか一項に記載の情報処理装置。
前記決定手段は、前記オブジェクトを決定する処理を終了するユーザ操作を受け付けたか、又は、前記ユーザ操作で選択された前記検出結果が予め規定したオブジェクトのサイズよりも小さいと判定した場合、前記選択された検出結果を注目オブジェクトとして決定する、
ことを特徴とする請求項１から７のいずれか一項に記載の情報処理装置。
前記複数の学習済みモデルは、前記オブジェクトに対する検出粒度が粗い第１学習済みモデルと、前記オブジェクトに対する検出粒度が細かい第２学習済みモデルとを含む、
ことを特徴とする請求項１から８のいずれか一項に記載の情報処理装置。
前記所定の処理は、前記決定手段が決定した前記オブジェクトに対する追尾処理、ＡＦ処理及びカウント処理の少なくともいずれかを含み、
前記所定の処理を撮像装置に実行させる制御を行う制御手段を備える、
ことを特徴とする請求項１から９のいずれか一項に記載の情報処理装置。
前記検出結果は、前記オブジェクトの全体及び前記オブジェクトの特定部位の少なくともいずれかの検出結果を含む、
ことを特徴とする請求項１から１０のいずれか一項に記載の情報処理装置。
前記ユーザ操作は、前記画面上に接触したユーザの指の位置情報、前記ユーザの視線情報及び前記ユーザのジェスチャーの少なくともいずれかに基づく操作を含む、
ことを特徴とする請求項１から１１のいずれか一項に記載の情報処理装置。
前記画面はタッチパネル、非接触タッチパネル及び空中操作ディスプレイの少なくともいずれかを含む、
ことを特徴とする請求項１から１２のいずれか一項に記載の情報処理装置。
画像からオブジェクトを検出する学習済みモデルによる検出結果と、前記検出結果を統合した統合検出結果とのいずれかを画面に表示する表示手段と、
前記表示手段がユーザ操作ごとに切り替えて前記画面に表示する前記検出結果又は前記統合検出結果に対するユーザ操作に基づいて、所定の処理を行うオブジェクト又は前記統合検出結果に対応する他のオブジェクトを決定する決定手段と、を備える、
ことを特徴とする情報処理装置。
前記オブジェクトを撮像する撮像装置と、
請求項１から１４のいずれか一項に記載の情報処理装置と、
を備える撮像システム。
画像から検出するオブジェクトに対する検出粒度が互いに異なる複数の学習済みモデルにおける注目学習済みモデルによる検出結果を画面に表示する表示工程と、
前記表示工程で前記複数の学習済みモデルごとに切り替えて前記画面に表示する前記検出結果に対するユーザ操作に基づいて、所定の処理を行うオブジェクトを決定する決定工程と、を備える、
ことを特徴とする方法。
コンピュータを、請求項１から１４のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。