JP7118622B2

JP7118622B2 - 物体検出装置、物体検出方法及びプログラム

Info

Publication number: JP7118622B2
Application number: JP2017221079A
Authority: JP
Inventors: 林颯介小
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2022-08-16
Anticipated expiration: 2037-11-16
Also published as: US20190147285A1; JP2019091352A; US11087159B2

Description

本発明は、物体検出装置、物体検出方法及びプログラムに関する。

画像内の物体の存在している領域等を検出する手法として、複数の候補領域をスコア付で出力し、複数の候補領域についてスコアの高いものから選んでいくとともに、既に選ばれている候補領域が指し示す物体とおなじ物体を指し示していると判定された候補領域を削除し、選ばれていない候補領域がなくなるまで繰り返す手法が知られている。

しかしながら、例えば、候補領域同士の重なりが高い候補を削除していくため、候補領域同士の重なりが大きい候補領域が検出されないという制約がある。具体的には、画像内において物体同士に重なりが存在する場合には、適切に重なり合っている物体同士を検出できないという問題がある。

Naveneeth Bodla, et.al、"Improving Object Detection With One Line of Code"、[online]、平成29年8月8日、arXiv.org、［平成29年11月8日］、インターネット(URI：https://arxiv.org/pdf/1704.04503.pdf)

そこで、本発明は、物体の重なりがある場合においてもそれらの存在領域を検出する物体検出装置を提案する。

一実施形態に係る物体検出装置は、画像データ中の物体の位置を示す点である物体点を設定する、物体点設定部と、前記画像データ中の物体が存在する領域の候補である候補領域を検出する、候補領域検出部と、前記物体点を１つ有する前記候補領域を物体領域として選択する、物体領域選択部と、選択された前記物体領域を物体が存在する領域として出力する、出力部と、を備える。

物体の重なりがある場合においてもそれらの存在領域を検出することができる。

一実施形態に係る物体検出装置の機能を示すブロック図。入力画像の例を示す図。一実施形態に係る候補領域の抽出例を示す図。一実施形態に係る個補領域の抽出の別例を示す図。一実施形態に係る処理を示すフローチャート。一実施形態に係る物体領域の選択の処理を示すフローチャート。入力画像中の物体の配置例を示す図。一実施形態に係る物体領域の選択の処理を示すフローチャート。一実施形態に係る物体検出の具体例を示す図。

（第１実施形態）
本実施形態においては、マーカー又はバーコード等を物体にあらかじめ付与しておき、撮影した画像について当該マーカー又はバーコード等を検出することにより物体を表す点である物体点を設定し、一方、物体が存在すると推定される候補領域を別途検出し、この物体点と候補領域とに基づいて、物体が存在している領域を検出しようとするものである。以下、図面を用いて本実施形態に係る物体検出装置について詳しく説明する。なお、以下の実施形態の説明において、物体と呼んでいるものには、人物又は他の生物等も含むものとする。

図１は、本実施形態に係る物体検出装置１の機能を示すブロック図である。物体検出装置１は、入力部１０と、物体点設定部１２と、候補領域検出部１４と、物体領域選択部１６と、出力部１８と、を備える。

入力部１０は、外部から画像データが入力されるインターフェースである。入力部１０には、例えば、カメラで撮影された画像、ユーザが入力した画像、又は、データベース等の画像に関するデータが入力される。この画像は、静止画であってもよいし、動画であってもよい。動画が入力された場合、入力部１０が適切にフレームごとに静止画へと変換してもよいし、指定されたフレームだけを静止画へと変換するようにしてもよい。また、この入力部１０は、ユーザインターフェースを有し、ユーザからの指示、又は、要求を受け付けるようにしてもよい。例えば、検出に用いるパラメータ等をユーザが変更できるようにしてもよい。

図２は、入力される画像２００の一例である。図中の円、矩形、三角形等の図形は、画像中に写っている物体であるものとする。すなわち、画像２００内には、物体２０２、２０４、２０６、２０８、２１０、２１２の６個の物体が写っている。各物体において、斜線の引かれている矩形は、それぞれの物体に付与されているマーカー２０２Ｍ、２０４Ｍ、２０６Ｍ、２０８Ｍ、２１０Ｍ、２１２Ｍである。

物体点設定部１２は、画像２００内における物体を示す点である物体点を設定する。図２の画像２００においては、例えば、物体２０２の物体点をマーカー２００Ｍとして検出し、設定する。同様に、物体２０２、２０４、・・・、２１２の物体点をそれぞれマーカー２０２Ｍ、２０４Ｍ、・・・、２１２Ｍを検出して設定する。

マーカーは、例えば、所定の色で塗られている領域、又は、所定の図形が描画されている領域であってもよい。別の例としては、バーコード、２次元バーコードを物体に付与しておいてもよい。このように、マーカーが付与された物体について、カメラ等のデバイスにより画像を撮影することにより、物体点を簡単に検出可能である。

さらに別の例としては、ＩＣチップ等の目視することが困難であるものを物体に付与しておき、このＩＣチップの情報を検出することにより、物体点を設定してもよい。ＩＣチップを用いる場合、画像を撮影するカメラに加えて、電波を送受信し、位置を推定するデバイスを用いて画像の撮影と同じタイミングにおいて、ＩＣチップの位置を検出する。そして、これらのデータを重ね合わせることにより、画像中の物体点として設定する。

候補領域検出部１４は、画像中において物体が存在する領域を推定し、推定された領域を候補領域として検出する。この物体が存在する領域の推定は、物体の存在領域を推定する適切なアルゴリズムであれば、どのようなアルゴリズムを用いてもよい。

例えば、画像２００内におけるエッジを検出し、エッジの追跡を行うことにより推定してもよいし、所定の大きさの部分画像内における色又は彩度情報等に基づいて推定するようにしてもよい。別の方法としては、あらかじめ所望する物体の画像を様々な角度において読み込ませておき、相互相関演算等のマッチドフィルタ処理を行うようにしてもよいし、教師付学習により生成されたモデルを用いて推定してもよい。

図３は、候補領域を検出した一例を示す図である。例えば、物体２０２に対しては、存在することが推定される領域として候補領域２０２Ｒが検出される。同様に、物体２０４、２０６、・・・、２１２に対して、候補領域２０４Ｒ、２０６Ｒ、・・・、２１２Ｒが検出される。このように、候補領域は、物体が存在すると推定される領域を囲むように検出される。

図４は、候補領域を検出した別の例を示す図である。図３のように全ての領域が矩形である必要は無く、物体と思われる形状で候補領域を検出するものであってもよい。また、矩形であっても、候補領域２０８Ｒ、２１２Ｒのように、必ずしも画像２００の水平軸及び垂直軸に平行となる矩形である必要は無く、画像２００に対して傾きを持った矩形で検出されるものであってもよい。さらに、図４に示すように正確に物体の外周をトレースするものではなくてもよい。候補領域は、このように、物体が存在すると推定される領域を適切に検出できるような領域であればよい。

図１に戻り、物体領域選択部１６は、物体点設定部１２が設定した物体点と、候補領域検出部１４が検出した候補領域とに基づいて、物体が存在する領域である物体領域の選択をする。

出力部１８は、物体領域選択部１６が選択した物体領域を出力する。出力するのは、例えば、画像として物体領域を出力するようにしてもよいし、物体領域に関する座標を出力するようにしてもよい。また、出力する先は、プログラム等に出力し、さらに何かしらの動作を行ってもよいし、ユーザが目視できるように、ディスプレイに表示してもよい。

図５は、本実施形態に係る物体検出装置１の処理の流れを示すフローチャートである。

まず、入力部１０は、物体の存在領域を抽出したい画像の入力を受け付ける（ステップＳ１００）。上述したように画像は、カメラ等の撮像デバイスから直接入力されるものであってもよいし、ユーザがファイルを指定して入力するものであってもよい。

次に、物体点設定部１２は、物体点の設定を行う（ステップＳ１０２）。物体点として、図２のようにマーカー２０２Ｍ等が物体に付与されている場合には、物体点設定部１２は、例えば、このマーカーの中心点を物体点として設定する。

他の例としては、物体点を抽出する第１モデルに当該画像を入力し、物体点を各物体に対して設定するようにしてもよい。この第１モデルは、あらかじめ学習（例えば、教師付学習）により最適化されたモデルであってもよい。この学習により得られたモデルは、例えば、ニューラルネットワークのようなモデルであってもよい。さらには、学習を行わなくてもよく、線形的なマッチングモデル又は相互相関を各領域に対して算出するモデルであってもよい。

次に、候補領域検出部１４は、物体が存在する候補の領域である候補領域を検出する（ステップＳ１０４）。候補領域の検出は、図３又は図４にあるように、任意の形状で行うことができる。この検出は、上述したように、エッジ検出、マッチング又は学習済みのモデルによる演算等により実行される。

この候補領域の検出についても、物体点の抽出と同様に実行されてもよい。すなわち、候補領域を検出する第２モデルに当該画像を入力し、物体が存在すると推定される領域を候補領域として検出するようにしてもよい。この第２モデルも、第１モデルと同様に、あらかじめ学習により最適化されたモデルであってもよいし、他の線形モデル等であってもよい。

なお、図５においては、物体点設定部１２の物体点を設定する処理と、候補領域検出部１４の候補領域を検出する処理は、まず、物体点を設定してから候補領域を検出するように描かれているが、これには限られない。すなわち、これらの処理の順番は逆であってもよいし、あるいは、並列処理として同じタイミングで実行されるものであってもよい。

次に、物体領域選択部１６は、候補領域の中から、物体の存在する物体領域を選択する（ステップＳ１０６）。このサブルーチンについての詳細は、後述する。

次に、出力部１８は、物体領域選択部１６が選択した各物体に対する物体領域を出力する（ステップＳ１０８）。この際、物体点設定部１２により設定された物体点を、対応する物体領域と紐付けて出力するようにしてもよい。

図６は、ステップＳ１０６に係る処理を示すフローチャートである。物体領域選択部１６は、以下の処理にしたがい、物体点及び候補領域から物体領域を選択する。この処理には、物体点に着目するか、候補領域に着目するかにより２通りのアプローチがある。まずは、物体点に着目する手法について説明する。

最初に、未選択の物体点のうち１物体点を抽出する（ステップＳ２００）。物体点の抽出は、任意の順番で構わない。未選択であるとは、まだステップＳ２０２以降の処理がされていない物体点であることを示す。

次に、抽出した物体点を含む候補領域を抽出する（ステップＳ２０２）。抽出される候補領域は１つでもよいし、複数であってもよい。この処理は、例えば、図３のように候補領域が矩形である場合には、各候補領域の対角線上にある点の座標を抽出し、当該対角線の水平方向及び垂直方向の座標間にある物体点を抽出することにより行われる。矩形では無い場合には、例えば、候補領域内のラベリングを行い、当該ラベリングされた領域内にある物体点を抽出するようにしてもよい。上記は、一例であり、適切に範囲内の点が抽出できるような処理であれば構わない。

次に、抽出した候補領域に複数の物体点が属しているか否かを判定する（ステップＳ２０４）。抽出された候補領域が、その領域内に、抽出された物体点を有し、他の物体点を有しない場合（ステップＳ２０４：ＮＯ）には、当該候補領域を物体領域として選択する（ステップＳ２０６）。

一方、抽出された候補領域内に、複数の物体点が存在する場合（ステップＳ２０４：ＹＥＳ）、当該候補領域に係る処理を保留し、先の処理を行う（ステップＳ２０８）。

なお、物体点に対して複数の候補領域が抽出された場合、ステップＳ２０６の処理を行った候補領域が存在した時点で、他の候補領域を当該物体点に対する物体領域の候補から削除するようにしてもよい。このように、１の物体点を含む候補領域が抽出されるまで複数の候補領域において、ステップＳ２０４からステップＳ２０８の処理が行われてもよい。

別の方法として、ステップＳ２０２において抽出された全ての候補領域に対して物体点の包含具合によりスコア付けをし、ステップＳ２０４からステップＳ２０８の処理を行った後、最も高いスコアの候補領域を当該物体点に対する物体領域として選択するようにしてもよい。この場合、抽出された候補領域のうち、保留となっている候補領域は、例えば、スコア付けにおいて最低スコアをつけておき、選択されないようにしてもよいし、保留となっている候補領域は、この段階では物体領域として選択されないようにしてもよい。

このように、ステップＳ２０４からステップＳ２０８の処理は、図に示されたフローチャートに限定されるものではなく、候補領域内に複数の物体点があるかを判定し、１つであれば物体領域として選択し、そうで無ければ保留するように処理が行えればよい。

全ての物体点に対して、ステップＳ２００からステップＳ２０８までの処理が行われたかを判断し（ステップＳ２１０）、まだ処理を行っていない物体点がある場合（ステップＳ２１０：ＮＯ）には、処理を行っていない物体点に対して、ステップＳ２００からステップＳ２０８までの処理を行う。

一方で、全ての物体点に対してステップＳ２００からステップＳ２０８までの処理が終了している場合（ステップＳ２１０：ＹＥＳ）、保留候補領域の処理を行う（ステップＳ２１２）。ステップＳ２０８において、処理が保留された候補領域がある場合、保留された候補領域が物体領域であるか否かを判定する。

保留された候補領域内にある複数の物体点のうち、物体領域が選択できていない物体点が存在しない場合には、保留を解除して、候補領域から削除する。

当該候補領域内にある複数の物体点のうち、物体領域が選択できていない物体点が１つ存在する場合には、保留を解除して、当該物体点に対応する物体領域であると選択する。

上記に当てはまらず、複数の物体点において物体領域が選択できていない場合、例えば、物体領域の中央、又は、重み付けをした重心点に近い物体点に対応する物体領域であると選択する。これは、一例であり、他の方法により、物体点に対応する物体領域を選択するようにしてもよい。別の例としては、このような場合には、物体点に対応する物体領域が検出できなかったと出力するようにしてもよい。

次に、物体領域選択部１６が選択した物体領域を、出力部１８が出力する（ステップＳ２１４）。出力される物体領域は、物体点と同じ数だけあってもよいし、物体点よりも少ない数であってもよい。上述したように、物体点と対応付けて物体領域を出力するようにしてもよい。

なお、上述した各ステップは、物体領域選択部１６において、特に専門的な回路又はプログラムにおけるサブルーチン等が行ってもよい。例えば、図示しない物体点選択部がステップＳ２００、候補領域抽出部がステップＳ２０２、物体領域判定部がステップＳ２０４、物体領域検出部がステップＳ２０６、候補領域保留部がＳ２０８、保留候補領域処理部がＳ２１２、候補領域削除部がステップＳ２１４のそれぞれの処理を行うようにしてもよい。

物体領域の選択処理について、図３を用いて具体的に説明する。図３内において、斜線で示される点が各物体における物体点であるとする。

物体２０２の候補領域２０２Ｒ内には、物体点２０２Ｐが１つ存在し、他の物体点が存在しないので、物体点２０２Ｐに対応する物体領域として候補領域２０２Ｒが選択される。

物体２０４と、物体２０６には重なる部分があるものの、物体点２０４Ｐを含む候補領域は、候補領域２０４Ｒであり、候補領域２０４Ｒには１つ物体点しか属しなく、同じく、物体２０６Ｐを含む候補領域は、候補領域２０６Ｒであり、候補領域２０６Ｐには１つの物体点しか属しない。このことから、物体２０４の物体領域として候補領域２０４Ｒが選択され、物体２０６の物体領域として候補領域２０６Ｒが選択される。

物体２０８と、物体２１０の場合、物体２１０の候補領域２１０Ｒ内に物体２０８の物体点２０８Ｐが存在する。すなわち、この場合、候補領域２１０Ｒ内には、物体点２０８Ｐ及び物体点２１０Ｐの２つの物体点が存在する。

（物体領域抽出の第１ケース）
まず、物体点２０８Ｐ、物体点２１０Ｐの順番に処理される場合について説明する。これら２つの物体点に関する処理の間に、他の物体点に関する処理が行われてもよい。物体点２０８Ｐを有する候補領域は、候補領域２０８Ｒ、２１０Ｒの２つが抽出される（ステップＳ２０２）。この２つの領域のうち、候補領域２０８Ｒには、物体点２０８Ｐの１点の物体点が存在し、候補領域２１０Ｒには、物体点２０８Ｐと物体点２１０Ｐの２点の物体点が存在する（ステップＳ２０４）。

候補領域２０８Ｒから物体点の個数判断をした場合、候補領域２０８Ｒには、物体点２０８Ｐしか存在しない（ステップＳ２０４：ＮＯ）ため、例えば、物体点２０８Ｐに対応する物体領域として候補領域２０８Ｒが選択され（ステップＳ２０６）、それ以外の候補領域、すなわち、候補領域２１０Ｒは、物体点２０８Ｐに対応する候補からは削除されるため、物体点２０８Ｐに対応する物体領域として、候補領域２０８Ｒのみが選択される。

候補領域２１０Ｒから先に処理をされた場合、候補領域２１０Ｒには、物体点２０８Ｐ、２１０Ｐの２つが存在する（ステップＳ２０４：ＹＥＳ）ので、物体点２０８Ｐに対する候補領域２１０Ｒの処理は保留される（ステップＳ２０８）。その後、上記と同様に候補領域２０８Ｒが物体点２０８Ｐに対応する物体領域として選択される（ステップＳ２０６）ので、候補領域２１０Ｒは、物体点２０８Ｐに対応する候補領域からは削除される（ステップＳ２１２）。

次に、物体点２１０Ｐについての処理が行われる（ステップＳ２００）。物体点２１０Ｐを含む候補領域は、候補領域２１０Ｒが存在する（ステップＳ２０２）。そして、候補領域２１０Ｒ内には、物体点２０８Ｐ、２１０Ｐの２点が存在する（ステップＳ２０４：ＹＥＳ）。そこで、いったん候補領域２１０Ｒに対する処理を保留する（ステップＳ２０８）。しかしながら、既に候補領域２１０Ｒは、物体点２０８Ｐに対応する候補領域からは削除されているので、結果として、候補領域２１０Ｒ内の物体点は、物体点２０８Ｐを省いた物体点２１０Ｐの１点が存在することとなる。

すなわち、この場合、物体点２１０Ｐに対応する物体領域として候補領域２１０Ｒが選択される（ステップＳ２１２）。なお、物体点２０８Ｐに対する候補領域から削除されていることから、処理の保留を経ずに、結果的に候補領域２１０Ｒが有する物体点が２１０ＰであるとステップＳ２０４において判定し、ステップＳ２０６へと処理を進めるようにしてもよい。

（物体領域抽出の第２ケース）
物体点２１０Ｐ、物体点２０８Ｐの順番に処理される場合について説明する。物体点２１０Ｐを有する候補領域は、候補領域２１０Ｒが抽出される（ステップＳ２０２）。候補領域２１０Ｒには、物体点２０８Ｐ、２１０Ｐの２つの物体点が存在する（ステップＳ２０４：ＹＥＳ）ので、物体点２１０Ｐに対応する物体領域の選択として、候補領域２１０Ｒの処理は、保留される（ステップＳ２０８）。

次に、物体点２０８Ｐについての処理が行われる（ステップＳ２００）。物体点２０８Ｐを含む候補領域は、候補領域２０８Ｒと候補領域２１０Ｒの２つが抽出される（ステップＳ２０２）。候補領域２０８Ｒ、２１０Ｒの順で処理されると、候補領域２０８Ｒには、物体点２０８Ｐの１点が存在する（ステップＳ２０４：ＮＯ）ので、物体点２０８Ｐに対応する物体領域として候補領域２０８Ｒが選択され（ステップＳ２０６）、候補領域２１０Ｒは、物体点２０８Ｐの候補からは削除され、上述と同様の処理が行われる。

候補領域２１０Ｒ、２０８Ｒの順で処理されると、候補領域２１０Ｒには、物体点２０８Ｐ、２１０Ｐの２点が存在する（ステップＳ２０４：ＹＥＳ）ので、物体点２１０Ｐの処理は保留される（ステップＳ２０８）。その後、候補領域２０８Ｒの処理がされ、候補領域２０８Ｒには物体点２０８Ｐの１点が存在する（ステップＳ２０４：ＮＯ）ので、物体点２０８Ｐに対応する物体領域として候補領域２０８Ｒが選択され（ステップＳ２０６）、その後の処理は、上述したものと同様になる。

このように、２点の物体点を含む候補領域が存在する場合には、一時的に処理を保留することにより、適切に物体点からみた物体領域が１つ選択されることとなる。

（物体領域抽出の第３ケース）
図７は、上記の例に当たらない別の例を示す図である。図７に示す図は、画像２００内の一部を切り取ったものであり、例えば、物体２２０と、物体２２２が撮影されたものである。物体点として物体点２２０Ｐ及び物体点２２２Ｐが設定され、候補領域として候補領域２２０Ｒ及び候補領域２２２Ｒが検出され、さらに、別の候補領域として候補領域２２４Ｒが検出されている。

図６のフローチャートにしたがい、図７の場合についての処理を説明する。

まず、未選択の物体点として、例えば、物体点２２０Ｐを抽出する（ステップＳ２００）。次に、物体点２２０Ｐを含む候補領域として、候補領域２２０Ｒ、２２２Ｒ、２２４Ｒの３つが抽出される（ステップＳ２０２）。この抽出された３つの領域それぞれに、ステップＳ２０４からステップＳ２０８の処理を行う。

候補領域２２０Ｒは、その内側に、物体点２２０Ｐ、２２２Ｐを有するため（ステップＳ２０４：ＹＥＳ）、処理が保留される（ステップＳ２０８）。他の２つの候補領域２２２Ｒ、２２４Ｒについても同様に、その内側に物体点２２０Ｐ、２２２Ｐを有するため、いずれも処理が保留される。

次に、保留候補領域の処理を行う（ステップＳ２１２）。図７の物体２２０、２２２の場合、３つの候補領域２２０Ｒ、２２２Ｒ、２２４Ｒの全てについて、物体点２２０Ｐ、２２２Ｐが含まれているので、ステップＳ２１０までの処理においては、物体領域が検出されない。

そこで、保留候補領域の処理として、物体点から一番近い位置に中心点がある候補領域を当該物体点に対応する物体領域として抽出する。各候補領域２２０Ｒ、２２２Ｒ、２２２４Ｒの中心点は、図中に中心点２２０Ｃ、２２２Ｃ、２２４Ｃとして示されている。

物体点２２０Ｐに一番近いのは、中心点２２０Ｃであるので、物体点２２０Ｐに対応する物体領域として、候補領域２２０Ｒが選択される。一方、物体点２２２Ｐに一番近いのは、中心点２２２Ｃであるので、物体点２２２Ｐに対応する物体領域として、候補領域２２２Ｒが選択される。

別の例としては、物体点２２０Ｐに対応する物体領域として、候補領域２２０Ｒが選択されたので、物体点２２０Ｐを含む他の候補領域２２２Ｒ、２２４Ｒを物体点２２０Ｐに対応する候補領域から削除してもよい。削除された後に、物体点２２２Ｐに対応する物体領域の選択を行うようにしてもよい。

さらに別の例としては、それぞれの物体点２２０Ｐ、２２２Ｐからそれぞれの候補領域の中心点２２０Ｃ、２２２Ｃ、２２４Ｃまでの距離を算出し、当該距離をスコアとして、スコアが一番低くなる中心点を有する候補領域を当該物体点の物体領域として算出してもよい。

また、候補領域のスコア付けをするために上記では中心点を用いたが、これには限られず、例えば、候補領域の面積、候補領域の存在位置、あるいは、候補領域の特徴抽出等、他の方法を用いてスコア付けをするようにしてもよい。すなわち、物体点との関係において、候補領域が適切に選択できるようなスコア付けであればよい。

以上のように、本実施形態によれば、物体に重なりがあり、物体の存在領域として物体点に対応する候補領域が複数存在する場合に、物体点がそれらの候補領域内にいくつ存在するかを検出することにより、簡単、かつ、精度よく物体の存在する領域を選択することが可能となる。例えば、図３のように重なり合っている場合には、物体２０８と物体２１０の存在する領域と、物体点とを適切に紐付けることができる。

図７に示す候補領域２２４Ｒのように、物体の存在する領域として複数の物体そのものを含んでしまう領域が検出されることがある。このような場合にも、上述したように、物体点に対応する物体領域を適切に選択することが可能である。このように、物体同士の重なりが大きい画像においても、物体点とその存在領域である物体領域とを精度よく紐付けることができる。

なお、上述においては、図６のフローチャートに示すように、物体点を抽出して、当該物体点を含む候補領域を抽出するようにしたが、これには限られない。すなわち、図８に示すように、処理の流れとしては、候補領域を抽出し、当該候補領域内に存在する物体点を抽出して処理を行うようにしてもよい。

（変形例）
前述の実施形態においては、画像から物体点の設定方法として、マーカー又はＩＣチップを利用する例を説明したが、物体点の設定方法は、これらには限られない。

例えば、物体を検出する処理において、マッチドフィルタを用いる場合、当該元となる物体の中心点の位置が可能である。そこで、この中心点を物体点として利用してもよい。あらかじめ学習により得られた第１モデルを用いる場合、物体の中心点等を教師データとして入力した学習及び強化学習を行うことにより、自動的に物体の中心点を物体点として設定するようにしてもよい。さらに、この場合、中心点ではなく、物体を把持しやすい位置等を物体点として検出するように教師付学習を行ってもよい。

人物の検出を行う場合には、顔の中心点、例えば、画像から推定された鼻の位置を物体点として設定してもよい。この場合も、第１モデルとして線形演算又は相関演算を行うモデルのみならず、教師データとして、人物の画像と、当該人物の特徴となる点（例えば、鼻の位置）を対応付けるように学習させ、物体点として設定できるようにモデルを生成してもよい。

図９（ａ）は、人物が写った画像を入力画像とする場合の例であり、図９（ｂ）は、当該入力画像から人物検出を行った結果を示す画像である。一例として、鼻の位置を推定して物体点として設定している。

このように、本実施形態によれば、重なり合った人物同士においても精度よくその顔の位置を検出することが可能となる。また、顔だけには限られず、全身が写っている人物は、全身を人物が存在する領域として出力し、顔だけが写っている人物は、その顔の存在する領域を出力するよう、混合して出力するようにしてもよい。

例えば、右にいる２人の人物は、写っている領域に重なりが大きく、後ろの人物が領域として検出されたとしても、手前の人物の領域と写っている領域に重なりが大きく、重なりの大きさで比較する手法では、手前の人物１人しかいないと判断されてしまう場合があるが、本実施形態によれば、領域の重なりの大きさに拘わらず、精度よく検出することが可能となる。左にいる２人の人物についても同様である。

特に監視カメラのように、鳥瞰的に撮影する場合、遠くに写る人物は、顔が重なり合うことが多い。このような場合にも、本実施形態に係る物体検出装置１によれば、適切に人物の顔を検出することが可能となる。

上記の全ての記載において、物体検出装置１の少なくとも一部はハードウェアで構成されていてもよいし、ソフトウェアで構成され、ソフトウェアの情報処理によりＣＰＵ等が実施をしてもよい。ソフトウェアで構成される場合には、物体検出装置１及びその少なくとも一部の機能を実現するプログラムをフレキシブルディスクやＣＤ－ＲＯＭ等の記憶媒体に収納し、コンピュータに読み込ませて実行させるものであってもよい。記憶媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記憶媒体であってもよい。すなわち、ソフトウェアによる情報処理がハードウェア資源を用いて具体的に実装されるものであってもよい。さらに、ソフトウェアによる処理は、ＦＰＧＡ等の回路に実装され、ハードウェアが実行するものであってもよい。学習モデルの生成や、学習モデルに入力をした後の処理は、例えば、ＧＰＵ等のアクセラレータを使用して行ってもよい。

また、本実施形態に係るデータ推定モデルは、人工知能ソフトウェアの一部であるプログラムモジュールとして利用することが可能である。すなわち、コンピュータのＣＰＵが格納部に格納されているモデルに基づいて、演算を行い、結果を出力するように動作する。

前述した実施形態において入出力される画像は、グレースケールの画像であってもよいしカラー画像であってもよい。カラー画像である場合、その表現は、ＲＧＢ、ＸＹＺ等、適切に色を表現できるのであれば、どのような色空間を用いてもよい。また、入力される画像データのフォーマットも、生データ、ＰＮＧフォーマット等、適切に画像を表現できるのであれば、どのようなフォーマットであっても構わない。

上記の全ての記載に基づいて、本発明の追加、効果又は種々の変形を当業者であれば想到できるかもしれないが、本発明の態様は、上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更及び部分的削除が可能である。

１：物体検出装置、１０：入力部、１２：物体点設定部、１４：候補領域検出部、１６：物体領域選択部、１８：出力部
２００：画像
２０２、２０４、２０６、２０８、２１０、２１２、２２０、２２２：物体
２０２Ｐ、２０４Ｐ、２０６Ｐ、２０８Ｐ、２１０Ｐ、２１２Ｐ、２２０Ｐ、２２２Ｐ：物体点
２０２Ｒ、２０４Ｒ、２０６Ｒ、２０８Ｒ、２１０Ｒ、２１２Ｒ、２２０Ｒ、２２２Ｒ、２２４Ｒ：候補領域

Claims

複数の物体を含む画像が入力される入力部と、
物体を示す点である物体点を前記入力部によって入力された前記画像に対して設定する設定部と、
前記入力部によって入力された前記画像中の物体の存在領域を推定する推定部と、
前記設定部によって前記画像に対して設定された前記複数の物体をそれぞれ示す複数の前記物体点と、前記推定部によって推定された前記画像中の物体の存在領域と、に基づいて、前記設定部によって前記画像に対して設定された当該複数の前記物体点それぞれが示す物体の存在領域を決定する決定部と、
を有する装置。
前記推定部は、前記入力部によって入力された前記画像中の物体の存在領域を複数、推定し、
前記決定部は、前記設定部によって設定された複数の前記物体点と、前記推定部によって推定された複数の前記画像中の物体の存在領域と、に基づいて、前記設定部によって設定されたそれぞれの前記物体点が示す物体の存在領域を決定する、
請求項１に記載の装置。
前記推定部によって推定される前記存在領域は、矩形である、請求項１又は請求項２に記載の装置。
複数の物体を含む画像が入力される入力部と、
物体を示す点である物体点を前記入力部によって入力された前記画像に対して設定する設定部と、
前記設定部によって前記画像に対して設定された前記複数の物体をそれぞれ示す複数の前記物体点それぞれについて、前記物体点を含み、且つ、前記物体点によって示される物体と思われる形状の当該物体の存在領域を決定する決定部と、
を有する装置。
前記決定部は、前記設定部によって前記画像に対して設定された複数の前記物体点それぞれについて、前記物体点を１つだけ含み、且つ、前記物体点によって示される物体と思われる形状の当該物体の存在領域を決定する、請求項４に記載の装置。
前記決定部は、前記設定部によって前記画像に対して設定された複数の前記物体点それぞれについて、前記物体点に関する所定のスコアを計算して当該スコアに基づいて前記存在領域を決定する、請求項４又は請求項５に記載の装置。
前記複数の物体の一部は前記画像において重なり合っている、請求項１乃至請求項６のいずれかに記載の装置。
前記設定部は、前記画像中から検出されるマーカ又はバーコードの位置情報に基づいて、前記物体点を設定する、請求項１乃至請求項７のいずれかに記載の装置。
前記設定部は、前記画像を撮影するデバイスとは別のデバイスによって取得される、前記複数の物体に対応する位置情報に基づいて、前記物体点を設定する、請求項１乃至請求項８のいずれかに記載の装置。
前記別のデバイスによって取得される前記位置情報は、ICチップの位置情報である、請求項９に記載の装置。
前記画像は、前記複数の物体を鳥瞰的に撮影して得られる画像である、請求項１乃至請求項１０のいずれかに記載の装置。
前記決定部によって決定された各物体の前記存在領域を画像としてディスプレイに出力する出力部を有する、請求項１乃至請求項１１のいずれかに記載の装置。
前記決定部によって決定された各物体の前記存在領域に関する座標情報を、所定の動作を行うためのプログラムに出力する出力部を有する、請求項１乃至請求項１２のいずれかに記載の装置。
1又は複数のメモリと、
1又は複数のプロセッサと、を備え、
前記1又は複数のプロセッサは、
画像データ中の複数の物体の各物体の位置を示す点である物体点を複数、設定し、
前記画像データ中の物体が存在する領域の候補である候補領域を複数、検出し、
前記複数の物体点と前記複数の候補領域とに基づいて、前記画像データ中の前記複数の物体のそれぞれについて前記物体が存在する物体領域を決定する、
装置。
前記1又は複数のプロセッサは、
複数の前記候補領域を検出し、前記物体領域の決定は、前記物体点の位置に基づいて前記複数の候補領域のうちから選択された１つの候補領域に基づく、
請求項1４に記載の装置。
前記1又は複数のプロセッサは、
複数の前記物体点を設定し、
前記物体領域の決定は、前記物体点を有する前記候補領域を検出し、
当該候補領域が他の物体点を有していない場合に選択された当該候補領域に基づく、
請求項1４に記載の装置。
前記1又は複数のプロセッサは、
同一の前記物体点に対応する複数の前記候補領域が検出された場合に、当該物体点に対応する複数の前記候補領域のうち、前記物体領域として選択されなかった前記候補領域を当該物体点に対応する候補としての前記候補領域から削除する、
請求項１５又は請求項１６に記載の装置。
前記1又は複数のプロセッサは、
ある前記物体点に対応する前記候補領域が他の前記物体点を有する場合、当該候補領域に係る選択を保留し、当該候補領域以外の前記候補領域の選択を実行する、
請求項１５乃至請求項１７のいずれかに記載の装置。
前記1又は複数のプロセッサは、
前記選択を保留した候補領域以外の前記候補領域の選択が完了した後、前記選択を保留した候補領域のうち、所定の条件を満たす候補領域を選択する、
請求項１８に記載の装置。
請求項１乃至請求項１３のいずれかに記載の前記設定部、又は、請求項１４乃至請求項１９のいずれかに記載の前記1又は複数のプロセッサは、
あらかじめ学習された第1モデルに基づいて前記物体点を設定する、
装置。
前記1又は複数のプロセッサは、
あらかじめ学習された第2モデルに基づいて前記候補領域を検出する、
請求項１４乃至請求項２０のいずれかに記載の装置。
入力部が複数の物体を含む画像を入力する入力工程と、
設定部が物体を示す点である物体点を前記入力工程によって入力された前記画像に対して設定する設定工程と、
推定部が前記入力工程によって入力された前記画像中の物体の存在領域を推定する推定工程と、
決定部が前記設定工程によって前記画像に対して設定された前記複数の物体をそれぞれ示す複数の前記物体点と、前記推定工程によって推定された前記画像中の物体の存在領域と、に基づいて、前記設定工程によって前記画像に対して設定された当該複数の前記物体点それぞれが示す物体の存在領域を決定する決定工程と、
を有する方法。
入力部が複数の物体を含む画像が入力される入力工程と、
設定部が物体を示す点である物体点を前記入力工程によって入力された前記画像に対して設定する設定工程と、
決定部が前記設定工程によって前記画像に対して設定された前記複数の物体をそれぞれ示す複数の前記物体点それぞれについて、前記物体点を含み、且つ、前記物体点によって示される物体と思われる形状の当該物体の存在領域を決定する決定工程と、
を有する方法。
1又は複数のプロセッサにより、
画像データ中の複数の物体の各物体の位置を示す点である物体点を複数設定し、
前記画像データ中の物体が存在する領域の候補である候補領域を複数検出し、
前複数の記物体点と前記複数の候補領域とに基づいて、前記画像データ中の前記複数の物体のそれぞれについて前記物体が存在する物体領域を決定する、
方法。
1又は複数のプロセッサに、請求項２２乃至請求項２４のいずれかの方法を実行させるプログラム。