JP7119910B2

JP7119910B2 - 検出方法、検出プログラムおよび検出装置

Info

Publication number: JP7119910B2
Application number: JP2018204393A
Authority: JP
Inventors: 利生遠藤; 圭造加藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2022-08-17
Anticipated expiration: 2038-10-30
Also published as: US11210513B2; JP2020071615A; US20200134313A1

Description

本発明は、検出方法、検出プログラムおよび検出装置に関する。

近年、ディープラーニングを用いて画像データから物体を検出することが行われている。このような物体検出では、例えば、自動車や人物等といった画像データとラベルとを訓練データとして学習し、学習済モデルを用いてテストデータから検出対象の物体を検出する。ところが、テストデータには、例えば、自動車の後ろに立つ人物等のように、物体同士で遮蔽されることがある。この場合、複数の物体の組み合わせを含む訓練データを用いると、訓練データの数が膨大になる。これに対し、物体ごとの訓練データを用いて学習し、物体ごとに検出を行うことが考えられる。しかしながら、物体同士の遮蔽がある場合、検出精度が下がるという問題がある。

また、物体同士の遮蔽がある場合について、物体の一部分を検出する検出器を複数用意し、それぞれの検出結果から物体の共通する特定部分を推定し、推定結果が一致する場合に検出結果を出力することが提案されている。

特開２０１３－２１０９６８号公報

しかしながら、遮蔽のため物体の一部分しか検出できない場合に、１つの検出器だけが物体を検出すると、推定結果が一致しないため最終的な検出に失敗することがある。このため、遮蔽を含む画像データに対する検出精度が低下する場合がある。

一つの側面では、遮蔽を含む画像データに対する検出精度を向上できる検出方法、検出プログラムおよび検出装置を提供することにある。

一つの態様では、検出方法は、画像データから、該画像データに含まれる対象物の種類と位置を検出する処理をコンピュータが実行する。つまり、検出方法は、前記対象物の一部に対応する切り出し画像データおよび存在領域と、前記対象物の全体画像データおよび存在領域とを対応付けた訓練データを学習して学習済モデルを生成する処理をコンピュータが実行する。検出方法は、生成した前記学習済モデルに対する前記画像データの一部の入力に基づいて出力される、前記画像データの一部から予測される前記対象物の全体画像データおよび存在領域を特定する処理をコンピュータが実行する。検出方法は、特定した前記全体画像データと、前記画像データとの前記存在領域内での比較結果に基づいて、前記画像データにおける前記対象物の位置を特定する処理をコンピュータが実行する。検出方法は、特定した前記存在領域を、前記画像データ上で無効化した画像データを生成する処理をコンピュータが実行する。

遮蔽を含む画像データに対する検出精度を向上できる。

図１は、実施例１の検出装置の構成の一例を示すブロック図である。図２は、物体ごとの訓練データを用いた場合において検出精度が低下する場合の一例を示す図である。図３は、物体の一部分を訓練データとした場合において検出精度が低下する場合の一例を示す図である。図４は、複数の検出器を用いた推定結果が一致しない場合の一例を示す図である。図５は、訓練データ記憶部の一例を示す図である。図６は、学習済モデル記憶部の各予測器の学習結果の一例を示す図である。図７は、訓練データの一例を示す図である。図８は、各予測器の入出力情報の一例を示す図である。図９は、物体の全体画像の予測の一例を示す図である。図１０は、予測器の出力の一例を示す図である。図１１は、入力画像に着目した場合の物体検出の流れを説明する図である。図１２は、物体の予測画像の生成の一例を示す図である。図１３は、入力画像と予測画像との比較の一例を示す図である。図１４は、検出結果の一例を示す図である。図１５は、２回目の物体の予測画像の生成の一例を示す図である。図１６は、２回目の入力画像と予測画像との比較の一例を示す図である。図１７は、２回目の検出結果の一例を示す図である。図１８は、３回目の物体の予測画像の生成において物体が無い場合の一例を示す図である。図１９は、比較結果に基づく検出候補の一例を示す図である。図２０は、実施例１の学習処理の一例を示すフローチャートである。図２１は、実施例１の検出処理の一例を示すフローチャートである。図２２は、実施例１の予測処理の一例を示すフローチャートである。図２３は、実施例２の検出装置の構成の一例を示すブロック図である。図２４は、検出プログラムを実行するコンピュータの一例を示す図である。

以下、図面に基づいて、本願の開示する検出方法、検出プログラムおよび検出装置の実施例を詳細に説明する。なお、本実施例により、開示技術が限定されるものではない。また、以下の実施例は、矛盾しない範囲で適宜組みあわせてもよい。

図１は、実施例１の検出装置の構成の一例を示すブロック図である。図１に示す検出装置１００は、機械学習を用いて画像から物体を検出する情報処理装置である。検出装置１００は、画像データから、該画像データに含まれる対象物の種類と位置を検出する。つまり、検出装置１００は、対象物の一部に対応する切り出し画像データおよび存在領域と、対象物の全体画像データおよび存在領域とを対応付けた訓練データを学習して学習済モデルを生成する。検出装置１００は、生成した学習済モデルに対する画像データの一部の入力に基づいて出力される、画像データの一部から予測される対象物の全体画像データおよび存在領域を特定する。検出装置１００は、特定した全体画像データと、画像データとの存在領域内での比較結果に基づいて、画像データにおける対象物の位置を特定する。検出装置１００は、特定した存在領域を、画像データ上で無効化した画像データを生成する。これにより、検出装置１００は、遮蔽を含む画像データに対する検出精度を向上できる。

まず、図２および図３を用いて、検出精度が低下する場合について説明する。なお、以下の説明では、画像データを単に画像と表現する場合がある。図２は、物体ごとの訓練データを用いた場合において検出精度が低下する場合の一例を示す図である。図２の例では、物体１、物体２および物体３を、それぞれ訓練データとして学習した検出器を用いる。この場合、検出器は、テストデータとして物体１が物体３で遮蔽されている画像データが入力されると、物体１が物体３で遮蔽されているため、物体１の訓練データとの類似性が低下するので、物体１の検出精度が低下する。また、検出器は、テストデータとして物体２が物体３で遮蔽されている画像データが入力されると、物体２が物体３で遮蔽されているため、物体２の訓練データとの類似性が低下するので、物体２の検出精度が低下する。このような遮蔽による検出精度の低下に対応するために、物体の一部分を訓練データとすることが考えられる。

図３は、物体の一部分を訓練データとした場合において検出精度が低下する場合の一例を示す図である。図３の例では、物体１の一部と、物体２の一部とを訓練データとした場合である。なお、物体１の一部と物体２の一部とは、角が丸くなっているか否か、および、外形線があるか否かが異なっている。この場合、図２のテストデータに対しては、訓練データとの類似性は高くなるが、物体１と物体２との区別が困難となるので、物体１および物体２の検出精度が低下することになる。なお、物体の一部分を訓練データとする場合、遮蔽されない部分にぴったり合うような訓練データを事前に生成することは難しい。従って、一般的には、訓練データの物体の一部分は、物体全体と比較してかなり小さくすることが求められる。

また、図４を用いて、従来技術において、１つの検出器だけが物体を検出して最終的な検出に失敗する場合を説明する。図４は、複数の検出器を用いた推定結果が一致しない場合の一例を示す図である。図４に示すように、対象物１０は、人物１１と車１２とが組み合わさったものである。図４の例では、人物１１の全身を検出する検出器と、人物１１の顔を検出する検出器とを用いた場合、全身検出では、人物１１の下半身が車１２で遮蔽されているので頭部推定の結果が検出失敗となる。一方、顔検出では、人物１１の上半身が遮蔽されていないので、頭部推定の結果が検出成功となる。推定結果の一致判定では、全身検出で検出失敗となっているため、顔検出の検出成功と一致せず、最終的な検出結果は、検出失敗となる。すなわち、従来技術では、遮蔽のために物体の一部分しか検出できない場合に、物体検出に失敗することになる。

次に、実施例１の検出装置１００の構成について説明する。図１に示すように、検出装置１００は、通信部１１０と、表示部１１１と、操作部１１２と、記憶部１２０と、制御部１３０とを有する。なお、検出装置１００は、図１に示す機能部以外にも既知のコンピュータが有する各種の機能部、例えば各種の入力デバイスや音声出力デバイス等の機能部を有することとしてもかまわない。

通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１０は、図示しないネットワークを介して他の情報処理装置と有線または無線で接続され、他の情報処理装置との間で情報の通信を司る通信インタフェースである。通信部１１０は、他の情報処理装置から訓練データおよびテストデータを受信する。通信部１１０は、受信した訓練データおよびテストデータを制御部１３０に出力する。

表示部１１１は、各種情報を表示するための表示デバイスである。表示部１１１は、例えば、表示デバイスとして液晶ディスプレイ等によって実現される。表示部１１１は、制御部１３０から入力された表示画面等の各種画面を表示する。

操作部１１２は、検出装置１００のユーザから各種操作を受け付ける入力デバイスである。操作部１１２は、例えば、入力デバイスとして、キーボードやマウス等によって実現される。操作部１１２は、ユーザによって入力された操作を操作情報として制御部１３０に出力する。なお、操作部１１２は、入力デバイスとして、タッチパネル等によって実現されるようにしてもよく、表示部１１１の表示デバイスと、操作部１１２の入力デバイスとは、一体化されるようにしてもよい。

記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ等の半導体メモリ素子、ハードディスクや光ディスク等の記憶装置によって実現される。記憶部１２０は、訓練データ記憶部１２１と、学習済モデル記憶部１２２と、テストデータ記憶部１２３とを有する。また、記憶部１２０は、制御部１３０での処理に用いる情報を記憶する。

訓練データ記憶部１２１は、物体の一部の画像（切り出し画像）およびマスクと、物体全体の画像（全体画像）およびマスクとを対応付けた訓練データを記憶する。なお、マスクは、物体の一部または物体全体の画像データにおける存在領域を表す。図５は、訓練データ記憶部の一例を示す図である。図５に示すように、訓練データ記憶部１２１は、「物体番号」、「データ番号」、「切り出し画像」、「切り出しマスク」、「元画像」、「元マスク」といった項目を有する。

「物体番号」は、検出対象の物体（対象物）を識別する識別子である。「データ番号」は、１つの物体から、物体の一部に対応する複数の切り出し画像を切り出した場合の各切り出し画像データを識別する識別子である。「切り出し画像」は、物体の一部に対応する切り出し画像データを示す情報である。「切り出しマスク」は、切り出し画像データに対応する領域（存在領域）を示す情報である。「元画像」は、物体全体に対応する全体画像データを示す情報である。「元マスク」は、全体画像データに対応する領域（存在領域）を示す情報である。

学習済モデル記憶部１２２は、対象物について、切り出し画像データおよび存在領域と、全体画像データおよび存在領域とを対応付けた訓練データを機械学習で学習させた学習済モデルを記憶する。学習済モデルは、各物体について、切り出し画像データおよび存在領域の入力に基づいて、当該物体の全体画像データおよび存在領域を出力する。つまり、学習済モデルは、各物体に対応する予測器の学習パラメータの集合である。また、学習済モデルは、画像の各画素、および、存在領域に対応するマスクを特徴量として、ニューラルネットワークを用いて深層学習を行ったものである。ニューラルネットワークとしては、例えば、ＣＮＮ（Convolutional Neural Network）を用いることができる。つまり、学習済モデル記憶部１２２は、例えば、学習パラメータとしてニューラルネットワークの各種パラメータ（重み係数）等を記憶する。

図６は、学習済モデル記憶部の各予測器の学習結果の一例を示す図である。図６に示すように、学習結果１２２ａは、「物体番号」、「学習パラメータ」といった項目を有する。すなわち、学習結果１２２ａは、学習済モデルの各物体に対応する予測器の学習結果である学習パラメータを表す。

「物体番号」は、検出対象の物体（対象物）を識別する識別子である。つまり、「物体番号」は、予測器を識別する識別子でもある。「学習パラメータ」は、予測器の学習パラメータを示す情報である。なお、学習パラメータは、例えば、ニューラルネットワークの重みを所定の方法で並べた数値列である。

テストデータ記憶部１２３は、検出対象の画像データであるテストデータを記憶する。テストデータは、例えば、検出対象の物体（対象物）に遮蔽が生じているような画像を含む。なお、テストデータは、複数の検出対象の物体のうち、遮蔽が生じていない物体、つまり、一番手前に配置された物体を含む画像であってもよい。

図１の説明に戻って、制御部１３０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、内部の記憶装置に記憶されているプログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されるようにしてもよい。制御部１３０は、取得部１３１と、第１生成部１３２と、第１特定部１３３と、第２特定部１３４と、第２生成部１３５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図１に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

取得部１３１は、学習時において、図示しない情報処理装置から訓練データを受信して取得する。取得部１３１は、取得した訓練データを訓練データ記憶部１２１に記憶する。また、取得部１３１は、検出時において、図示しない情報処理装置からテストデータを受信して取得する。取得部１３１は、取得したテストデータをテストデータ記憶部１２３に記憶する。なお、取得部１３１は、第１特定部１３３が対応する、学習済モデル記憶部１２２に記憶された学習済モデルを取得する取得部とは異なる。

第１生成部１３２は、訓練データを機械学習することで、学習済モデルを生成する。つまり、第１生成部１３２は、訓練データ記憶部１２１から訓練データを読み込み、物体（対象物）ごとの訓練データを機械学習することで、各物体に対応する各予測器の学習結果である学習パラメータを生成する。第１生成部１３２は、生成した各学習パラメータを各物体と対応付けて、学習済モデルとして学習済モデル記憶部１２２に記憶する。すなわち、第１生成部１３２は、対象物の一部に対応する切り出し画像データおよび存在領域と、対象物の全体画像データおよび存在領域とを対応付けた訓練データを学習して学習済モデルを生成する。例えば、第１生成部１３２は、切り出し画像データおよび存在領域（マスク）をニューラルネットワークに入力する。第１生成部１３２は、ニューラルネットワークの出力を全体画像データおよび存在領域に割り当てて、所望の出力が得られるようにバックプロパゲーションによりニューラルネットワークの重みを調整することで学習を行う。

ここで、図７を用いて訓練データについて説明する。図７は、訓練データの一例を示す図である。なお、図７では、マスクは省略している。図７に示すように、訓練データ１２１ａ１は、物体１の入力である切り出し画像と、出力である元画像（物体１の全体画像）とを対応付けたものである。訓練データ１２１ａ２は、物体２の入力である切り出し画像と、出力である元画像（物体２の全体画像）とを対応付けたものである。訓練データ１２１ａ３は、物体３の入力である切り出し画像と、出力である元画像（物体３の全体画像）とを対応付けたものである。なお、訓練データ１２１ａ３は、入力の切り出し画像として物体３の全体画像を用いている場合である。また、切り出し画像は、例えば、ランダムな所定の大きさの正方形とすることができ、複数の切り出し画像を切り出すことで生成することができる。

第１特定部１３３は、例えば、ユーザから検出処理の開始を指示されると、学習済モデル記憶部１２２を参照し、学習済モデル、つまり各予測器の学習結果である学習パラメータを読み込んで各予測器を構成する。すなわち、第１特定部１３３は、学習済モデル記憶部１２２に記憶された学習済モデルを取得する取得部の一例である。第１特定部１３３は、第２生成部１３５からテストデータおよび予測指示が入力されると、テストデータに対して予測処理を実行する。なお、以下の説明では、テストデータを入力画像ともいう。

第１特定部１３３は、予測処理として、まず、入力画像に対する有効領域を全画面に初期化する。つまり、第１特定部１３３は、入力画像の全領域を物体の検出対象とする入力マスクを設定する。第１特定部１３３は、第２生成部１３５から予測指示が入力されると、各予測器に入力画像および入力マスクを入力し、予測結果である予測画像、予測マスクおよび物体位置を生成する。ここで、２回目以降の予測指示には、既に検出した物体の存在領域を有効領域から除外した入力マスクが含まれる。第１特定部１３３は、入力画像、入力マスク、各予測器の予測画像、予測マスクおよび物体位置を第２特定部１３４に出力する。

言い換えると、第１特定部１３３は、生成された学習済モデルに対する画像データの一部（部分画像）の入力に基づいて出力される、画像データの一部から予測される対象物の全体画像データおよび存在領域（予測マスク、物体位置）を特定する。また、第１特定部１３３および第２生成部１３５は、特定した存在領域を、画像データ上で無効化した画像データを生成する。

ここで、図８および図９を用いて、各予測器について説明する。図８は、各予測器の入出力情報の一例を示す図である。図８に示すように、予測器１２２ｂには、入力画像および入力マスクが入力される。予測器１２２ｂは、入力された入力画像および入力マスクに基づいて、予測画像、予測マスクおよび物体位置を生成して出力する。なお、予測画像は、例えば、予測した物体をＲＧＢ（Red Green Blue）で表すカラー画像である。また、予測マスクは、例えば、予測した物体に対応するビットマップ画像であり、物体に対応する画素を「１」、物体以外の画素を「０」とした画像である。また、物体位置は、例えば、物体の外接長方形の座標を示す情報である。

図９は、物体の全体画像の予測の一例を示す図である。図９では、各予測器における物体の全体画像の予測をより詳細に説明する。図９に示すように、第１特定部１３３は、入力画像２０の全領域から様々な大きさの部分画像を切り取る。第１特定部１３３は、例えば、入力画像２０のうち、座標（ａ１，ｂ１，ａ２，ｂ２）で表される部分画像２１を切り取る。部分画像２１は、物体の一部分に相当する。第１特定部１３３は、部分画像２１について位置合わせを行って予測器に入力する。予測器は、部分画像２１の入力に基づいて、物体の全体画像２２を予測して予測画像とし、全体画像２２に対応する予測マスク、および、全体画像２２の外接長方形の座標を表す物体位置とともに出力する。すなわち、第１特定部１３３は、入力画像の様々な位置から様々な大きさの部分画像を切り取って予測器（学習済のニューラルネットワーク）に入力し、予測器の出力を予測画像とする。従って、予測器からは、多数の予測画像が出力されることになる。

図１０は、予測器の出力の一例を示す図である。図１０に示す表２３は、予測器ごとに出力される様々な予測画像のパターンがあることを示す。表２３では、「予測器番号」は、予測器を識別する識別子である。「予測画像１」は、各予測器において１つ目の予測画像を示す情報である。「マスク１」は、各予測器において１つ目の予測マスクを示す情報である。「物体位置１」は、各予測器において１つ目の物体位置を示す情報である。「予測画像２」は、各予測器において２つ目の予測画像を示す情報である。以下、１つ目の予測画像と同様に、予測画像、予測マスクおよび物体位置の組が出力されることを示す。なお、予測器は、出力する予測画像、予測マスクおよび物体位置の組に確信度を付加してもよい。また、予測器は、出力する予測画像、予測マスクおよび物体位置の組を確信度順に組み合わせてもよい。

図１の説明に戻って、第２特定部１３４は、第１特定部１３３から入力画像、入力マスク、各予測器の予測画像、予測マスクおよび物体位置が入力されると、入力画像と予測画像を予測マスクによって表される存在領域において比較する。第２特定部１３４は、例えば、入力画像と予測画像との誤差が小さい領域の面積に基づいて、入力画像における対象物の位置を特定する。つまり、第２特定部１３４は、例えば、複数の予測画像について誤差の小さい順に並べ、予め設定された閾値以下の誤差である予測画像を検出候補とする。第２特定部１３４は、検出候補の入力画像における対象物の位置、つまり存在領域を特定する。なお、検出候補は、予め設定された閾値以下の誤差であれば、複数の予測画像としてもよい。また、誤差としては、例えば、有効領域の画素値の差の２乗平均を用いることができる。

ここで、第２特定部１３４は、検出候補があるか否かを判定する。第２特定部１３４は、検出候補があると判定した場合には、検出候補を検出結果として、例えば表示部１１１に出力して表示する。また、第２特定部１３４は、特定した検出候補の存在領域を、検出結果の物体の存在領域として、入力マスクとともに第２生成部１３５に出力する。一方、第２特定部１３４は、検出候補がないと判定した場合には、予測処理を終了する。

また、第２特定部１３４は、初回の比較において、入力された予測画像、予測マスクおよび物体位置（つまり、物体の存在領域）が複数ある場合、２回目以降の比較では、前回までの検出結果の物体の存在領域が無効化された入力画像を用いる。つまり、第２特定部１３４は、前回までの検出結果の物体の存在領域が無効化された入力画像と、残りの物体の予測画像との比較結果に基づいて、残りの物体の存在領域に対応する対象物の位置を特定していくこととなる。

言い換えると、第２特定部１３４は、特定した予測画像と、画像データとの比較結果に基づいて、画像データにおける対象物の位置を特定する。また、第２特定部１３４は、特定した予測画像と画像データとを比較し、比較の結果、誤差が小さい領域の面積に基づいて、画像データにおける対象物の位置を特定する。また、第２特定部１３４は、特定した存在領域が複数ある場合、特定した存在領域が無効化された画像データと、特定した予測画像との比較結果に基づいて、対応する対象物の位置を特定する。

第２生成部１３５は、例えば、ユーザから検出処理の開始を指示されると、テストデータ記憶部１２３からテストデータ（入力画像）を読み込み、テストデータおよび予測指示を第１特定部１３３に出力する。

第２生成部１３５は、第２特定部１３４から検出結果の物体の存在領域、および、入力マスクが入力されると、当該検出結果の物体の存在領域を有効領域から除外して入力マスクを更新する。第２生成部１３５は、入力マスクを更新すると、更新した入力マスクを含む予測指示を第１特定部１３３に出力する。

ここで、図１１を用いて入力画像に着目した場合の物体検出の流れを説明し、図１２から図１９を用いて、具体例について説明する。

図１１は、入力画像に着目した場合の物体検出の流れを説明する図である。図１１に示すように、第２生成部１３５は、１回目の処理において、入力画像を第１特定部１３３に出力する。第１特定部１３３は、入力画像に対して全領域を物体の検出対象とする入力マスクを設定する。第１特定部１３３は、学習済モデルの各予測器１２２ｂ１～１２２ｂ３に対して入力画像および入力マスクを入力し、それぞれの予測画像、予測マスクおよび物体位置を生成する。第１特定部１３３は、入力画像、入力マスク、各予測器１２２ｂ１～１２２ｂ３の予測画像、予測マスクおよび物体位置を第２特定部１３４に出力する。

第２特定部１３４は、入力画像と、予測画像とを予測マスクが表す存在領域内で比較し、予め設定された閾値以下の誤差である予測画像を検出候補とする。第２特定部１３４は、検出候補があるか否かを判定する。第２特定部１３４は、検出候補がないと判定した場合には、処理を終了する。一方、第２特定部１３４は、検出候補があると判定した場合には、検出候補を検出結果として出力する。また、第２特定部１３４は、特定した検出候補の存在領域を、検出結果の物体の存在領域として、入力マスクとともに第２生成部１３５に出力する。第２生成部１３５は、第２特定部１３４から検出結果の物体の存在領域、および、入力マスクが入力されると、当該検出結果の物体の存在領域を有効領域から除外して入力マスクを更新する。第２生成部１３５は、更新した入力マスクと、入力画像とを第１特定部１３３に出力し、次の物体について予測および検出を行う。

図１２は、物体の予測画像の生成の一例を示す図である。図１２の例では、入力画像２４に対して、予測画像２５～２７が生成される。入力画像２４は、図２の物体１が物体３で遮蔽されているものとする。なお、図１２から図１９では、図２の物体１に予測画像２６が対応し、物体２に予測画像２７が対応し、物体３に予測画像２５が対応するものとする。また、物体１および予測画像２６は色が「青」であるものとする。また、物体２および予測画像２７は、上部の角が丸い四角部分である領域２７ａの色が「青」であり、下部の逆Ｌ字型の部分である領域２７ｂの色が「オレンジ」であるものとする。また、物体３および予測画像２５は色が「緑」であるものとする。また、図１２から図１９では、予測マスクおよび物体位置は、これらを含む説明を行う場合を除いて省略している。

図１３は、入力画像と予測画像との比較の一例を示す図である。図１３では、入力画像２４と、予測画像２５～２７とを比較している。入力画像２４と予測画像２５との比較では、比較誤差２８に示すように、予測画像２５と重なる領域２９は誤差が小さく、予測画像２５と重ならない領域３０は誤差が大きい。入力画像２４と予測画像２６との比較では、比較誤差３１に示すように、予測画像２６と重なる領域３２は誤差が小さく、予測画像２６と重ならない領域３３は誤差が大きい。入力画像２４と予測画像２７との比較では、比較誤差３４に示すように、予測画像２７と重なる領域３５は誤差が小さく、予測画像２７と重ならない領域３６は誤差が大きい。第２特定部１３４は、比較誤差２８，３１，３４について、例えば、誤差が小さい領域の面積に基づいて、予測画像２５～２７のうち、いずれが正しいかを判定する。図１３の例では、予測画像２５が正しいと判定されたとする。なお、第２特定部１３４は、予測画像のうち、複数の予測画像を正しいと判定するようにしてもよい。

図１４は、検出結果の一例を示す図である。図１４に示すように、第２特定部１３４は、入力画像２４に対して正しいと予測された予測画像２５を検出候補３７とする。第２特定部１３４は、検出候補３７の入力画像２４における物体位置の座標（ｘ１，ｙ１，ｘ２，ｙ２）を特定する。第２特定部１３４は、検出候補３７を検出結果として出力する。検出結果は、例えば、「物体「緑（物体３）」」、「物体位置（ｘ１，ｙ１，ｘ２，ｙ２）」といった情報が出力される。

図１５は、２回目の物体の予測画像の生成の一例を示す図である。図１５の入力画像３８は、検出候補３７、つまり物体３に相当する領域３７ａが無効化されている。従って、図１５の例では、入力画像３８に対して、予測画像２６，２７が生成される。

図１６は、２回目の入力画像と予測画像との比較の一例を示す図である。図１６では、入力画像３８と、予測画像２６，２７とを比較している。入力画像３８と予測画像２６との比較では、比較誤差３９に示すように、予測画像２６と重なる領域４０は誤差が小さく、無効化された領域３７ａに対応する領域４１は比較対象外となる。入力画像３８と予測画像２７との比較では、比較誤差４２に示すように、予測画像２７と重なる領域４３は誤差が小さく、無効化された領域３７ａに対応する領域４４は比較対象外となる。また、予測画像２７と重ならない領域４５は誤差が大きい。第２特定部１３４は、比較誤差３９，４２について、例えば、誤差が小さい領域の面積に基づいて、予測画像２６，２７のうち、いずれが正しいかを判定する。図１６の例では、予測画像２６が正しいと判定されたとする。

図１７は、２回目の検出結果の一例を示す図である。図１７に示すように、第２特定部１３４は、入力画像３８に対して正しいと予測された予測画像２６を検出候補４６とする。第２特定部１３４は、検出候補４６の入力画像３８における物体位置の座標（ｘ３，ｙ３，ｘ４，ｙ４）を特定する。第２特定部１３４は、検出候補４６を検出結果として出力する。検出結果は、例えば、「物体「青（物体１）」」、「物体位置（ｘ３，ｙ３，ｘ４，ｙ４）」といった情報が出力される。

図１８は、３回目の物体の予測画像の生成において物体が無い場合の一例を示す図である。図１８の入力画像４７は、領域３７ａと、検出候補４６（物体１）に相当する領域４６ａが無効化されている。従って、図１８の例では、入力画像４７から検出対象の物体が全て無効化され、予測画像が生成できないため、検出を終了する。

図１９は、比較結果に基づく検出候補の一例を示す図である。図１９に示す表５０は、図１３の予測画像２５～２７および比較誤差２８，３１，３４について、誤差を小さい順に並べて閾値「０．１」との比較結果を示すものである。表５０に示すように、予測画像２５に対応する予測画像番号「画像３１」が誤差「０．０８」と最も小さく、閾値以下であるので、予測画像２５が正しいと判定され検出候補となる。なお、予測画像番号「画像３１」は物体３に対応し、予測画像番号「画像１１」は物体１に対応し、予測画像番号「画像２１」は物体２に対応する。

次に、実施例１の検出装置１００の動作について説明する。まず、図２０を用いて学習処理について説明する。図２０は、実施例１の学習処理の一例を示すフローチャートである。

第１生成部１３２は、訓練データ記憶部１２１から訓練データを読み込む（ステップＳ１）。第１生成部１３２は、物体ごとの訓練データの学習を実行し（ステップＳ２）、各予測器の学習結果である学習パラメータを生成する。第１生成部１３２は、各予測器の学習結果を学習済モデルとして学習済モデル記憶部１２２に保存する（ステップＳ３）。これにより、検出装置１００は、物体の一部に対応する画像データの一部と、当該物体の全体画像データおよび存在領域との対応づけを学習することができる。

続いて、図２１を用いて検出処理について説明する。図２１は、実施例１の検出処理の一例を示すフローチャートである。

第１特定部１３３は、例えば、ユーザから検出処理の開始を指示されると、学習済モデル記憶部１２２を参照し、学習済モデル、つまり各予測器の学習結果を読み込んで各予測器を構成する（ステップＳ１１）。また、第２生成部１３５は、例えば、ユーザから検出処理の開始を指示されると、テストデータ記憶部１２３からテストデータ（入力画像）を読み込み（ステップＳ１２）、テストデータおよび予測指示を第１特定部１３３に出力する。第１特定部１３３は、第２生成部１３５からテストデータおよび予測指示が入力されると、テストデータに対して予測処理を実行する（ステップＳ１３）。

ここで、図２２を用いて予測処理について説明する。図２２は、実施例１の予測処理の一例を示すフローチャートである。

第１特定部１３３は、入力画像に対する有効領域を全画面に初期化する（ステップＳ１３１）。第１特定部１３３は、第２生成部１３５から入力された予測指示に基づいて、各予測器に入力画像および入力マスクを入力し、入力画像における物体を予測する（ステップＳ１３２）。第１特定部１３３は、予測結果として予測画像、予測マスクおよび物体位置を生成する。第１特定部１３３は、入力画像、入力マスク、各予測器の予測画像、予測マスクおよび物体位置を第２特定部１３４に出力する。

第２特定部１３４は、第１特定部１３３から入力画像、入力マスク、各予測器の予測画像、予測マスクおよび物体位置が入力されると、入力画像と予測画像とを予測マスクが表す存在領域内で比較する。第２特定部１３４は、比較の結果、予め設定された閾値以下の誤差である予測画像を検出候補とする。第２特定部１３４は、検出候補があるか否かを判定する（ステップＳ１３３）。第２特定部１３４は、検出候補があると判定した場合には（ステップＳ１３３：肯定）、検出候補を検出結果として、例えば表示部１１１に出力して表示する（ステップＳ１３４）。また、第２特定部１３４は、特定した検出候補の存在領域を、検出結果の物体の存在領域として、入力マスクとともに第２生成部１３５に出力する。

第２生成部１３５は、第２特定部１３４から検出結果の物体の存在領域、および、入力マスクが入力されると、当該検出結果の物体の存在領域を有効領域から除外して入力マスクを更新する（ステップＳ１３５）。第２生成部１３５は、入力マスクを更新すると、更新した入力マスクを含む予測指示を第１特定部１３３に出力し、ステップＳ１３２に戻る。

一方、ステップＳ１３３において、第２特定部１３４は、検出候補がないと判定した場合には（ステップＳ１３３：否定）、予測処理を終了し、元の処理に戻る。第２特定部１３４は、予測処理が終了すると、検出処理を終了する。これにより、検出装置１００は、遮蔽を含む画像データに対する検出精度（汎化能力）を向上できる。また、検出装置１００は、深層学習により入力画像と比較可能なリアルな予測画像を生成できる。すなわち、検出装置１００は、人物等の複雑な形状の物体であっても予測画像を生成することができる。

また、検出装置１００は、対象物の一部に基づいて予測を行うため、対象物の検出漏れを低減することができる。また、検出装置１００では、画像のような多次元データの予測が偶然に的中する確率は非常に低いため、実際とは異なる物体および物体位置が選ばれる可能性は低くなり、誤検出を低減することができる。また、検出装置１００は、異なる物体が類似した色を持つようなレアケースに対しても、既に検出済の物体を除いて再検出を行うため、誤検出を低減することができる。

このように、検出装置１００は、画像データから、該画像データに含まれる対象物の種類と位置を検出する。つまり、検出装置１００は、対象物の一部に対応する切り出し画像データおよび存在領域と、対象物の全体画像データおよび存在領域とを対応付けた訓練データを学習して学習済モデルを生成する。また、検出装置１００は、生成した学習済モデルに対する画像データの一部の入力に基づいて出力される、画像データの一部から予測される対象物の全体画像データおよび存在領域を特定する。また、検出装置１００は、特定した全体画像データと、画像データとの存在領域内での比較結果に基づいて、画像データにおける対象物の位置を特定する。また、検出装置１００は、特定した存在領域を、画像データ上で無効化した画像データを生成する。その結果、検出装置１００は、遮蔽を含む画像データに対する検出精度を向上できる。

また、検出装置１００は、特定した全体画像データと、画像データとを存在領域内で比較し、比較の結果、誤差が小さい領域の面積に基づいて、画像データにおける対象物の位置を特定する。その結果、検出装置１００は、対象物の一部が遮蔽されていても当該対象物を検出することができる。

また、検出装置１００は、特定した存在領域が複数ある場合、特定した存在領域が無効化された画像データと、特定した予測画像との比較結果に基づいて、対応する対象物の位置を特定する。その結果、検出装置１００は、対象物が複数重なっている場合であっても、各対象物を検出することができる。

上記実施例１では、学習済モデルを検出装置１００で生成する場合について説明したが、他の情報処理装置で予め生成した学習済モデルを用いてもよく、この場合の実施の形態につき、実施例２として説明する。なお、実施例２では、実施例１の検出装置１００と同一の構成には同一符号を付すことで、その重複する構成および動作の説明については省略する。

図２３は、実施例２の検出装置の構成の一例を示すブロック図である。図２３に示す検出装置２００は、実施例１の検出装置１００と比較して、記憶部１２０および制御部１３０に代えて記憶部２２０および制御部２３０を有する。また、記憶部２２０は、記憶部１２０と比較して、訓練データ記憶部１２１を除いている。また、制御部２３０は、制御部１３０と比較して、取得部１３１に代えて取得部２３１を有し、第１生成部１３２を除いている。

取得部２３１は、図示しない情報処理装置から学習済モデルを受信して取得する。取得部２３１は、取得した学習済モデルを学習済モデル記憶部１２２に記憶する。また、取得部２３１は、図示しない情報処理装置からテストデータを受信して取得する。取得部２３１は、取得したテストデータをテストデータ記憶部１２３に記憶する。なお、取得部２３１は、第１特定部１３３が対応する、学習済モデル記憶部１２２に記憶された学習済モデルを取得する取得部とは異なる。

実施例２の検出装置２００の動作については、実施例１の検出装置１００の検出処理と同様であるので、その説明を省略する。

このように、検出装置２００は、画像データから、該画像データに含まれる対象物の種類と位置を検出する。つまり、検出装置２００は、学習済モデル記憶部１２２に記憶された学習済モデルを取得する。また、検出装置２００は、取得した学習済モデルに対する画像データの一部の入力に基づいて出力される、画像データの一部から予測される対象物の全体画像データおよび存在領域を特定する。また、検出装置２００は、特定した全体画像データと、画像データとの存在領域内での比較結果に基づいて、画像データにおける対象物の位置を特定する。また、検出装置２００は、特定した存在領域を、画像データ上で無効化した画像データを生成する。その結果、検出装置２００は、遮蔽を含む画像データに対する検出精度を向上できる。

なお、上記各実施例では、ニューラルネットワークとして、ＣＮＮを一例として挙げたが、これに限定されない。例えば、ＲＮＮ（再帰型ニューラルネットワーク：Recurrent Neural Network）など様々なニューラルネットワークを用いることができる。また、学習の手法も、誤差逆伝播以外にも公知の様々な手法を採用することができる。また、ニューラルネットワークは、例えば入力層、中間層（隠れ層）、出力層から構成される多段構成であり、各層は複数のノードがエッジで結ばれる構造を有する。各層は、「活性化関数」と呼ばれる関数を持ち、エッジは「重み」を持ち、各ノードの値は、前の層のノードの値、接続エッジの重みの値、層が持つ活性化関数から計算される。なお、計算方法については、公知の様々な手法を採用できる。

また、上記各実施例では、静止画像について説明したが、これに限定されない。例えば、動画像のような時系列データに適用してもよい。この場合、短時間先の時刻における予測を用いるようにしてもよい。

また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、検出装置１００の第２特定部１３４と第２生成部１３５とを統合してもよい。また、図示した各処理は、上記の順番に限定されるものでなく、処理内容を矛盾させない範囲において、同時に実施してもよく、順序を入れ替えて実施してもよい。

さらに、各装置で行われる各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウェア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。

ところで、上記の各実施例で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の各実施例と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図２４は、検出プログラムを実行するコンピュータの一例を示す図である。

図２４に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、データ入力を受け付ける入力装置３０２と、モニタ３０３とを有する。また、コンピュータ３００は、記憶媒体からプログラム等を読み取る媒体読取装置３０４と、各種装置と接続するためのインタフェース装置３０５と、他の情報処理装置等と有線または無線により接続するための通信装置３０６とを有する。また、コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０７と、ハードディスク装置３０８とを有する。また、各装置３０１～３０８は、バス３０９に接続される。

ハードディスク装置３０８には、図１に示した取得部１３１、第１生成部１３２、第１特定部１３３、第２特定部１３４および第２生成部１３５の各処理部と同様の機能を有する検出プログラムが記憶される。また、ハードディスク装置３０８には、訓練データ記憶部１２１、学習済モデル記憶部１２２、テストデータ記憶部１２３、および、検出プログラムを実現するための各種データが記憶される。また、ハードディスク装置３０８には、図２３に示した取得部２３１、第１特定部１３３、第２特定部１３４および第２生成部１３５の各処理部と同様の機能を有する検出プログラムが記憶されるようにしてもよい。また、ハードディスク装置３０８には、学習済モデル記憶部１２２、テストデータ記憶部１２３、および、検出プログラムを実現するための各種データが記憶されるようにしてもよい。

入力装置３０２は、例えば、コンピュータ３００のユーザから操作情報等の各種情報の入力を受け付ける。モニタ３０３は、例えば、コンピュータ３００のユーザに対して表示画面等の各種画面を表示する。インタフェース装置３０５は、例えば印刷装置等が接続される。通信装置３０６は、例えば、図１，２３に示した通信部１１０と同様の機能を有し図示しないネットワークと接続され、他の情報処理装置と各種情報をやりとりする。

ＣＰＵ３０１は、ハードディスク装置３０８に記憶された各プログラムを読み出して、ＲＡＭ３０７に展開して実行することで、各種の処理を行う。また、これらのプログラムは、コンピュータ３００を図１に示した取得部１３１、第１生成部１３２、第１特定部１３３、第２特定部１３４および第２生成部１３５として機能させることができる。また、これらのプログラムは、コンピュータ３００を図２３に示した取得部２３１、第１特定部１３３、第２特定部１３４および第２生成部１３５として機能させるようにしてもよい。

なお、上記の検出プログラムは、必ずしもハードディスク装置３０８に記憶されている必要はない。例えば、コンピュータ３００が読み取り可能な記憶媒体に記憶されたプログラムを、コンピュータ３００が読み出して実行するようにしてもよい。コンピュータ３００が読み取り可能な記憶媒体は、例えば、ＣＤ－ＲＯＭやＤＶＤ（Digital Versatile Disc）、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にこの検出プログラムを記憶させておき、コンピュータ３００がこれらから検出プログラムを読み出して実行するようにしてもよい。

１００，２００検出装置
１１０通信部
１１１表示部
１１２操作部
１２０，２２０記憶部
１２１訓練データ記憶部
１２２学習済モデル記憶部
１２３テストデータ記憶部
１３０，２３０制御部
１３１，２３１取得部
１３２第１生成部
１３３第１特定部
１３４第２特定部
１３５第２生成部

Claims

画像データから、該画像データに含まれる対象物の種類と位置を検出する検出方法であって、
前記対象物の一部に対応する切り出し画像データおよび存在領域と、前記対象物の全体画像データおよび存在領域とを対応付けた訓練データを学習して学習済モデルを生成し、
生成した前記学習済モデルに対する前記画像データの一部の入力に基づいて出力される、前記画像データの一部から予測される前記対象物の全体画像データおよび存在領域を特定し、
特定した前記全体画像データと、前記画像データとの前記存在領域内での比較結果に基づいて、前記画像データにおける前記対象物の位置を特定し、
特定した前記存在領域を、前記画像データ上で無効化した画像データを生成する、
処理をコンピュータが実行することを特徴とする検出方法。
前記対象物の位置を特定する処理は、特定した前記全体画像データと前記画像データとを前記存在領域内で比較し、比較の結果、誤差が小さい領域の面積に基づいて、前記画像データにおける前記対象物の位置を特定する、
ことを特徴とする請求項１に記載の検出方法。
前記対象物の位置を特定する処理は、特定した前記存在領域が複数ある場合、特定した前記存在領域が無効化された画像データと、前記全体画像データとの比較結果に基づいて、対応する対象物の位置を特定する、
ことを特徴とする請求項１または２に記載の検出方法。
画像データから、該画像データに含まれる対象物の種類と位置を検出する検出方法であって、
記憶部に記憶された学習済モデルを取得し、
取得した前記学習済モデルに対する前記画像データの一部の入力に基づいて出力される、前記画像データの一部から予測される前記対象物の全体画像データおよび存在領域を特定し、
特定した前記全体画像データと、前記画像データとの前記存在領域内での比較結果に基づいて、前記画像データにおける前記対象物の位置を特定し、
特定した前記存在領域を、前記画像データ上で無効化した画像データを生成する、
処理をコンピュータが実行することを特徴とする検出方法。
画像データから、該画像データに含まれる対象物の種類と位置を検出する処理をコンピュータに実行させる検出プログラムであって、
前記対象物の一部に対応する切り出し画像データおよび存在領域と、前記対象物の全体画像データおよび存在領域とを対応付けた訓練データを学習して学習済モデルを生成し、
生成した前記学習済モデルに対する前記画像データの一部の入力に基づいて出力される、前記画像データの一部から予測される前記対象物の全体画像データおよび存在領域を特定し、
特定した前記全体画像データと、前記画像データとの前記存在領域内での比較結果に基づいて、前記画像データにおける前記対象物の位置を特定し、
特定した前記存在領域を、前記画像データ上で無効化した画像データを生成する、
処理をコンピュータに実行させることを特徴とする検出プログラム。
画像データから、該画像データに含まれる対象物の種類と位置を検出する処理をコンピュータに実行させる検出プログラムであって、
記憶部に記憶された学習済モデルを取得し、
取得した前記学習済モデルに対する前記画像データの一部の入力に基づいて出力される、前記画像データの一部から予測される前記対象物の全体画像データおよび存在領域を特定し、
特定した前記全体画像データと、前記画像データとの前記存在領域内での比較結果に基づいて、前記画像データにおける前記対象物の位置を特定し、
特定した前記存在領域を、前記画像データ上で無効化した画像データを生成する、
処理をコンピュータに実行させることを特徴とする検出プログラム。
画像データから、該画像データに含まれる対象物の種類と位置を検出する検出装置であって、
前記対象物の一部に対応する切り出し画像データおよび存在領域と、前記対象物の全体画像データおよび存在領域とを対応付けた訓練データを学習して学習済モデルを生成する第１生成部と、
生成した前記学習済モデルに対する前記画像データの一部の入力に基づいて出力される、前記画像データの一部から予測される前記対象物の全体画像データおよび存在領域を特定する第１特定部と、
特定した前記全体画像データと、前記画像データとの前記存在領域内での比較結果に基づいて、前記画像データにおける前記対象物の位置を特定する第２特定部と、
特定した前記存在領域を、前記画像データ上で無効化した画像データを生成する第２生成部と、
を有することを特徴とする検出装置。
画像データから、該画像データに含まれる対象物の種類と位置を検出する検出装置であって、
記憶部に記憶された学習済モデルを取得する取得部と、
取得した前記学習済モデルに対する前記画像データの一部の入力に基づいて出力される、前記画像データの一部から予測される前記対象物の全体画像データおよび存在領域を特定する第１特定部と、
特定した前記全体画像データと、前記画像データとの前記存在領域内での比較結果に基づいて、前記画像データにおける前記対象物の位置を特定する第２特定部と、
特定した前記存在領域を、前記画像データ上で無効化した画像データを生成する生成部と、
を有することを特徴とする検出装置。