JP7473186B2

JP7473186B2 - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP7473186B2
Application number: JP2020116494A
Authority: JP
Inventors: 裕一郎田島; 友謙佐々木; 征一郎松谷; 紘大上村; 千裕伊藤; 精基佐藤; 仁紀水谷
Original assignee: NEC Solution Innovators Ltd
Current assignee: NEC Solution Innovators Ltd
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2024-04-23
Anticipated expiration: 2040-07-06
Also published as: JP2022014263A

Description

本発明は、画像の対象物体領域を検出する画像処理装置、画像処理方法、及びプログラムに関する。

従来の物体検出方法では、対象物体のみが撮像された訓練用画像を用いて学習させたモデルに、フレーム画像を入力し、当該フレーム画像の対象物体に対応する対象物体領域を検出する技術が知られている。関連する技術として、特許文献１、２、３、４などが知られている。

特開２０１０－００８１５９号公報特開２０１０－１２２７４６号公報特開２０２０－０５１９８２号公報特許第６６９３６８４号公報

しかしながら、上述したモデルでは、対象物体に対応する対象物体領域は精度よく検出できるが、対象物体以外の学習していない物体については精度よく検出することができない。

理由としては、上述したモデルが出力した、フレーム画像の対象物体以外の物体に対応する領域の信頼度（スコア）が、フレーム画像の背景に対応する領域の信頼度と近似するため、対象物体以外の物体の領域と背景の領域とを分類できないからである。

一つの側面として、物体を精度よく分類する画像処理装置、画像処理方法、及びプログラムを提供することを目的とする。

上記目的を達成するため、一つの側面における画像処理装置は、
物体検出処理により生成された、画像の対象物体に対応する対象物体領域の候補となる候補領域から、前記対象物体領域を含んでいると見做せる部分候補領域を選択する、選択部と、
物体に対応する物体領域と前記物体領域以外の背景領域とを分離する背景分離モデルに、前記画像を入力して、前記画像を前記物体領域と前記背景領域とに分離したマスク画像を生成する、生成部と、
前記マスク画像から前記部分候補領域に対応する部分マスク領域を抽出する、抽出部と、
抽出された前記部分マスク領域の前記物体領域と前記背景領域との占有状態に応じて、前記部分候補領域を物体又は背景に分類する、分類部と、
を有することを特徴とする。

また、上記目的を達成するため、本発明の一側面における画像処理方法は、
物体検出処理により生成された、画像の対象物体に対応する対象物体領域の候補となる候補領域から、前記対象物体領域を含んでいると見做せる部分候補領域を選択する、選択ステップと、
物体に対応する物体領域と前記物体領域以外の背景領域とを分離する背景分離モデルに、前記フレーム画像を入力して、前記フレーム画像を前記物体領域と前記背景領域とに分離したマスク画像を生成する、生成ステップと、
前記マスク画像から前記部分候補領域に対応する部分マスク領域を抽出する、抽出ステップと、
抽出された前記部分マスク領域の前記物体領域と前記背景領域との占有状態に応じて、前記部分候補領域を物体又は背景に分類する、分類ステップと、
を有することを特徴とする。

さらに、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
物体検出処理により生成された、画像の対象物体に対応する対象物体領域の候補となる候補領域から、前記対象物体領域を含んでいると見做せる部分候補領域を選択する、選択ステップと、
物体に対応する物体領域と前記物体領域以外の背景領域とを分離する背景分離モデルに、前記フレーム画像を入力して、前記フレーム画像を前記物体領域と前記背景領域とに分離したマスク画像を生成する、生成ステップと、
前記マスク画像から前記部分候補領域に対応する部分マスク領域を抽出する、抽出ステップと、
抽出された前記部分マスク領域の前記物体領域と前記背景領域との占有状態に応じて、前記部分候補領域を物体又は背景に分類する、分類ステップと、
を実行させることを特徴とする。

一つの側面として、物体を精度よく分類することができる。

図１は、画像処理装置の一例を説明するための図である。図２は、候補領域と部分候補領域を説明するための図である。図３は、マスク画像を説明するための図である。図４は、物体領域と背景領域の分類を説明するための図である。図５は、画像処理装置を有するシステムの一例を説明するための図である。図６は、対象物体の特定を説明するための図である。図７は、変形例１の画像処理装置の一例を説明するための図である。図８は、変形例１の対象物体の特定を説明するための図である。図９は、画像処理装置の動作の一例を説明するための図である。図１０は、画像処理装置を実現するコンピュータの一例を示すブロック図である。

以下、図面を参照して実施形態について説明する。なお、以下で説明する図面において、同一の機能又は対応する機能を有する要素には同一の符号を付し、その繰り返しの説明は省略することもある。

（実施形態）
図１を用いて、本実施形態における画像処理装置１０の構成について説明する。また、図２、図３、図４を用いて、本実施形態における画像処理装置１０の動作について説明する。

図１は、画像処理装置の一例を説明するための図である。図２は、候補領域と部分候補領域を説明するための図である。図３は、マスク画像を説明するための図である。図４は、物体領域と背景領域の分類を説明するための図である。

［装置構成］
図１に示す画像処理装置１０は、物体を精度よく分類する装置である。また、図１に示すように、画像処理装置１０は、選択部１１と、生成部１２と、抽出部１３と、分類部１４とを有する。

選択部１１は、物体検出処理により生成された、画像の対象物体に対応する対象物体領域の候補から、対象物体領域を含んでいると見做せる部分候補領域を選択する。

画像とは、撮像装置により撮像された静止画像、又は、撮像装置により連続して撮像された動画像のうちの一つのフレーム画像である。図２のＡに示すフレーム画像Ｆは、ベルトコンベアなどに載せられた製品が、図２のＡに示した矢印（移動方向）に移動しているときに撮像された画像である。

物体とは、いわゆる前景物体などのことである。物体は、上述した製品（対象物体：既知物体）、及び、異物（製品以外の物体：対象物体以外の物体：未知物体）などである。図２の例では、フレーム画像Ｆの物体に対応する物体領域をＴ１からＴ６として表している。また、図２の例では、物体領域のうち、製品に対応する領域を、対象物体領域Ｔ２、Ｔ４、Ｔ５、Ｔ６と表し、異物に対応する領域を、領域Ｔ１、Ｔ３（網掛け範囲）と表している。

なお、以降において、領域の位置は、例えば、フレーム画像の画素の位置（座標）を用いて表されるものとする。ただし、領域の位置は、上述した画素以外を用いて表してもよい。

候補領域とは、例えば、パターンマッチングや機械学習により学習された物体検出モデルなどを用いた物体検出処理により生成された、対象物体領域の候補となる領域である。

物体検出モデルは、例えば、ＳＳＤ（Single Shot Multibox Detector）、ＹＯＬＯ（You Only Look Once）、Ｆａｓｔｅｒ－ＲＣＮＮ（Regions with Convolutional Neural Networks）などのモデルである。

物体検出モデルは、異物が撮像されていない、製品が撮像された訓練用画像を用いて学習したモデルであるが、異物の物体領域を含む領域も検出するので、物体検出モデルから出力された候補領域には、既知物体に対応する領域、又は未知物体に対応する領域、又は両方が含まれる。図２の例では、図２のＢに示した領域ＣＲ１からＣＲ１０（破線範囲）が候補領域に相当する。

部分候補領域の選択は、例えば、訓練用画像を用いて学習させた物体検出モデルに、フレーム画像を入力して、フレーム画像の対象物体に対応する対象物体領域の候補となる候補領域と、候補領域が対象物体領域を含んでいる度合を表す信頼スコア（第一の信頼指標）とを生成し、信頼スコアに基づいて、候補領域の中から対象物体領域を含んでいると見做せる部分候補領域を選択する。なお、選択手法は信頼スコアに限らず、他の手法であってもよい。また候補領域を全て選択してもよい。

信頼スコアとは、例えば、物体検出モデルにより生成された、候補領域が対象物体領域を含んでいる度合を表す信頼度（スコア）などである。上述したように、物体検出モデルは、異物が撮像されていない、製品に対応する対象物体領域が撮像された訓練用画像を用いて学習させているので、対象物体領域を多く含む候補領域ほど信頼スコアの表す信頼度は高くなる。

部分候補領域は、例えば、いわゆるバウンディングボックスなどである。複数の候補領域のうち、候補領域に関連する信頼スコアが良いものから順に選択した候補領域である。また、図２の例では、物体検出モデルは、信頼スコアが高いほど低いスコアを出力するので、あらかじめ設定された閾値に基づいて、スコアが閾値より低い候補領域が選択される。そして、選択された候補領域が部分候補領域に設定される。図２の例では、図２のＣに示した領域ＢＲ１からＢＲ７（太線範囲）が部分候補領域に相当する。

なお、図２の例では、便宜上、候補領域を１０個として、部分候補領域を７個としているが、候補領域と部分候補領域の数は、上述した数に限定されるものではない。

生成部１２は、物体に対応する物体領域と物体領域以外の背景領域とを分離する背景分離モデルに、画像を入力して、画像を物体領域と背景領域と分離したマスク画像を生成する。

背景分離モデルは、例えば、ＧＭＭ（混合ガウスモデル：Gaussian Mixture Model）などを用いたモデルである。背景分離モデルは、例えば、フレーム画像の画素（座標）ごとに物体であることを表す指標を出力する。

マスク画像は、例えば、フレーム画像の画素ごとに出力された指標と、あらかじめ設定された閾値とを比較し、比較結果に基づいて、画素に「１」（白色に相当する値）又は「０」（黒色に相当する値）を対応付ける。すなわち、フレーム画像を二値化する。

図３の例では、背景分離モデルは、図３のＡに示すようなフレーム画像Ｆが入力されると、図３のＢに示すようなマスク画像ＣＦが生成される。図３のＢに示すマスク画像ＣＦは、物体領域ＣＴ１からＣＴ６（白色範囲）と背景領域ＣＢ（黒色範囲）とを有する。

抽出部１３は、マスク画像から部分候補領域に対応する部分マスク領域を抽出する。具体的には、抽出部１３は、図３のＢに示したマスク画像ＣＦから、図２のＣに示した部分候補領域ＢＲ１からＢＲ７に対応する領域を抽出する。すなわち、抽出部１３は、図４に示す部分マスク領域ＣＢＲ１からＣＢＲ７を抽出する。

分類部１４は、抽出された部分マスク領域の物体領域と背景領域との占有状態に応じて、部分候補領域を物体（前景物体）又は背景に分類する。例えば、分類部１４は、背景領域（黒色）の面積（画素数）と物体領域（白色）の面積（画素数）とを比較し、部分マスク候補領域を占有している面積が大きい方の領域に、部分候補領域を分類する。

図４の部分マスク領域ＣＢＲ４の場合であれば、分類部１４は、背景領域の面積が物体領域の面積より大きいので、部分マスク領域ＣＢＲ４に対応する部分候補領域ＢＲ４を背景に分類する。対して、図４の部分マスク領域ＣＢＲ５の場合、分類部１４は、物体領域（白色）の面積が背景領域（黒色）の面積より大きいので、部分マスク領域ＣＢＲ５に対応する部分候補領域ＢＲ５を前景物体と分類する。ただし、この時点では、前景物体が、製品か異物かはまだ特定されていない。

実施形態によれば、背景分離モデルを用いることで、対象物体（製品）と対象物体以外の物体（異物）とを含む前景物体に対応する物体領域と、背景に対応する背景領域とを精度よく分類できる。

また、製品が接触している場合、例えば、図３の物体領域ＣＴ３と物体領域ＣＴ５とが接触しているような場合、生成部１２が生成したマスク画像を用いても、物体領域ＣＴ３と物体領域ＣＴ５とを分離できない。すなわち、物体領域ＣＴ３と物体領域ＣＴ５を一つの物体と認識してしまう。しかし、本実施形態によれば、マスク画像ＣＦに部分候補領域を適用することで、物体領域ＣＴ３と物体領域ＣＴ５とを分離できる。

さらに、選択部１１と生成部１２の処理を並行して実行することにより、画像処理装置１０の処理速度を向上させることができる。

［システム構成］
続いて、図５を用いて、本実施形態における画像処理装置１０の構成をより具体的に説明する。図５は、画像処理装置を有するシステムの一例を説明するための図である。

図５に示すシステムは、画像処理装置１０と、撮像装置２０と、出力装置３０とを有する。また、システムは、物体検出モデルを記憶する記憶装置４０、背景分離モデルを記憶する記憶装置５０、生成モデルを記憶する記憶装置６０を有する。なお、記憶装置４０、５０、６０は、画像処理装置１０内に設けてもよい。

画像処理装置１０は、例えば、ＣＰＵ（Central Processing Unit）、又はＦＰＧＡ（Field-Programmable Gate Array）、又はそれら両方を搭載したサーバコンピュータ、パーソナルコンピュータ、モバイル端末などの情報処理装置である。

画像処理装置１０は、取得部１５と、選択部１１と、生成部１２と、抽出部１３と、除去部１６と、分類部１４と、特定部１７と、出力情報生成部１８とを有する。

撮像装置２０は、あらかじめ設定された撮像領域を撮像し、撮像領域に対応するフレーム画像を、画像処理装置１０へ転送する装置である。撮像装置２０は、例えば、カメラ、赤外線カメラ、超音波カメラ、Ｘ線カメラなどの撮像装置である。

出力装置３０は、少なくとも、フレーム画像、候補領域、信頼スコア、部分候補領域、マスク画像、部分マスク領域、分類結果、製品や異物に対応する物体領域にマーキングをした画像のうち、いずれか一つ以上を組み合わせて、出力装置３０が有するモニタに出力する。画像情報については後述する。

出力装置のモニタは、例えば、液晶、有機ＥＬ（Electro Luminescence）、ＣＲＴ（Cathode Ray Tube）を用いた画像表示装置などである。さらに、画像表示装置は、スピーカなどの音声出力装置などを備えていてもよい。なお、出力装置３０は、プリンタなどの印刷装置でもよい。

画像処理装置について説明する。
取得部１５は、撮像装置２０が連続して撮像したフレーム画像を取得する。具体的には、取得部１５は、まず、図２、図３に示すフレーム画像Ｆを撮像装置２０から取得する。その後、取得部１５は、選択部１１と生成部１２とに、フレーム画像を転送する。

選択部１１は、まず、取得部１５からフレーム画像を取得し、取得したフレーム画像を物体検出モデルに入力して、対象物体領域の候補となる候補領域と、候補領域に対応する信頼スコアとを出力する。次に、選択部１１は、信頼スコアに基づいて、候補領域の中から部分候補領域を選択する（図２のＣを参照）。

その後、選択部１１は、部分候補領域を識別する識別情報と、部分候補領域のフレーム画像における位置（座標）を表す位置情報とを関連付けて記憶部に記憶する。図４の例では、部分候補領域ＢＲ１からＢＲ７は対象物体領域を含んでいると見做したので、部分候補領域ＢＲ１からＢＲ７それぞれを識別する識別情報に位置情報を関連付けて記憶する。

生成部１２は、まず、取得部１５からフレーム画像を取得し、取得したフレーム画像を物体に対応する物体領域と物体領域以外の背景領域とを分離する背景分離モデルに入力して、フレーム画像の画素ごとに、物体であることを表す指標を出力する。次に、生成部１２は、画素ごとに出力された指標と、あらかじめ設定された閾値とを比較する。その後、生成部１２は、比較結果に基づいて、物体領域と背景領域とを分離し、マスク画像を生成する（図３のＢを参照）。

抽出部１３は、まず、選択部１１から部分候補領域に関するデータと、生成部１２からマスク画像に関するデータとを取得する。次に、抽出部１３は、部分候補領域に関するデータの位置座標に基づいて、マスク画像から、マスク画像において部分候補領域の位置座標に対応する領域（部分マスク領域）を抽出する（図４を参照）。

除去部１６は、部分マスク領域内に複数の物体領域（ノイズ成分）がある場合、物体領域それぞれの面積（画素数）を算出し、算出した面積が最大の物体領域以外の物体領域をノイズとして除去する。

分類部１４は、まず、抽出部１３又は除去部１６から部分マスク領域を取得する。次に、分類部１４は、取得した部分マスク領域の物体領域の面積と背景領域の面積を用いて、部分マスク領域における物体領域と背景領域の占有割合を算出する。次に、分類部１４は、算出結果に基づいて、部分候補領域を物体又は背景に分類する（図４を参照）。

その後、分類部１４は、部分マスク領域に対応する部分候補領域と、分類を表す分類情報とを関連付けて記憶部に記憶する。図４の例では、部分候補領域ＢＲ１からＢＲ３、ＢＲ５からＢＲ７は物体領域と見做したので、部分候補領域ＢＲ１からＢＲ３、ＢＲ５からＢＲ７それぞれを識別する識別情報に分類情報を関連付けて記憶する。

特定部１７は、物体に分類された部分候補領域の中から、対象物体（製品）、又は対象物体以外の物体（異物）、又は両方に対応する部分候補領域を特定する。

具体的には、特定部１７は、まず、物体に分類された部分候補領域を取得する。次に、特定部１７は、物体に分類された部分候補領域それぞれに対して、二次モーメントにより対象物体領域の中心と角度を正規化する。例えば、製品の向きを画像上で揃えるような処理をする。正規化が必要ない製品の場合には、正規化をしなくてもよい。

具体的には、正規化とは、バウンディングボックス内の物体の重心と慣性主軸の角度を求め、バウンディングボックスの中心の角度が上記と一致するようにバウンディングボックスに回転・平行移動を行った後に切り出す処理である。

次に、特定部１７は、対象物体に対応する物体領域を含む訓練用画像を用いて学習させた生成モデルに、物体に分類された部分候補領域を入力して、対象物体、又は対象物体以外の物体、又は両方の再構築画像を生成する。

生成モデルとは、例えば、ＧＡＮ（敵対的生成ネットワーク：Generative Adversarial Networks）などのモデルである。

生成モデルがＧＡＮの場合、学習フェーズにおいて、まず、フレーム画像から製品に対応する対象物体領域を切り出し、切り出した対象物体領域の画像を、記憶装置６０に記憶する。

次に、切り出した対象物体領域に対して、上述した二次モーメントにより対象物体領域の中心と角度を正規化する。ただし、正規化が必要ない製品の場合には、正規化をしなくてもよい。そして、正規化した対象物体領域を訓練用画像とする。次に、訓練用画像に対する汎化誤差が一定以下になるまでＧＡＮの学習を実行する。

再構築画像は、例えば、ＧＡＮやＡｕｔｏＥｎｃｏｄｅｒなどの画像生成モデルから出力される画像である。具体的には、入力画像を一度、潜在空間に写像して次元削減した後、元のデータ空間に写像し直すことで得られる。

図６は、対象物体の特定を説明するための図である。図６の例では、特定部１７は、ＧＡＮの学習済みの生成モデルに、部分候補領域ＢＲ１からＢＲ３、ＢＲ５からＢＲ７を入力して、部分候補領域それぞれについて再構築画像を生成する。なお、図６の例では、正規化が必要ないので正規化の処理を実行しない。

次に、特定部１７は、物体に分類された部分候補領域で切り出した画像と、生成された再構築画像との距離を表す異常スコア（第二の信頼指標）を生成する。距離は、例えば、ＳＳＤ（Sum of Squared Differences）やＳＡＤ（Sum of Absolute Differences）などの方法を用いて算出する。

具体的には、特定部１７は、部分候補領域ＢＲ１からＢＲ３、ＢＲ５からＢＲ７それぞれについて、部分候補領域と、部分候補領域に対応する再構築画像との潜在空間上での距離を算出する。その後、特定部１７は、算出した距離に基づいて異常スコアを生成する。

生成モデルは、対象物体以外の物体（異物）に対応する画像を用いて学習をしていないので、異物に対応する部分候補領域ＢＲ３、ＢＲ５に対しては、再構築画像を正しく再構築できない。その結果、対象物体に対応する部分候補領域ＢＲ１、ＢＲ２、ＢＲ６、ＢＲ７それぞれについては、部分候補領域と部分候補領域に対応する再構築画像との距離は小さくなるが、部分候補領域ＢＲ３、ＢＲ５それぞれについては、部分候補領域と部分候補領域に対応する再構築画像との距離が大きくなる。

次に、特定部１７は、異常スコアに基づいて、対象物体以外の物体に対応する識別部分候補領域を特定する。上述した異常スコアとして距離を用いた場合、特定部１７は、距離があらかじめ設定した閾値より小さいとき、部分候補領域の物体を対象物体と特定する。また、特定部１７は、距離が閾値以上のとき、部分候補領域の物体を対象物体と特定する。

図６の例では、部分候補領域ＢＲ１、ＢＲ２、ＢＲ６、ＢＲ７の物体を対象物体（製品）と特定し、部分候補領域ＢＲ３、ＢＲ５の物体を対象物体以外の物体（異物）と特定する。

出力情報生成部１８は、少なくとも、フレーム画像、候補領域、信頼スコア、部分候補領域、マスク画像、識別部分候補領域、分類結果、製品や異物に対応する物体領域にマーキングをした画像などのうち、いずれか一つ以上を組み合わせて、出力装置３０に出力可能な形式に変換した出力情報を生成する。

（変形例１）
上述したように生成モデルを用いて、製品、又は異物、又は両方を特定する場合、生成モデルを学習しなければならない。ところが、ＧＡＮなどの生成モデルの学習には、高性能なコンピュータを用いても数日を要するため、学習フェーズに要する期間が長くなる。

そこで、変形例１においては、学習フェーズの期間を短縮するために、物体検出モデルの出力結果を利用して、製品、又は異物、又は両方を特定できるようにする。その結果、生成モデルが不要になるので、画像処理装置１０の構成を単純化されるとともに、生成モデルを記憶する記憶装置を削減できる。

図７、図８を用いて変形例１について説明する。図７は、変形例１の画像処理装置の一例を説明するための図である。図８は、変形例１の対象物体の特定を説明するための図である。

変形例１では、図７に示す特定部１７－２を用いて、信頼スコアに基づいて、対象物体、又は対象物体以外の物体、又は両方に対応する部分候補領域を特定する。

特定部１７－２は、まず、分類部１４から、物体（背景以外）に分類された部分候補領域と、物体に分類された部分候補領域に対応する信頼スコアとを取得する。図８の例では、既に物体と分類された部分候補領域ＢＲ１からＢＲ３、ＢＲ５からＢＲ７と、これらの部分候補領域に対応する信頼スコアを取得する。

次に、特定部１７－２は、信頼指標を正規化する。例えば、ロジスティック関数などを用いて０から１の区間に正規化する。ただし、信頼スコアが既に０から１の区間の値の場合には、正規化はしなくてもよい。

次に、特定部１７－２は、物体に分類された部分候補領域それぞれの信頼スコアと、あらかじめ設定された閾値とを比較し、比較結果に基づいて、物体に分類された部分候補領域を対象物体、又は対象物体以外の物体、又は両方を特定する。

図８の例では、信頼スコアが低い場合、部分候補領域は対象物体領域を含んでいる可能性が高いので、信頼スコアが低いほど製品である可能性が高くなる。対して、信頼スコアが高い場合、部分候補領域は対象物体以外の物体に対応する物体領域を含んでいる可能性が高いので、信頼スコアが高いほど異物である可能性が高くなる。

図８の例では、部分候補領域ＢＲ１、ＢＲ２、ＢＲ６、ＢＲ７の物体を対象物体（製品）と特定し、部分候補領域ＢＲ３、ＢＲ５の物体を対象物体以外の物体（異物）と特定する。

［装置動作］
次に、本発明の実施形態における画像処理装置の動作について図９を用いて説明する。図９は、画像処理装置の動作の一例を説明するための図である。以下の説明においては、適宜図面を参照する。また、本実施形態では、画像処理装置を動作させることによって、画像処理方法が実施される。よって、本実施形態における画像処理方法の説明は、以下の画像処理装置の動作説明に代える。

図９に示すように、最初に、取得部１５は、撮像装置２０が連続して撮像した画像を取得する（ステップＡ１）。具体的には、ステップＡ１において、取得部１５は、まず、図２、図３に示すフレーム画像Ｆを撮像装置２０から取得する。その後、ステップＡ１において、取得部１５は、選択部１１と生成部１２とに、フレーム画像を転送する。

次に、選択部１１は、フレーム画像を物体検出モデルに入力して、フレーム画像の対象物体に対応する対象物体領域の候補となる候補領域と、候補領域が対象物体領域を含んでいる度合を表す信頼スコアとを生成し、信頼スコアに基づいて、候補領域の中から対象物体領域を含んでいると見做せる部分候補領域を選択する（ステップＡ２）。

具体的には、ステップＡ２において、選択部１１は、まず、取得部１５からフレーム画像を取得する。次に、ステップＡ２において、選択部１１は、取得したフレーム画像を物体検出モデルに入力して、対象物体領域の候補となる候補領域と、候補領域に対応する信頼スコアとを出力する。次に、ステップＡ２において、選択部１１は、信頼スコアに基づいて、候補領域の中から部分候補領域を選択する（図２のＣを参照）。

その後、ステップＡ２において、選択部１１は、部分候補領域を識別する識別情報と、部分候補領域のフレーム画像における位置（座標）を表す位置情報とを関連付けて記憶部に記憶する。図４の例では、部分候補領域ＢＲ１からＢＲ７は対象物体領域を含んでいると見做したので、部分候補領域ＢＲ１からＢＲ７それぞれを識別する識別情報に位置情報を関連付けて記憶する。

次に、生成部１２は、物体に対応する物体領域と物体領域以外の背景領域とを識別する背景分離モデルに、フレーム画像を入力して、フレーム画像を物体領域と背景領域と分離したマスク画像を生成する（ステップＡ３）。

具体的には、ステップＡ３において、生成部１２は、まず、取得部１５からフレーム画像を取得する。次に、ステップＡ３において、生成部１２は、取得したフレーム画像を物体に対応する物体領域と物体領域以外の背景領域とを識別する背景分離モデルに入力して、フレーム画像の画素ごとに、物体であることを表す指標を出力する。次に、ステップＡ３において、生成部１２は、画素ごとに出力された指標と、あらかじめ設定された閾値とを比較する。その後、ステップＡ３において、生成部１２は、比較結果に基づいて、物体領域と背景領域とを分離し、マスク画像を生成する（図３のＢを参照）。

なお、ステップＡ２とステップＡ３の処理はどちらを先に実行してもよい。又は、ステップＡ２とステップＡ３の処理は並行して実行してもよい。

抽出部１３は、マスク画像から部分候補領域に対応する識別部分候補領域を抽出する（ステップＡ４）。具体的には、ステップＡ４において、抽出部１３は、まず、選択部１１から部分候補領域に関するデータと、生成部１２からマスク画像に関するデータとを取得する。

次に、ステップＡ４において、抽出部１３は、部分候補領域に関するデータの位置座標に基づいて、マスク画像から、マスク画像において部分候補領域の位置座標に対応する領域（識別部分候補領域）を抽出する（図４を参照）。

次に、除去部１６は、識別部分候補領域内に複数の物体領域（ノイズ成分）がある場合、物体領域それぞれの面積（画素数）を算出し、算出した面積が最大の物体領域以外の物体領域をノイズとして除去する（ステップＡ５）。

次に、分類部１４は、抽出された識別部分候補領域の物体領域と背景領域との占有状態に応じて、部分候補領域を物体又は背景に分類する（ステップＡ６）。具体的には、ステップＡ６において、分類部１４は、抽出部１３又は除去部１６から識別部分候補領域を取得する。

次に、ステップＡ６において、分類部１４は、取得した識別部分候補領域の物体領域の面積と背景領域の面積を用いて、識別部分候補領域における物体領域と背景領域の占有割合を算出する。次に、ステップＡ６において、分類部１４は、算出結果に基づいて、部分候補領域を物体又は背景に分類する（図４を参照）。

その後、ステップＡ６において、分類部１４は、識別部分候補領域に対応する部分候補領域と、分類を表す分類情報とを関連付けて記憶部に記憶する。図４の例では、部分候補領域ＢＲ１からＢＲ３、ＢＲ５からＢＲ７は物体領域と見做したので、部分候補領域ＢＲ１からＢＲ３、ＢＲ５からＢＲ７それぞれを識別する識別情報に分類情報を関連付けて記憶する。

次に、特定部１７は、物体に分類された部分候補領域の中から、対象物体（製品）、又は対象物体以外の物体（異物）、又は両方に対応する部分候補領域を特定する（ステップＡ７）。

具体的には、ステップＡ７において、特定部１７は、まず、物体に分類された部分候補領域を取得する。次に、ステップＡ７において、特定部１７は、物体に分類された部分候補領域それぞれに対して正規化をする。正規化が必要ない場合には、正規化をしなくてもよい。

次に、ステップＡ７において、特定部１７は、正規化した物体に分類された部分候補領域を、対象物体に対応する物体領域のみを含む訓練用画像を用いて学習させたＧＡＮなどの生成モデルに入力して、対象物体、又は対象物体以外の物体、又は両方の再構築画像を生成する。

次に、ステップＡ７において、特定部１７は、物体に分類された部分候補領域と、生成された再構築画像との距離を表す異常スコアを生成する。具体的には、特定部１７は、部分候補領域ＢＲ１からＢＲ３、ＢＲ５からＢＲ７それぞれについて、部分候補領域と、部分候補領域に対応する再構築画像との潜在空間上での距離を算出する。

その後、ステップＡ７において、特定部１７は、算出した距離に基づいて異常スコアを生成する。次に、ステップＡ７において、特定部１７は、異常スコアに基づいて、対象物体以外の物体に対応する識別部分候補領域を特定する。

次に、出力情報生成部１８は、少なくとも、フレーム画像、候補領域、信頼スコア、部分候補領域、マスク画像、識別部分候補領域、分類結果、製品や異物に対応する物体領域にマーキングをした画像などのうち、いずれか一つ以上を組み合わせて、出力装置３０で出力可能な形式に変換した出力情報を生成する（ステップＡ８）。このように、ステップＡ１からステップＡ８の処理を繰り返し実行する。

なお、ステップＡ７の処理に、上述した変形例１の処理に代えてもよい。その場合、ステップＡ７において、特定部１７－２は、まず、分類部１４から、物体（背景以外）に分類された部分候補領域と、物体に分類された部分候補領域に対応する信頼スコアとを取得する。

次に、ステップＡ７において、特定部１７－２は、信頼スコアを正規化する。例えば、ロジスティック関数などを用いて０から１の区間に正規化する。ただし、既に信頼スコアが０から１の区間の値の場合には、正規化はしなくてもよい。

次に、ステップＡ７において、特定部１７－２は、物体に分類された部分候補領域それぞれの信頼スコアと、あらかじめ設定した閾値とを比較し、比較結果に基づいて、物体に分類された部分候補領域を対象物体、又は対象物体以外の物体、又は両方を特定する。

［本実施形態の効果］
以上のように本実施形態によれば、物体検出モデルと背景分離モデルとを用いることで、対象物体（製品：既知物体）と対象物体以外の物体（異物：未知物体）とを含む物体に対応する物体領域と、背景に対応する背景領域とを精度よく分類できる。その結果、既存の物体検出方法と比較して、未知の物体（訓練画像中にない物体など）が、精度よく検出できる。

また、製品が接触している場合、例えば、図３の物体領域ＣＴ３と物体領域ＣＴ５とが接触しているような場合、生成部１２が生成したマスク画像を用いても、物体領域ＣＴ３と物体領域ＣＴ５とを分離できない。すなわち、物体領域ＣＴ３と物体領域ＣＴ５を一つの物体と認識してしまう。

しかし、本実施形態によれば、マスク画像と、選択部１１が生成した部分候補領域と併用することで、物体領域ＣＴ３と物体領域ＣＴ５とを分離して識別できる。

［プログラム］
本発明の実施形態におけるプログラムは、コンピュータに、図９に示すステップＡ１からＡ８を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、本実施形態における画像処理装置と画像処理方法とを実現することができる。この場合、コンピュータのプロセッサは、取得部１５、選択部１１、生成部１２、抽出部１３、除去部１６、分類部１４、特定部１７、出力情報生成部１８として機能し、処理を行なう。

また、本実施形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、取得部１５、選択部１１、生成部１２、抽出部１３、除去部１６、分類部１４、特定部１７、出力情報生成部１８のいずれかとして機能してもよい。

［物理構成］
ここで、実施形態、変形例１におけるプログラムを実行することによって、画像処理装置を実現するコンピュータについて図１０を用いて説明する。図１０は、画像処理装置を実現するコンピュータの一例を示すブロック図である。

図１０に示すように、コンピュータ１１０は、ＣＰＵ（Central Processing Unit）１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。なお、コンピュータ１１０は、ＣＰＵ１１１に加えて、又はＣＰＵ１１１に代えて、ＧＰＵ（Graphics Processing Unit）、又はＦＰＧＡ（Field-Programmable Gate Array）を備えていてもよい。

ＣＰＵ１１１は、記憶装置１１３に格納された、本実施形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）などの揮発性の記憶装置である。また、本実施形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであってもよい。なお、記録媒体１２０は、不揮発性記録媒体である。

また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリなどの半導体記憶装置があげられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）などの汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）などの磁気記録媒体、又はＣＤ－ＲＯＭ（Compact Disk Read Only Memory）などの光学記録媒体があげられる。

なお、本実施形態における画像処理装置１０は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。さらに、画像処理装置１０は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

以上のように本発明によれば、物体を精度よく分類することができる。本発明は、画像の対象物体領域を検出する画像処理が必要な分野において有用である。

１０画像処理装置
１１選択部
１２生成部
１３抽出部
１４分類部
１５取得部
１６除去部
１７、１７－２特定部
１８出力情報生成部
２０撮像装置
３０出力装置
４０、５０、６０記憶装置
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス

Claims

物体検出処理により生成された、画像の対象物体に対応する対象物体領域の候補となる候補領域から、前記対象物体領域を含んでいると見做せる部分候補領域を選択する、選択手段と、
物体に対応する物体領域と前記物体領域以外の背景領域とを分離する背景分離モデルに、前記画像を入力して、前記画像を前記物体領域と前記背景領域とに分離したマスク画像を生成する、生成手段と、
前記マスク画像から前記部分候補領域に対応する部分マスク領域を抽出する、抽出手段と、
抽出された前記部分マスク領域の前記物体領域と前記背景領域との占有状態に応じて、前記部分候補領域を物体又は背景に分類する、分類手段と、
を有する画像処理装置。
請求項１に記載の画像処理装置であって、
物体に分類された前記部分候補領域の中から、前記対象物体又は、前記対象物体以外の物体、又は両方に対応する部分候補領域を特定する、特定手段
を有する画像処理装置。
請求項２に記載の画像処理装置であって、
前記特定手段は、前記物体検出処理により生成された第一の信頼指標に基づいて、前記対象物体、又は前記対象物体以外の物体、又は両方に対応する前記部分候補領域を特定する
画像処理装置。
請求項２に記載の画像処理装置であって、
前記特定手段は、
前記対象物体に対応する物体領域を含む訓練用画像を用いて学習させた生成モデルに、前記物体に分類された前記部分候補領域を入力して、前記対象物体、又は前記対象物体以外の物体、又は両方の再構築画像を生成し、
前記物体に分類された前記部分候補領域と、生成された前記再構築画像との距離を表す第二の信頼指標を生成し、
前記第二の信頼指標に基づいて、前記対象物体、又は前記対象物体以外の物体、又は両方に対応する前記部分候補領域を特定する
画像処理装置。
物体検出処理により生成された、画像の対象物体に対応する対象物体領域の候補となる候補領域から、前記対象物体領域を含んでいると見做せる部分候補領域を選択し、
物体に対応する物体領域と前記物体領域以外の背景領域とを分離する背景分離モデルに、前記画像を入力して、前記画像を前記物体領域と前記背景領域とに分離したマスク画像を生成し、
前記マスク画像から前記部分候補領域に対応する部分マスク領域を抽出し、
抽出された前記部分マスク領域の前記物体領域と前記背景領域との占有状態に応じて、前記部分候補領域を物体又は背景に分類する
画像処理方法。
請求項５に記載の画像処理方法であって、
物体に分類された前記部分候補領域の中から、前記対象物体又は、前記対象物体以外の物体、又は両方に対応する部分候補領域を特定する
画像処理方法。
コンピュータに、
物体検出処理により生成された、画像の対象物体に対応する対象物体領域の候補となる候補領域から、前記対象物体領域を含んでいると見做せる部分候補領域を選択し、
物体に対応する物体領域と前記物体領域以外の背景領域とを分離する背景分離モデルに、前記画像を入力して、前記画像を前記物体領域と前記背景領域とに分離したマスク画像を生成し、
前記マスク画像から前記部分候補領域に対応する部分マスク領域を抽出し、
抽出された前記部分マスク領域の前記物体領域と前記背景領域との占有状態に応じて、前記部分候補領域を物体又は背景に分類する
処理を実行させる命令を含むプログラム。
請求項７に記載のプログラムであって、
前記コンピュータに、
物体に分類された前記部分候補領域の中から、前記対象物体又は、前記対象物体以外の物体、又は両方に対応する部分候補領域を特定する
処理を実行させる命令を含むプログラム。