JP2021174182A

JP2021174182A - 画素レベル対象物検出システムおよびそのプログラム

Info

Publication number: JP2021174182A
Application number: JP2020076486A
Authority: JP
Inventors: 祐貴井上; Suketaka Inoue; 洋登永吉; Hirotaka Nagayoshi; 真人仲村柄; Masato Nakamura
Original assignee: Hitachi Systems Ltd
Current assignee: Hitachi Systems Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2021-11-01
Also published as: US11995835B2; SG10202103778XA; PH12021050171A1; US20210334981A1

Abstract

【課題】画素レベルの対象物検出手法に関して、学習データ作成時に詳細情報の付与を行わなくても、推論精度の低下を抑えることができる技術を提供する。【解決手段】画素レベルで対象物の検出を行う画素レベル対象物検出システムであって、検出対象を写した画像である推論用画像を収集する撮影部１と、前記推論用画像から、検出対象を含む領域を検出する領域検出部８と、前記推論用画像から、局所的情報のみを用い検出対象を検出する詳細検出部２と、前記領域検出部の出力と、前記詳細検出部の出力とを統合して、画像内のいずれの画素が検出対象物と対応するかを確率マップとして示すセグメンテーションマップを出力する結果統合処理部３と、を有する。【選択図】図１

Description

本発明は、画素レベルで対象物の検出を行う画素レベル対象物検出技術に関するものである。

近年、コンピュータビジョンを用いた画像からの物体認識が様々なサービスに適用されている。その中でも、セマンティックセグメンテーションと呼ばれる、画像を構成する各画素に対してそれがどの物体に帰属するかを認識する問題設定は、出力情報量が多いため多数の場面で用いられる。しかし、画素レベルで認識を行うためには認識器に画素レベルで正解・不正解を教示させる必要があり、学習に必要なコストが高い傾向がある。従って、認識器の精度を高く維持しながら、学習データを低工数で作成させたいというニーズが増加している。

上記に係わる先行技術例として、特開２０１９−６６２６５号公報（特許文献１）や特開２０１７−２１９３１４号公報（特許文献２）が挙げられる。どちらの特許文献においても、まずフィルタ処理などで対象画素をリストアップした後、対象画素間で空間的に隣接するものを対象領域として定義し、各対象領域ごとにそれが真の対象領域であるか判断する旨等が記載されている。

特開２０１９−６６２６５号公報特開２０１７−２１９３１４号公報

特許文献１、２では、対象候補領域ごとに真の対象領域であるかの判断を行うため、対象候補領域自体の洗練化・改善を行うことはできない。これは、対象画素と対象ではない画素が混在するような対象候補領域に対し候補領域自体を改善できないという意味である。そのため、前述特許文献のシステムでは、高精度なセマンティックセグメンテーションを行うために、対象候補領域を出力する認識器が高精度である必要があるということである。従って、前記特許文献のシステムでは学習データの数を減少することは可能であるとしても、学習データ自体の質を落とし学習データ作成のコストを低減させることは対象候補領域を出力する認識器の低精度化に繋がるため、システム全体の低精度化に直結し、課題となっている。

本発明の目的は、画素レベルの対象物検出手法に関して、学習データ作成時に詳細情報の付与を行わなくても、推論精度の低下を抑えることができる技術を提供することである。

上記課題を解決するための「画素レベル対象物検出システム」の一例を挙げるならば、
画素レベルで対象物の検出を行う画素レベル対象物検出システムであって、検出対象を写した画像である推論用画像を収集する撮影部と、前記推論用画像から、検出対象を含む領域を検出する領域検出部と、前記推論用画像から、局所的情報のみを用い検出対象を検出する詳細検出部と、前記領域検出部の出力と、前記詳細検出部の出力とを統合して、画像内のいずれの画素が検出対象物と対応するかを確率マップとして示すセグメンテーションマップを出力する結果統合処理部と、を有するものである。

本発明によれば、画素レベルの対象物検出技術に関して、学習データ作成時に詳細情報の付与を行わなくても、推論精度の低下を抑えることができる。

本発明の実施例１における画素レベル対象物検出システムの構成を示す図である。詳細検出部の構成および他部との関係を示す図である。画素完全指定型アノテーション方法の一例を示す図である。領域指定型アノテーション方法の一例を示す図である。学習データベースに蓄積されるデータ構成の一例を示す図である。結果統合処理部の構成および他部との関係を示す図である。局所検出マップの一例を示す図である。領域検出マップの一例を示す図である。セグメンテーションマップの一例を示す図である。ＧＵＩ部の構成および他部との関係を示す図である。ＧＵＩ画面の表示例を示す図である。実施例２における画素レベル対象物検出システムの構成を示す図である。実施例３のＧＵＩ部の構成および他部との関係を示す図である。実施例３におけるＧＵＩ画面の表示例を示す図である。実施例４のＧＵＩ部の構成および他部との関係を示す図である。実施例４におけるＧＵＩ画面の表示例を示す図である。実施例５における画素レベル対象物検出システムの構成を示す図である。実施例５における学習データ作成部の構成および他部との関係を示す図である。

以下、図面を参照して本発明の実施形態を説明する。以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。

以下の説明では、「テーブル」、「リスト」等の表現にて各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されていてもよい。データ構造に依存しないことを示すために「ＸＸテーブル」、「ＸＸリスト」等を「ＸＸ情報」と呼ぶことがある。識別情報について説明する際に、「識別情報」、「識別子」、「名」、「ＩＤ」、「番号」等の表現を用いるが、これらについてはお互いに置換が可能である。

実施形態を説明するための各図において、同一の構成要素には同一の名称、符号を付して、その繰り返しの説明を省略することがある。

本発明の実施例１の画素レベル対象物検出システムを図面に基づいて詳細に説明する。図１は、画素レベル対象物検出システムの全体像を示すシステム構成図である。

画素レベル対象物検出システムは、対象物を写した２Ｄ（２次元）画像（推論用画像：元画像）を収集する撮影部１と、事前に収集した２Ｄ画像群（学習用画像）において、画素が対象物に対応しているかどうかの情報（正解データ）を作成する学習データ入力部６と、作成した学習データを付随情報と共に蓄積する学習データベース（ＤＢ：Data Base）７と、蓄積された学習データと付随情報をもとに、元画像において対象物に対応する画素領域（領域検出マップ）を検出する領域検出部８と、蓄積された学習データを使わずに元画像から局所的な検出情報（局所検出マップ）を出力する詳細検出部２と、詳細検出部２の出力である局所検出マップと、領域検出部８の出力である領域検出マップを統合し、画像内のどの画素が検出対象物と対応するかを確率マップ（セグメンテーションマップ）として出力する結果統合処理部３と、出力されたセグメンテーションマップを可視化するグラフィカル・ユーザ・インターフェース（ＧＵＩ）部５と、からなる。

詳細検出部２の詳細は図２で、結果統合処理部３の詳細は図５で、ＧＵＩ部５の詳細は図７で、学習ＤＢ７の詳細は図４を用いてそれぞれ後述する。

撮影部１は、検出対象物を撮影して２Ｄ（２次元）画像である推論用画像(元画像)を出力する、例えばカメラなどである。

図２に、詳細検出部２の構成および他部との関係を示す。詳細検出部２では、撮影部１から推論用画像を入力として受け取り、局所的情報である少数画素毎、例えば１画素毎に検出対象を検出し、出力部２０から局所検出マップを出力する。検出処理を行う画素の数は、１画素に限らず、狭い領域の複数の画素毎でもよい。
詳細検出部２の局所検出マップの作成方法は２段階である。まず前段で１画素毎に、或いは少数の画素毎に既存のフィルタ処理である鮮明化フィルタ処理やヒストグラム平坦化などを行う（前処理機能２００）。そして、後段でそれぞれの画素の明度を計算する（画素明度計算機能２０１）、または、予め設定した画素からの各画素の距離、例えば色の距離を計算する（参考画素距離計算機能２０２）。そして、出力部２０より、得られた結果を局所検出マップとして出力する。

図１の学習データ入力部６は、事前に収集した２Ｄ画像群（学習用画像）を入力する学習用画像入力部６０を備え、各学習用画像を構成する画素が対象物に対応しているかどうかの情報（正解データ）を入力する正解データ入力部６１を備える。また、学習用画像と正解データのペアの集合を学習データとして出力する。

図３Ａおよび３Ｂは、正解データ入力部６１の出力例を示している。図３Ａの画素完全指定型アノテーション例５００１では、真に対象物体に対応する画素が過不足なくアノテーションされている。これに対し、図３Ｂの領域指定型アノテーション例５００２では、対象物体に対応しない画素もアノテーションされている。ここで、アノテーションとは、一般に、元画像から教師データを作成することをいう。従来の構成では学習データに詳細情報を含める必要があったため、画素完全指定型アノテーション５００１のように過不足なくアノテーションを行わなければならなかったが、本発明の構成においては学習データを使用しない詳細検出部２により詳細情報を策定するため、詳細情報を含めない領域指定型アノテーション５００２のような正解データでも高精度に対象物を検出することが可能となる。したがって、本発明では完全指定型アノテーション５００１、領域指定型アノテーション５００２のどちらの手法でアノテーションされた正解データを入力として用いても良い。

図１の領域検出部８では、撮影部１からの推論用画像を入力し、推論用画像に含まれる各画素が対象物に対応する確率を出力し、推論確率と画素値が比例する画像（領域検出マップ）を作成する。そして、領域検出部８は、領域検出マップを出力とする。領域検出部８では、詳細検出部２で検出処理する画素数よりも多い、広い領域の画素を基に検出対象を含む領域の検出処理を行ってもよい。

領域検出マップを作成する際に判断材料として用いるデータは、学習ＤＢ７に蓄積された学習データである。学習ＤＢ７の詳細については図４を用いて後述する。学習ＤＢ７の参照方法は領域検出部８の形態に依存し、例えば領域検出部８が機械学習モデル等のモデルパラメータ（出力計算時に用いられる値群）を使用するものであれば事前に学習データを用いてパラメータ調整を行っても良い。また、例えば領域検出部８が最近傍法等モデルパラメータを保持せず、推論時に学習データを参照するものであれば推論時に適宜学習ＤＢ７を参照しても良い。

領域検出部８は、学習部８１と推論部８０から構成されており、学習部８１は、学習ＤＢ７に蓄積された学習データを用いて機械学習等を行う。そして、推論部８０は、学習結果を用いて、撮影部から入力した推論用画像から領域検出マップを推論する。

図４に、学習ＤＢ７に蓄積されるデータ構成の一例を示す。学習ＤＢ７に蓄積されるデータは、学習データ入力部６から提供される情報から構成されており、画像ＩＤ、検出対象物を示す対象物ＩＤ、学習用画像、画像サイズ、カメラ画角、対象物距離などのデータが含まれる。それらの情報に加え、学習データ入力部６が出力する、各画素が対象物に対応しているかを示した画像である正解データも蓄積する。さらに、実施例５の場合は、後述する学習データ作成部１１が出力した詳細化済み正解データなどのデータも蓄積する。

図５に、結果統合処理部３の構成および他部との関係を示す。結果統合処理部３では、詳細検出部２から局所検出マップを、また領域検出部８から領域検出マップを入力として受け取る。そして、これらの入力を統合して、出力部３０からセグメンテーションマップを出力する。

本発明における結果統合処理部３のセグメンテーションマップ作成方法とは、次の何れかの方法である。
１．後述するＧＵＩ部５の重み付き合成割合設定機能５０６等により設定された０以上１以下の重み数値に基づき局所検出マップと領域検出マップを重み付き合成する重み付き統合機能３００。ここにおける重み付き合成とは、局所検出マップの画素値に重み数値を乗算し、領域検出マップの画素値に（１−重み数値）を乗算し、２つの結果を加算することである。
２．局所検出マップ、領域検出マップどちらかまたは両方に対し設定した閾値を用いて閾値処理を行い、結果をマスク処理を用い統合するマスク統合機能３０１。

図６Ａ〜６Ｃは、局所検出マップ、領域検出マップ、セグメンテーションマップの一例を示す図である。図６Ｃのセグメンテーションマップ例５０１３は、図６Ａの局所検出マップ例５０１１と図６Ｂの領域検出マップ例５０１２を構成する画素の内、どちらのマップ内でも検出物確率が高い画素を出力している。ただし、図中のマップは簡単のため二値化されているが、実際には確率値であり実数値である。また、図中のマップは二値化された入力に対しマスク処理を行う場合を図示しているが、前述した通り実際の結果統合処理部３の処理はマスク処理に限らない。
図６Ａの局所検出マップでは、少数画素毎、例えば１画素毎に検出対象の検出処理を行っているため、ノイズなどにより検出対象物以外の画素も検出している。図６Ｂの領域検出マップでは、詳細検出部２で検出処理する画素数よりも多い、広い領域の画素を基に対象物の検出処理を行っているため、検出対象物を含む広い領域を検出するとともに、小領域のノイズなどは検出されない。図６Ｃのセグメンテーションマップでは、図６Ａの局所検出マップと図６Ｂの領域検出マップを合わせることにより、検出対象物のみを検出することができる。

図７に、ＧＵＩ部５の構成および他部との関係を示す。ＧＵＩ部５では、撮影部１から出力される推論用画像に加え、結果統合処理部３から出力されるセグメンテーションマップを入力として受け取る。ＧＵＩ部５はＧＵＩ(Graphical User Interface)の形式をとり、ＧＵＩを操作する者（ユーザ）が効率的に検出結果を閲覧できるために、次に述べる機能を備える。
(1)入力したセグメンテーションマップを編集するセグメンテーションマップ編集機能５００。
(2)セグメンテーションマップにより定義される、各画素が対象物と対応している確率を多階調画像として表示するセグメンテーションマップ多階調表示機能５０１。
(3)ユーザがセグメンテーションマップ閾値設定機能５０７から指定する閾値により、セグメンテーションマップを閾値処理する閾値処理機能５０８。
(4)元画像のＲＧＢ情報、またはセグメンテーションマップで定義される確率情報をもとに、類似する画素を一括に選択することを可能とする類似領域選択機能５０２。
(5)ユーザの操作により表示画像の一部領域を拡大表示するズーム機能５０３。
(6)領域検出部８の処理フローを変更するための領域検出部種類選択機能５０４。
(7)詳細検出部２の処理フローを変更するための詳細検出部種類選択機能５０５。
(8)先に述べた合成重み数値を設定する重み付き合成割合設定機能５０６。

図８に、ＧＵＩ部５で可視化したＧＵＩ画面の一例を示す。まず、ＧＵＩ画面は、部品５２７で表されるような推論用画像(元画像)と、部品５２２で表されるような対象物確率と画素値を比例させることにより各画素の「対象物らしさ」を可視化するセグメンテーションマップ多階調表示画像、そして部品５２３で表されるような多階調画像を閾値処理した閾値処理画像を表示する。

画像化の方法はユーザ入力により切り替え可能である。対象構造物のＩＤや、元画像のＩＤなど画像のメタ情報や、前記機能群５００−５０８の情報は部品５２４にて表示される。また、前記閾値処理機能５０８で言及したユーザ定義の対象物確立閾値は部品５２５により定義され、前記重み付き合成割合設定機能５０６で言及した合成重み数値は部品５２６により定義される。また、領域検出部種類選択機能５０４で選択した領域検出部８の処理フロー、詳細検出部種類選択機能５０５で選択した詳細検出部２の処理フローは部品５２０、部品５２１により定義される。

上述したＧＵＩ部の構成及び機能を用いることにより、ユーザはセグメンテーションマップの出力を閲覧し、適宜編集、各種パラメータを変更し、また検出部の処理フローを変更し、結果を解析・洗練化させる。

本実施例によれば、詳細検出部で、推論用画像から局所的情報のみを用いて検出対象を検出した局所検出マップを求め、領域検出部で、学習データに基づく推論により、推論用画像から検出対象を含む領域を検出した領域検出マップを求め、結果統合処理部で、詳細検出部で求めた局所検出マップと領域検出部で求めた領域検出マップとを統合し、画像内のいずれの画素が検出対象物と対応するかを確率マップとして示したセグメンテーションマップを出力するようにしたので、学習データ作成時に詳細情報の付与を行わなくても、対象物検出システムの推論精度の低下を抑えることができる。そして、従来のような画像内の全画素に対し正解を付与する画素完全指定型アノテーションではなく、画像内の対象物の大まかな領域を正解として付与する領域指定型アノテーションを用いても検出精度の低下を抑えることができるようになり、学習データ作成のコストを低減化させることができる。

以下、本発明の実施例２を図面に基づいて詳細に説明する。図９は、本発明の実施例２における画素レベル対象物検出システムの構成を示す図である。

本実施例は実施例１に基づき構成され、変更点として本実施例には、入力画像のサイズを縮小する画像縮小部９、また入力画像のサイズを拡大する画像拡大部１０が追加される。撮影部１からの推論用画像は、画像縮小部９により画像サイズを縮小して領域検出部８に送られる。また、領域検出部８からの領域検出マップは、画像拡大部１０により画像サイズを拡大して結果統合処理部３へ送られる。これらの構成部を追加することにより領域検出部８が処理しなければならない画素数が減少し、計算処理に必要な時間を削減することが可能となる。また、画像拡大部１０が出力する領域検出マップは推論画像サイズの縮小・拡大の影響により画像サイズ変更をしない場合と比較し粗くなるが、詳細検出部２から詳細情報が補完されるため低精度化を抑えることができる。

本実施例によれば、入力画像のサイズを拡小する画像縮小部９を設けることにより、領域検出部８が処理しなければならない画素数が減少し、計算処理に必要な時間を削減することができる。

以下、本発明の実施例３を図面に基づいて詳細に説明する。実施例３では、推論用画像として建物や道路などの人工構造物を想定し、出力されるセグメンテーションマップはひび、さび、塗装はげなど画素単位の劣化確率を表す構造物劣化検出システムとする。

図１０は、実施例３におけるＧＵＩ部５の構成および他部との関係を示す図である。ＧＵＩ部５では、撮影部１から出力される推論用画像に加え、結果統合処理部３から出力されるセグメンテーションマップを入力として受け取る。ＧＵＩ部５はＧＵＩの形式をとり、ＧＵＩを操作する者（ユーザ）が効率的に検出結果を閲覧できるよう、次に述べる機能を備える。

実施例１の図７と同様に、前記ＧＵＩには、セグメンテーションマップにより定義される、各画素が対象物と対応している確率を多階調画像として表示するセグメンテーションマップ多階調表示機能５０１を備え、また、ユーザがセグメンテーションマップ閾値設定機能５０７から指定する閾値によりセグメンテーションマップを閾値処理する、閾値処理機能５０８も備える。また、元画像のＲＧＢ情報、またはセグメンテーションマップで定義される確率情報をもとに、類似する画素を一括に選択することを可能とする類似領域選択機能５０２も備える。また、ユーザの操作により表示画像の一部領域を拡大表示するズーム機能５０３も備える。また、領域検出部８の処理フローを変更するための領域検出部種類選択機能５０４に加え、詳細検出部２の処理フローを変更するための詳細検出部種類選択機能５０５も備える。また、入力したセグメンテーションマップを編集するセグメンテーションマップ編集機能５００や、先に述べた重み付き合成割合設定機能５０６を備える。

更に、実施例３におけるＧＵＩ部５は、特に、検出結果の内、同劣化種類でありなおかつ隣接する画素を領域として定義（検出領域）した際に、領域の面積があらかじめ設定した閾値よりも小さい物を除去する小領域除去機能５０９を備える。この機能は、例えば建築物の強度に大きく影響しない微細なひびなどは表示しないようにするものである。また、検出領域の形状が直線である場合にそれを除去する直線検出除去機能５１０を備える。この機能は、直線状のひびは無いと考えられるため、表示しないようにするものである。

実施例３におけるＧＵＩ部５をＧＵＩとして可視化した画面の詳細を、図１１に示す。まず、ＧＵＩは、部品５３９で表されるような推論用画像と、部品５３２で表されるような構造物劣化確率と画素値を比例させることにより各画素の「劣化らしさ」を可視化するセグメンテーションマップ多階調表示画像と、そして部品５３３で表されるような多階調画像を閾値処理した閾値処理画像を表示する。画像化の方法はユーザ入力により切り替え可能である。対象構造物のＩＤや、元画像のＩＤなど画像のメタ情報や、前記機能群５００−５０８の情報は部品５３４にて表示される。また、前記閾値処理機能５０８で言及したユーザ定義の劣化確率閾値は部品５３６により定義され、前記重み付き合成割合設定機能５０６で言及した合成重み数値は部品５３８により定義される。また、領域検出部８の処理フローは部品５３０により、詳細検出部の処理フローは部品５３１により定義される。

更に、前記小領域除去機能５０９で用いる領域サイズ閾値は部品５３７により定義され、前記直線除去機能５１０の直線除去処理を行うかどうかは部品５３５により定義される。

図１１のＧＵＩ画面において、小領域除去機能５０９および直線除去機能５１０を用いることにより、閾値処理画像５３３では、セグメンテーションマップ多階調表示画像５３２の小領域および直線が除去されている。

本実施例によれば、構造物劣化検出システムに用いた場合に、ひび、さび、塗装はげなどの構造物の劣化を良好に検出することができる。

以下、本発明の実施例４を図面に基づいて詳細に説明する。実施例４では、推論用画像としてトマトやキュウリなどの農作物を想定し、出力されるセグメンテーションマップは対象農作物の画素単位の存在確率、また成長度合いを表す農作物検出システムとする。

図１２は、実施例４におけるＧＵＩ部５の構成および他部との関係を示す図である。ＧＵＩ部５では、撮影部１から出力される推論用画像に加え、結果統合処理部３から出力されるセグメンテーションマップを入力として受け取る。ＧＵＩ部５はＧＵＩの形式をとり、ＧＵＩを操作する者（ユーザ）が効率的に検出結果を閲覧できるよう、次に述べる機能を備える。

更に、実施例４におけるＧＵＩ部５は、特に、検出結果の内、成長度合いが未熟である農作物を検出結果から除去する成長度閾値処理機能５１１を備える。

実施例４におけるＧＵＩ部５をＧＵＩとして可視化した画面の詳細を図１３に示す。まず、ＧＵＩ画面は、部品５４８で表されるような推論用画像（元画像）と、部品５４２で表されるような農産物確率と画素値を比例させることにより各画素の「農作物らしさ」を可視化するセグメンテーションマップ多階調表示画像、そして部品５４３で表されるような多階調画像を閾値処理した閾値処理画像を表示する。

画像化の方法はユーザ入力により切り替え可能である。対象農作物のＩＤや、元画像のＩＤなど画像のメタ情報や、前記機能群５００−５０８の情報は部品５４４にて表示される。また、前記閾値処理機能５０８で言及したユーザ定義の対象物確率閾値は部品５４５により定義され、前記重み付き合成割合設定機能５０６で言及した合成重み数値は部品５４７により定義される。また、領域検出部８の処理フローは部品５４０により、詳細検出部の処理フローは部品５４１により定義される。
更に、前記成長度閾値処理機能５１１で用いる成長度閾値は部品５４６により定義される。

図１３のＧＵＩ画面において、成長度閾値処理機能５１１を用いることにより、閾値処理画像５４３では、成長した農産物であるリンゴの画像が表示されている。閾値以下の未熟なリンゴは表示されることがない。

本実施例によれば、農産物検出システムに用いた場合に、成長した農産物を良好に検出することができる。

以下、本発明の実施例５を図面に基づいて詳細に説明する。図１４は、本発明の実施例５における画素レベル対象物検出システムの構成を示す図である。本実施例は実施例１に基づき構成され、変更点として学習データ入力部６の出力を学習ＤＢ７に入力する前に処理を行う学習データ作成部１１が追加されている。

図１５に、実施例５における学習データ作成部１１の構成および他部との関係を示す。

学習データ作成部１１は、学習用画像入力部６０からの入力に対し第２の詳細検出部２００を適用した出力と、正解データ入力部６１からの入力を、第２の結果統合処理部３００を用い統合することにより、正解データに詳細情報を付与する。第２の詳細検出部２００および第２の結果統合処理部３００の動作は、実施例１の詳細検出部２および結果統合処理部３の動作と同様である。第２の結果統合処理部３００の出力は詳細化済み正解データとして学習ＤＢ７へ出力される。

また、本実施例では学習データ作成部１１が処理をしていない正解データ入力部６１の出力も学習ＤＢ７へ出力する。

本実施例によれば、第２の詳細検出部２００で、学習用画像から局所的情報のみを用いて検出対象を検出し、第２の結果統合処理部３００で、第２の詳細検出部２００で求めた局所検出結果と正解データ入力部６１で入力された正解データとを統合して学習データを作成するようにしたので、正解データの入力で画像内の対象物の大まかな領域を正解として付与する領域指定型アノテーションを用いても検出精度の低下を抑えることができるようになり、学習データ作成コストを低減化させることが出来る。

本発明におけるプログラムの発明は、コンピュータに組み込まれ、コンピュータを画素レベル対象物検出システムとして動作させるプログラムである。本発明のプログラムをコンピュータに組み込むことにより、図１などのブロック図に示される画素レベル対象物検出システムが構成される。

プログラムは、プロセッサ（例えばＣＰＵ、ＧＰＵ）によって実行されることで、定められた処理を、適宜に記憶資源（例えばメモリ）および／またはインターフェースデバイス（例えば通信ポート）等を用いながら行うため、処理の主体がプロセッサとされてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコンピュータ、コントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であれば良く、特定の処理を行う専用回路（例えばＦＰＧＡやＡＳＩＣ）を含んでいてもよい。

プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、２以上のプログラムが１つのプログラムとして実現されてもよいし、１つのプログラムが２以上のプログラムとして実現されてもよい。

以上、本発明を実施例に基づき具体的に説明したが、本発明は前述の実施例に限定されず、その要旨を逸脱しない範囲で種々変更可能である。

１…撮影部、２…詳細検出部、３…結果統合処理部、５…ＧＵＩ部、６…学習データ入力部、７…学習ＤＢ、８…領域検出部、９…画像縮縮小部、１０…画像拡大部、１１…学習データ作成部、６０…学習用画像入力部、６１…正解データ入力部、８０…推論部、８１…学習部、２００…詳細検出部、３００…結果統合処理部。

Claims

画素レベルで対象物の検出を行う画素レベル対象物検出システムであって、
検出対象を写した画像である推論用画像を収集する撮影部と、
前記推論用画像から、検出対象を含む領域を検出する領域検出部と、
前記推論用画像から、局所的情報のみを用い検出対象を検出する詳細検出部と、
前記領域検出部の出力と、前記詳細検出部の出力とを統合して、画像内のいずれの画素が検出対象物と対応するかを確率マップとして示すセグメンテーションマップを出力する結果統合処理部と、
を有する画素レベル対象物検出システム。
請求項１に記載の画素レベル対象物検出システムであって、
前記詳細検出部は、１画素或いは少数画素を用いて検出対象を検出し、
前記領域検出部は、前記詳細検出部が用いる画素よりも多い画素を用いて検出対象を含む領域を検出する
ことを特徴とする画素レベル対象物検出システム。
請求項１に記載の画素レベル対象物検出システムであって、さらに、
事前に収集した画像群である学習用画像と、画素が対象物に対応しているかどうかの情報を含む正解データのペアの集合である学習データを出力する学習データ入力部と、
前記学習データを保持する学習データベースと、を有し、
前記領域検出部は、
その学習部が、前記学習データベースの前記学習データを用いて、機械学習によって対象物に対応する画素を推論する推論部を生成し、前記推論部が、前記推論用画像から検出対象を含む領域を検出する処理を実行する、
ことを特徴とする画素レベル対象物検出システム
請求項３に記載の画素レベル対象物検出システムであって、さらに、
学習データを作成する学習データ作成部を有し、
前記学習データ作成部は、
前記学習用画像から、局所的情報のみを用い検出対象を検出する第２の詳細検出部と、
前記第２の詳細検出部で求めた局所検出結果と正解データ入力部で入力された正解データとを統合する第２の結果統合処理部と、を有し、
前記正解データを詳細化することを特徴とする画素レベル対象物検出システム。
請求項１に記載の画素レベル対象物検出システムであって、
前記詳細検出部は、
フィルタ処理などの前処理を行う前処理機能、
推論画像に含まれる画素の明度を計算する画素明度計算機能、
任意の画素値と推論用画像の各画素値との距離を計算する画素距離計算機能、
の少なくとも何れかを備えることを特徴とする画素レベル対象物検出システム。
請求項１に記載の画素レベル対象物検出システムであって、さらに、
前記撮影部が出力する推論用画像の解像度を縮小し前記領域検出部に入力する画像縮小部と、
前記領域検出部から出力された領域検出マップを拡大する画像拡大部と、
を有することを特徴とする画素レベル対象物検出システム。
請求項１に記載の画素レベル対象物検出システムであって、
セグメンテーションマップ出力を画面に表示するＧＵＩ部を有し、
前記ＧＵＩ部は、
前記画面においてセグメンテーションマップ出力を結果統合処理部から出力される対象物確率値をもとに色付けされた多階調画像として表示する処理と、
前記画面において画面の一部を拡大する処理と、
前記画面において同対象物と判断され、さらに隣接する画素群を一括で選択可能である類似領域選択処理と、
前記画面においてセグメンテーション出力を対象物推定確率値をもとに閾値処理を行う処理と、
前記セグメンテーションマップを編集する処理と、
の少なくとも何れかを行うことを特徴とする画素レベル対象物検出システム。
請求項１に記載の画素レベル対象物検出システムであって、
セグメンテーションマップ出力を画面に表示するＧＵＩ部を有し、
前記ＧＵＩ部は、
前記閾値処理に必要な閾値を設定する第一部品、
領域検出部の種類を設定する第二部品、
詳細検出部の種類を設定する第三部品、
結果統合処理部が局所検出マップと領域検出マップを統合する際に必要である閾値を設定する第四部品、
の少なくとも何れかを表示することを特徴とする画素レベル対象物検出システム。
請求項１に記載の画素レベル対象物検出システムであって、
前記結果統合処理部は、セグメンテーションマップとして構造物劣化度を出力し、
前記セグメンテーションマップを画面に表示するＧＵＩ部を有し、
前記ＧＵＩ部は、
閾値処理した検出結果の内、同対象物だと判断され、さらに隣接する画素群の領域サイズが小さい物を除去可能な機能と、
閾値処理した検出領域の形状が直線である場合にそれを除去する直線除去機能と、
を備えることを特徴とする画素レベル対象物検出システム。
請求項１に記載の画素レベル対象物検出システムであって、
前記結果統合処理部は、セグメンテーションマップとして農作物の成長度確率を出力し、
前記セグメンテーションマップを画面に表示するＧＵＩ部を有し、
前記ＧＵＩ部は、
閾値処理した検出結果の内、成長度が遅い段階の農作物を除去する機能
を備えることを特徴とする画素レベル対象物検出システム。
コンピュータを、
推論用画像から、検出対象を含む領域を検出する領域検出部と、
前記推論用画像から、局所的情報のみを用い検出対象を検出する詳細検出部と、
前記領域検出部の出力と、前記詳細検出部の出力とを統合して、画像内のいずれの画素が検出対象物と対応するかを確率マップとして示すセグメンテーションマップを出力する結果統合処理部と、
を有する画素レベル対象物検出システムとして機能させるためのプログラム。
請求項１１に記載のプログラムであって、
前記領域検出部は、その学習部が、学習データベースの学習データを用いて、機械学習によって対象物に対応する画素を推論する推論部を生成し、前記推論部が、前記推論用画像から検出対象を含む領域を検出する処理を実行するものである、
画素レベル対象物検出システムとして機能させるためのプログラム。
請求項１２に記載のプログラムであって、さらに、
学習用画像から、局所的情報のみを用い検出対象を検出する第２の詳細検出部と、前記第２の詳細検出部で求めた局所検出結果と正解データ入力部で入力された正解データとを統合する第２の結果統合処理部と、を有し、前記正解データを詳細化する学習データ作成部を含む
画素レベル対象物検出システムとして機能させるためのプログラム。
請求項１１に記載のプログラムであって、さらに、
前記推論用画像の解像度を縮小し前記領域検出部に入力する画像縮小部と、
前記領域検出部から出力された領域検出マップを拡大する画像拡大部と、
を含む画素レベル対象物検出システムとして機能させるためのプログラム。