JP6803578B2

JP6803578B2 - 処理方法およびそれを利用した処理装置

Info

Publication number: JP6803578B2
Application number: JP2019546265A
Authority: JP
Inventors: 祥平鎌田; 俊嗣堀井
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2018-03-26
Filing date: 2019-03-25
Publication date: 2020-12-23
Anticipated expiration: 2039-03-25
Also published as: JP2021028841A; US11816569B2; WO2019189026A1; EP3779805A4; JPWO2019189026A1; US20210027095A1; EP3779805A1; CN111902827A

Description

本開示は、処理技術、特に画像に対する処理を実行する処理方法およびそれを利用した処理装置に関する。

近年、ＣＡＤ（Ｃｏｍｐｕｔｅｒ−ＡｉｄｅｄＤｅｓｉｇｎ）システム等を用いて建設図面が容易に作成される。しかしながら、建設図面のデータには、作成したシステムにより互換性がなく、期間の経過や業者の変更により利用できなくなる場合がある。そのため、既に作成された建設図面から電気記号を抽出するために、多くの手間が必要になる。建設図面に記載された電気記号を抽出するために、建設図面の画像を読み取ったイメージ画像データのランデータに基づいて画像の輪郭データを作成し、輪郭データに対する輪郭ループの円形度がしきい値以上の輪郭データを電気記号とみなする処理が実行される（例えば、特許文献１参照）。

特開平１０−１１１９３７号公報

建築図面のような画像から、電気記号のようなパターンを抽出するために、ニューラルネットワークを使用することが可能である。パターンを抽出できれば、画像に含まれた複数のパターンをパターンの種類毎に積算することも可能になる。しかしながら、パターンには多くの種類が存在するので、すべてのパターンに対してニューラルネットワークを学習させることは困難である。一方、学習が不十分であると、処理の正確性が低下する。

本開示はこうした状況に鑑みなされたものであり、その目的は、学習の作業量の増加を抑制しながら、処理の正確性の低下を抑制する技術を提供することにある。

上記課題を解決するために、本開示のある態様の処理装置は、画像に含まれた複数のパターンをパターンの種類毎に積算する処理装置であって、画像を入力する入力部と、入力部に入力した画像に対して、パターンの種類を分類した系統であって、かつパターンの種類の数よりも少ない種類の数の系統を教師データとして学習させたニューラルネットワークの処理を実行することによって、画像に含まれた複数のパターンのそれぞれをいずれかの系統として検出する第１処理部と、第１処理部において検出した各系統の位置をもとに、画像から、系統が含まれた部分を複数抽出する抽出部と、抽出部において抽出した複数の部分に対して、パターンの種類を分類した系統であって、かつパターンの種類の数よりも少ない種類の数の系統を教師データとして学習させたニューラルネットワークの処理を実行することによって、各系統に対する特定の中間層の中間データを取得する第２処理部と、第２処理部において取得した中間データに対して、パターンの種類の数に応じたクラスタリングを実行するクラスタリング部と、クラスタリング部におけるクラスタリングの結果である各クラスタに含まれたパターンの数を算出する算出部と、を含む。

本開示の別の態様は、処理方法である。この方法は、画像に含まれた複数のパターンをパターンの種類毎にコンピュータで積算する処理方法であって、コンピュータに画像を入力するステップと、コンピュータが、入力した画像に対して、パターンの種類を分類した系統であって、かつパターンの種類の数よりも少ない種類の数の系統を教師データとして学習させたニューラルネットワークの処理を実行することによって、画像に含まれた複数のパターンのそれぞれをいずれかの系統として検出するステップと、コンピュータが、検出した各系統の位置をもとに、画像から、系統が含まれた部分を複数抽出するステップと、コンピュータが、抽出した複数の部分に対して、パターンの種類を分類した系統であって、かつパターンの種類の数よりも少ない種類の数の系統を教師データとして学習させたニューラルネットワークの処理を実行することによって、各系統に対する特定の中間層の中間データを取得するステップと、コンピュータが、取得した中間データに対して、パターンの種類の数に応じたクラスタリングを実行するステップと、コンピュータが、クラスタリングの結果である各クラスタに含まれたパターンの数を算出するステップと、を含む。

なお、以上の構成要素の任意の組合せ、本開示の表現を方法、装置、システム、コンピュータプログラム、またはコンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本開示の態様として有効である。

本開示によれば、学習の作業量の増加を抑制しながら、処理の正確性の低下を抑制できる。

実施例の処理対象となる画像を示す図である。図１の画像に含まれうるパターンと系統を示す図である。図３（ａ）−（ｂ）は、実施例に係る処理装置の構成を示す図である。図３（ａ）−（ｂ）の処理部における処理の概要を示す図である。図３（ａ）の第１入力部に入力される教師データのデータ構造を示す図である。図６（ａ）−（ｂ）は、図３（ｂ）の処理装置による処理結果を示す図である。図３（ｂ）のクラスタリング部における処理の概要を示す図である。図３（ｂ）の処理装置における処理手順を示すフローチャートである。

本開示の実施例を具体的に説明する前に、本実施例の概要を説明する。実施例は、複数の電気記号が示されている建設図面から、電気記号の種類毎に個数を積算する処理装置に関する。建設図面から電気記号を抽出する精度を向上するために、ニューラルネットワークを使用することが有力である。しかしながら、電気記号の種類は数十種類以上と多いとともに、類似した形状の電気記号も存在する。そのため、すべての電気記号に対してニューラルネットワークを学習させることは困難であるとともに、新たな電気記号が出現した場合に誤判定が生じる可能性がある。さらに、学習が不十分であっても誤判定が生じる可能性がある。

これに対応するために、本実施例では、類似した形状の電気記号をグループとしてまとめることによって、電気記号の種類数よりも少ない種類数のグループに複数のパターンが分類されることを利用する。以下では、電気記号を「パターン」と呼び、グループを「系統」と呼び、さらに建設図面を「画像」と呼ぶ。ここでは、例えば、インターホン系統、差動式煙感知器系統、光電式煙感知器系統の３種類の系統にパターンが分類される。このような状況下において、処理装置におけるニューラルネットワークは、これらの系統に対して学習されている。処理装置に画像が入力されると、ニューラルネットワークの処理によって画像中に示された各系統が検出されるとともに、各系統の位置が特定される。処理装置は、各系統の位置をもとに、各系統が含まれた部分を画像から抽出する。また、処理装置は、抽出した各部分に対してニューラルネットワークの処理を実行することによって、特定の中間層の中間データを出力する。さらに、処理装置は、中間データに対してクラスタリングを実行してから、各クラスタに含まれたパターンの数を算出する。

図１は、処理対象となる画像１０を示す。画像１０の一例は、前述のごとく建設図面である。画像１０には、パターン２０と総称される第１パターン２０ａから第２６パターン２０ｚ、第２７パターン２０ａａ、第２８パターン２０ａｂ、第２９パターン２０ａｃ、第３０パターン２０ａｄが含まれる。各パターン２０は電気記号である。ここでは、画像１０に含まれるパターン２０を「３０」としたが、それに限定されない。パターン２０の形状が異なれば、別の電気記号を示すので、別の機器に相当する。例えば、第５パターン２０ｅと第６パターン２０ｆは同じ形状であるが、第５パターン２０ｅと第１パターン２０ａは異なる形状である。このような画像１０をもとに見積書を作成する場合、ユーザは、パターン２０の種類毎にパターン２０の数を数える必要がある。画像１０のサイズが大きくなり、画像１０に含まれるパターン２０の数が増加するほど、その作業にかかる手間が大きくなる。

図２は、画像１０に含まれうるパターン２０と系統を示す。類似した機器に対して、類似した形状のパターン２０が定められる。ここでは、類似した形状のパターン２０を系統としてまとめる。図示のごとく、インターホン系統、差動式煙感知器系統、光電式煙感知器系統という３種類の系統が規定される。また、インターホン系統には、インターホン３０と総称される第１インターホン３０ａから第４インターホン３０ｄが含まれる。差動式煙感知器系統には、差動式煙感知器３２と総称される第１差動式煙感知器３２ａから第６差動式煙感知器３２ｆが含まれる。光電式煙感知器系統には、光電式煙感知器３４と総称される第１光電式煙感知器３４ａから第６光電式煙感知器３４ｆが含まれる。インターホン３０、差動式煙感知器３２、光電式煙感知器３４もパターン２０の１つである。例えば、図１の第１パターン２０ａは第２インターホン３０ｂであり、第２パターン２０ｂは第６光電式煙感知器３４ｆである。このように系統は、パターン２０の種類を分類しているといえる。また、系統の種類の数は、パターン２０の種類の数よりも少ない。

図３（ａ）−（ｂ）は、処理装置１００の構成を示す。特に、図３（ａ）は、学習処理のための構成を示し、図３（ｂ）は、積算処理ための構成を示す。積算処理とは、画像１０に対してニューラルネットワークを使用することによって、パターン２０を系統に分類する処理を実行しながら、画像１０に含まれた複数のパターン２０をパターン２０の種類毎に積算する処理である。図３（ａ）における処理装置１００と図３（ｂ）における処理装置１００とは、同一の装置であってもよいし、別の装置であってもよい。

処理装置１００は、学習処理ための構成として、第１入力部１１０、第２入力部１１２、処理部１１４を含み、積算処理のための構成として、入力部１２０、処理部１１４、抽出部１２４、クラスタリング部１２８、算出部１３０、出力部１３２を含む。また、処理部１１４は、第１処理部１２２、第２処理部１２６を含む。ここで、学習処理において処理部１１４が学習され、積算処理において処理部１１４が使用される。処理装置１００の構成を説明する前に、処理部１１４の構成を説明する。

図４は、処理部１１４における処理の概要を示す。処理部１１４は、畳み込み層１４２と総称する第１畳み込み層１４２ａ、第２畳み込み層１４２ｂ、第３畳み込み層１４２ｃ、第４畳み込み層１４２ｄ、第５畳み込み層１４２ｅ、第６畳み込み層１４２ｆ、プーリング層１４４と総称する第１プーリング層１４４ａ、第２プーリング層１４４ｂ、第３プーリング層１４４ｃ、第４プーリング層１４４ｄ、第５プーリング層１４４ｅを含む。このような畳み込み層１４２、プーリング層１４４は、各処理を実行するブロックのイメージを示す。入力画像１４０は、処理装置１００における処理対象となる画像である。処理部１１４におけるニューラルネットワークには、全結合層が含まれないので、入力画像１４０のサイズに対する制限が設けられない。そのため、入力画像１４０は、前述の画像１０であってもよい。入力画像１４０は、第１畳み込み層１４２ａに入力される。

各畳み込み層１４２は、直六面体で示される。畳み込み層１４２の奥行き方向と高さ方向を有する正方形の面の大きさは、畳み込み層１４２において処理される画像の空間次元の大きさ、つまり画像のサイズを示す。畳み込み層１４２は、画像に対して、画像のサイズよりも小さいサイズの空間フィルタをずらしながら空間フィルタリングを実行する。空間フィルタリングは公知の技術であるので、ここでは説明を省略するが、この空間フィルタリングが畳み込み処理に相当し、畳み込み処理によって画像の特徴量が抽出される。畳み込み層１４２においてパディング等が実行されてもよい。さらに、畳み込み層１４２は、画像に対して、複数の空間フィルタを並列に使用して、複数の空間フィルタリングを並列して実行してもよい。このような複数の空間フィルタの並列使用によって、画像が増加する。畳み込み層１４２において並列に使用される空間フィルタの数は、チャンネル数と呼ばれ、これは畳み込み層１４２の左右方向の長さによって示される。

各プーリング層１４４も畳み込み層１４２と同様に構成される。プーリング層１４４は、画像内の任意の領域に含まれた複数の画素を１つの画素にまとめることによって、画像のサイズを小さくする。ここで、複数の画素を１つの画素にまとめるために、平均プーリングあるいは最大プーリングが実行される。平均プーリングでは、領域内の複数の画素値の平均値が１つの画素に対して使用され、最大プーリングでは、領域内の複数の画素値のうちの最大値が１つの画素に対して使用される。プーリング処理は、着目領域における代表値あるいは平均値の並進移動に対してロバスト性を強化するためになされる。

ここでは、第１畳み込み層１４２ａ、第１プーリング層１４４ａ、第２畳み込み層１４２ｂ、第２プーリング層１４４ｂ、第３畳み込み層１４２ｃ、第３プーリング層１４４ｃ、第４畳み込み層１４２ｄ、第４プーリング層１４４ｄ、第５畳み込み層１４２ｅ、第５プーリング層１４４ｅ、第６畳み込み層１４２ｆが順に配置される。つまり、畳み込み処理とプーリング処理とが繰り返し実行される。また、畳み込み処理とプーリング処理とが繰り返されることによって、画像のサイズが順に小さくされ、第６プーリング層１４４ｆは、１以上のチャンネル数を有する画像（以下、「出力画像」という）を出力する。ここでは、一例として、出力画像のチャンネル数を「３」とする。

このような処理部１１４の構成をもとにして、ここでは、図３（ａ）を使用しながら、処理装置１００における学習処理を説明する。第１入力部１１０は、既知の出力画像となる教師データを受けつけ、第２入力部１１２は、第１入力部１１０において受けつけた教師データに対応した学習用画像を受けつける。処理部１１４は、図４の構成を有し、第１入力部１１０において受けつけた教師データと、第２入力部１１２において受けつけた学習用画像とをもとに、各畳み込み層１４２の空間フィルタの係数を学習させる。

学習用画像には、インターホン３０、差動式煙感知器３２、光電式煙感知器３４のいずれかのパターン２０が含まれる。教師データは、学習用画像にインターホン３０が含まれている場合にインターホン系統であり、学習用画像として差動式煙感知器３２が含まれている場合に差動式煙感知器系統であり、学習用画像として光電式煙感知器３４が含まれている場合に光電式煙感知器系統である。図５は、第１入力部１１０に入力される教師データのデータ構造を示す。教師データは、３チャンネルを有しており、インターホン系統、差動式煙感知器系統、光電式煙感知器系統のいずれかが学習用画像に応じて示される。

つまり、教師データのサイズは１×１の空間次元を有する。そのため、教師データは、学習用画像に含まれたパターン２０の位置情報を有さず、１つのチャンネルに対する教師データは、インターホン系統、差動式煙感知器系統、光電式煙感知器系統のいずれかを示すだけである。一方、学習用画像は、積算処理が正確に実行された場合に教師データが出力されるような元の画像であり、そのサイズは教師データが１×１の空間次元となるように定められる。ここで、入力画像１４０のサイズに対する制限が設けられないので、学習用画像と入力画像１４０は異なったサイズでもよい。このような教師データと学習用画像を使用する状況下における空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。

次に、図３（ｂ）を使用しながら、処理装置１００における積算処理を説明する。図３（ａ）と図３（ｂ）における処理装置１００とが別の装置として構成される場合、図３（ａ）における処理部１１４に対する学習によって導出された空間フィルタの係数が、図３（ｂ）における処理部１１４に設定される。

入力部１２０は、画像１０を受けつける。ここで、画像１０のサイズは学習用画像のサイズよりも大きいとする。入力部１２０は、画像１０を第１処理部１２２に出力する。第１処理部１２２は、画像１０を入力部１２０から受けつける。第１処理部１２２は、図４に示される構成を有しており、受けつけた画像１０は入力画像１４０に相当する。そのため、以下では、画像１０を入力画像１４０と呼ぶ。第１処理部１２２は、入力画像１４０に対して、全結合層が除外された畳み込みニューラルネットワークの処理を実行する。第１処理部１２２における畳み込みニューラルネットワークでは、パターン２０の種類の数よりも少ない種類の数の系統を教師データに対して、畳み込み層１４２の空間フィルタの学習がなされている。特に、畳み込み層１４２の空間フィルタの学習は、３チャンネルと１対１で対応する系統に対してなされている。その結果、第１処理部１２２は、画像１０に含まれた複数のパターン２０のそれぞれをいずれかの系統として検出する。前述のごとく、画像１０のサイズは学習用画像のサイズよりも大きいので、第１処理部１２２は、系統の位置も検出する。図６（ａ）−（ｂ）は、処理装置１００による処理結果を示す。図６（ａ）は、図１の画像１０に対して、第１処理部１２２の処理を実行した場合に検出された各系統の個数を示す。図６（ｂ）は後述して図３（ｂ）に戻る。第１処理部１２２は、検出した系統と位置との複数の組合せを抽出部１２４に出力する。

抽出部１２４は、第１処理部１２２から複数の組合せを受けつける。抽出部１２４は、各組合せから、検出した系統と位置を取得し、画像１０から、系統に対応したパターン２０が含まれた部分を抽出する。当該部分は、系統に対応したパターン２０を中心にして、任意の形状および任意のサイズを有する。部分のサイズは、画像１０のサイズよりも小さい。また、部分のサイズは、学習用画像のサイズよりも大きくてもよい。このような処理によって、抽出部１２４は、複数の部分を抽出する。抽出部１２４は、複数の部分を第２処理部１２６に出力する。

第２処理部１２６は、第１処理部１２２との間でニューラルネットワークを共用するので、第１処理部１２２において使用したニューラルネットワークを使用する。第２処理部１２６は、抽出部１２４において抽出した複数の部分に対して、ニューラルネットワークの処理を実行する。ニューラルネットワークの処理は第１処理部１２２での処理と同様であるので、ここでは説明を省略する。ここで、第２処理部１２６は、図４のごとく、各部分に対する特定の中間層の中間データ１４８を取得する。中間データ１４８は、第２処理部１２６の出力の１つあるいは２つ手前の中間層から出力されるデータであり、（ｖ_１，ｖ_２，・・・，ｖ_ｎ）のようにｎ次元のデータとして示される。第２処理部１２６は、中間データ１４８を部分毎、つまり検出した系統毎にクラスタリング部１２８に出力する。

クラスタリング部１２８は、第２処理部１２６において取得した複数の中間データ１４８に対して、パターン２０の種類の数に応じたクラスタリングを実行する。ここで、クラスタリングには、例えば、Ｋ−ｍｅａｎｓ法、自己組織化マップ、最小平均分散法、ＮＮ（ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）法、最短距離法、Ｋ−ＮＮ（ＫＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）法、Ｗａｒｄ法等が使用される。これらは公知の技術であるので、ここでは説明を省略する。

図７は、クラスタリング部１２８における処理の概要を示す。ここでは、説明を明瞭にするために、中間データ１４８が（ｖ_１，ｖ_２）の２次元データであると仮定する。クラスタリング部１２８は、ｖ_１とｖ_２とを軸とする直交座標系に複数の中間データ１４８を配置させる。クラスタリング部１２８は、直交座標系に配置された複数の中間データ１４８に対してクラスタリングを実行することによって、クラスタ１５０と総称される第１クラスタ１５０ａから第１１クラスタ１５０ｋを生成する。各クラスタ１５０は、いずれかのパターン２０に対応する。例えば、第１クラスタ１５０ａは、第２インターホン３０ｂに対応する。図３（ｂ）に戻る。

算出部１３０は、クラスタリング部１２８におけるクラスタリングの結果である各クラスタに含まれたパターン２０の数を算出する。図６（ｂ）は、算出部１３０における算出結果を示す。第２インターホン３０ｂが１個、第２差動式煙感知器３２ｂが８個算出される。図３（ｂ）に戻る。出力部１３２は、算出部１３０における算出結果を出力する。

本開示における装置、システム、または方法の主体は、コンピュータを備えている。このコンピュータがプログラムを実行することによって、本開示における装置、システム、または方法の主体の機能が実現される。コンピュータは、プログラムにしたがって動作するプロセッサを主なハードウェア構成として備える。プロセッサは、プログラムを実行することによって機能を実現することができれば、その種類は問わない。プロセッサは、半導体集積回路（ＩＣ）、またはＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）を含む１つまたは複数の電子回路で構成される。複数の電子回路は、１つのチップに集積されてもよいし、複数のチップに設けられてもよい。複数のチップは１つの装置に集約されていてもよいし、複数の装置に備えられていてもよい。プログラムは、コンピュータが読み取り可能なＲＯＭ、光ディスク、ハードディスクドライブなどの非一時的記録媒体に記録される。プログラムは、記録媒体に予め格納されていてもよいし、インターネット等を含む広域通信網を介して記録媒体に供給されてもよい。

以上の構成による処理装置１００の動作を説明する。図８は、処理装置１００における処理手順を示すフローチャートである。入力部１２０は、画像１０を入力する（Ｓ１０）。第１処理部１２２は、系統を検出する（Ｓ１２）。抽出部１２４は、系統が含まれた部分を抽出する（Ｓ１４）。第２処理部１２６は、中間層の中間データ１４８を取得する（Ｓ１６）。クラスタリング部１２８は、クラスタリングを実行する（Ｓ１８）。算出部１３０は、パターン２０の数を算出する（Ｓ２０）。

本実施例によれば、画像１０から検出した系統が含まれた部分に対してニューラルネットワークの処理を実行するので、画像１０に含まれるパターン２０以外のものの影響を低減できる。また、画像１０に含まれるパターン２０以外のものの影響が低減されるので、処理の精度を向上できる。ニューラルネットワークの処理における中間データ１４８を取得するので、情報量を増加できる。また、情報量が増加されるので、処理の精度を向上できる。また、中間データ１４８に対してクラスタリングを実行することによって、各クラスタ１５０に含まれたパターン２０の数を算出するので、学習の作業量の増加を抑制しながら、処理の正確性の低下を抑制できる。

また、出力の１つあるいは２つ手前の中間層の中間データ１４８を取得するので、精度が高く、かつ情報量の多いデータを取得できる。また、第２処理部１２６は、第１処理部１２２において使用したニューラルネットワークを使用するので、学習の結果を共有できる。また、１×１の空間次元を有する教師データに対して、畳み込み層１４２の空間フィルタの学習がなされている畳み込みニューラルネットワークを使用するので、教師データの作成の作業量を低減できる。また教師データの作成の作業量が低減されるので、学習の作業量の増加を抑制できる。また教師データの作成の作業量が低減されるので、教師データの数を多くできる。また、教師データの数が多くなるので、学習の精度を向上できる。

本開示の一態様の概要は、次の通りである。本開示のある態様の処理装置（１００）は、画像（１０）に含まれた複数のパターンをパターンの種類毎に積算する処理装置（１００）であって、画像（１０）を入力する入力部（１２０）と、入力部（１２０）に入力した画像（１０）に対して、パターン（２０）の種類を分類した系統であって、かつパターン（２０）の種類の数よりも少ない種類の数の系統を教師データとして学習させたニューラルネットワークの処理を実行することによって、画像（１０）に含まれた複数のパターン（２０）のそれぞれをいずれかの系統として検出する第１処理部（１２２）と、第１処理部（１２２）において検出した各系統の位置をもとに、画像（１０）から、系統が含まれた部分を複数抽出する抽出部（１２４）と、抽出部（１２４）において抽出した複数の部分に対して、パターン（２０）の種類を分類した系統であって、かつパターン（２０）の種類の数よりも少ない種類の数の系統を教師データとして学習させたニューラルネットワークの処理を実行することによって、各系統に対する特定の中間層の中間データ（１４８）を取得する第２処理部（１２６）と、第２処理部（１２６）において取得した中間データ（１４８）に対して、パターン（２０）の種類の数に応じたクラスタリングを実行するクラスタリング部（１２８）と、クラスタリング部（１２８）におけるクラスタリングの結果である各クラスタ（１５０）に含まれたパターン（２０）の数を算出する算出部（１３０）と、を含む。

第２処理部（１２６）は、出力の１つあるいは２つ手前の中間層の中間データ（１４８）を取得してもよい。

第２処理部（１２６）は、第１処理部（１２２）において使用したニューラルネットワークを使用してもよい。

第１処理部（１２２）および第２処理部（１２６）において使用されるニューラルネットワークは、畳み込み層（１４２）とプーリング層（１４４）とを含み、全結合層を除外した畳み込みニューラルネットワークであり、当該畳み込みニューラルネットワークでは、１×１の空間次元を有する処理結果に対して、畳み込み層（１４２）のフィルタの学習がなされていてもよい。

本開示の別の態様は、処理方法である。この方法は、画像（１０）に含まれた複数のパターン（２０）をパターン（２０）の種類毎に積算する処理方法であって、画像（１０）を入力するステップと、入力した画像（１０）に対して、パターン（２０）の種類を分類した系統であって、かつパターン（２０）の種類の数よりも少ない種類の数の系統を教師データとして学習させたニューラルネットワークの処理を実行することによって、画像（１０）に含まれた複数のパターン（２０）のそれぞれをいずれかの系統として検出するステップと、検出した各系統の位置をもとに、画像（１０）から、系統が含まれた部分を複数抽出するステップと、抽出した複数の部分に対して、パターン（２０）の種類を分類した系統であって、かつパターン（２０）の種類の数よりも少ない種類の数の系統を教師データとして学習させたニューラルネットワークの処理を実行することによって、各系統に対する特定の中間層の中間データ（１４８）を取得するステップと、取得した中間データ（１４８）に対して、パターン（２０）の種類の数に応じたクラスタリングを実行するステップと、クラスタリングの結果である各クラスタ（１５０）に含まれたパターン（２０）の数を算出するステップと、を含む。

以上、本開示を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素あるいは各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。

本実施例における処理部１１４の構成は、複数の畳み込み層１４２と複数のプーリング層１４４とが交互に並んでいる。しかしながらこれに限らず例えば、処理部１１４は、ＧｏｏｇＬｅＮｅｔ系、ＤｅｎｓｅＮｅｔ系等の構成を有していてもよい。本変形例によれば、構成の自由度を向上できる。

本実施例における処理部１１４は、全結合層が除外された畳み込みニューラルネットワーク、つまり完全畳み込みニューラルネットワークが使用される。しかしながらこれに限らず例えば、全結合層が含まれた畳み込みニューラルネットワークが使用されてもよい。この場合、入力部１２０に入力すべき画像のサイズが固定であるので、画像１０が固定サイズに分割されて入力部１２０に入力される。本変形例によれば、構成の自由度を向上できる。

１０画像、２０パターン、３０インターホン、３２差動式煙感知器、３４光電式煙感知器、１００処理装置、１１０第１入力部、１１２第２入力部、１１４処理部、１２０入力部、１２２第１処理部、１２４抽出部、１２６第２処理部、１２８クラスタリング部、１３０算出部、１３２出力部、１４０入力画像、１４２畳み込み層、１４４プーリング層。

Claims

画像に含まれた複数のパターンをパターンの種類毎に積算する処理装置であって、
画像を入力する入力部と、
前記入力部に入力した画像に対して、パターンの種類を分類した系統であって、かつパターンの種類の数よりも少ない種類の数の系統を教師データとして学習させたニューラルネットワークの処理を実行することによって、画像に含まれた複数のパターンのそれぞれをいずれかの系統として検出する第１処理部と、
前記第１処理部において検出した各系統の位置をもとに、画像から、系統が含まれた部分を複数抽出する抽出部と、
前記抽出部において抽出した複数の部分に対して、パターンの種類を分類した系統であって、かつパターンの種類の数よりも少ない種類の数の系統を教師データとして学習させたニューラルネットワークの処理を実行することによって、各系統に対する特定の中間層の中間データを取得する第２処理部と、
前記第２処理部において取得した中間データに対して、パターンの種類の数に応じたクラスタリングを実行するクラスタリング部と、
前記クラスタリング部におけるクラスタリングの結果である各クラスタに含まれたパターンの数を算出する算出部と、
を含むことを特徴とする処理装置。
前記第２処理部は、出力の１つあるいは２つ手前の中間層の中間データを取得することを特徴とする請求項１に記載の処理装置。
前記第２処理部は、前記第１処理部において使用したニューラルネットワークを使用することを特徴とする請求項１または２に記載の処理装置。
前記第１処理部および前記第２処理部において使用されるニューラルネットワークは、畳み込み層とプーリング層とを含み、全結合層を除外した畳み込みニューラルネットワークであり、当該畳み込みニューラルネットワークでは、１×１の空間次元を有する処理結果に対して、前記畳み込み層のフィルタの学習がなされていることを特徴とする請求項３に記載の処理装置。
画像に含まれた複数のパターンをパターンの種類毎にコンピュータで積算する処理方法であって、
前記コンピュータに画像を入力するステップと、
前記コンピュータが、入力した画像に対して、パターンの種類を分類した系統であって、かつパターンの種類の数よりも少ない種類の数の系統を教師データとして学習させたニューラルネットワークの処理を実行することによって、画像に含まれた複数のパターンのそれぞれをいずれかの系統として検出するステップと、
前記コンピュータが、検出した各系統の位置をもとに、画像から、系統が含まれた部分を複数抽出するステップと、
前記コンピュータが、抽出した複数の部分に対して、パターンの種類を分類した系統であって、かつパターンの種類の数よりも少ない種類の数の系統を教師データとして学習させたニューラルネットワークの処理を実行することによって、各系統に対する特定の中間層の中間データを取得するステップと、
前記コンピュータが、取得した中間データに対して、パターンの種類の数に応じたクラスタリングを実行するステップと、
前記コンピュータが、クラスタリングの結果である各クラスタに含まれたパターンの数を算出するステップと、
を含むことを特徴とする処理方法。