JP2019028657A

JP2019028657A - 建物領域抽出用の学習済みモデル

Info

Publication number: JP2019028657A
Application number: JP2017146451A
Authority: JP
Inventors: 竜平濱口; Ryuhei Hamaguchi
Original assignee: Pasco Corp
Current assignee: Pasco Corp
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2019-02-21
Anticipated expiration: 2037-07-28
Also published as: JP7048225B2

Abstract

【課題】拡張畳み込み演算を用いたニューラルネットワークからなる学習済みモデルを建物領域抽出に適用すると建物領域の境界が不明瞭になり易い。【解決手段】上空から撮影した画像から建物が存在する建物領域を抽出するよう、コンピュータを機能させるための学習済みモデルである建物判定モデルは、画像を入力層とし、それぞれ拡張畳み込み演算を行う畳み込み層であって、拡張係数が異なる複数種類の畳み込み層を積み重ねた特徴抽出層を有し、建物の存在確率を画素値とする建物確率画像を出力するニューラルネットワークで構成される。特徴抽出層は、入力層に続く複数の畳み込み層であって、当該畳み込み層の並び順に従って拡張係数が当該特徴抽出層における最大値まで増加するフロントエンド部と、フロントエンド部に続く複数の畳み込み層であって当該畳み込み層の並び順に従って拡張係数が減少する局所特徴抽出部とを含む。【選択図】図６

Description

本発明は、地表上の処理対象領域を上空から撮影した画像を基に、建物を識別し、識別した建物から建物領域を抽出するよう、コンピュータを機能させるための学習済みモデルに関する。

従来、航空写真または衛星画像など上空から取得した画像等のデータから建物を抽出する技術として、下記特許文献１には、航空写真等の画像上にて作業者が抽出したい建物を含む作業領域を指定し、当該作業領域にて建物の輪郭を自動的に抽出するシステムが開示されており、また下記特許文献２には、上空からレーザスキャナなどを用いて取得したＤＳＭ（Digital Surface Model：数値表層モデル）を使用して建物の輪郭を抽出する装置が開示されている。

ここで、特許文献１に示されるような技術では、作業コストが大きくなるため、大量の建物領域を抽出することは現実的ではない。また特許文献２に示されるような技術では、ＤＳＭの整備年度と航空写真や衛星画像の撮影年度とが相違すると、相違する期間での経年変化による誤差が生じ得る。

そこで新たな技術として、航空写真等の画像に畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）を適用して建物領域を抽出する手法が提案されている。

特開２０１１−７６１７８号公報特開２０１３−１０１４２８号公報

Fisher Yu, Vladlen Koltun, "Multi-scale Context Aggregation by Dilated Convolutions", In ICLR 2016.

しかし、ＣＮＮを用いた建物領域の抽出手法では、畳み込み層（Convolution layer）だけでなくプーリング層（Pooling layer）も含んで構成され、プーリング層では低解像度処理が行われる。そのため、出力データの解像度が低下し、建物領域が不明瞭になるという問題が存在する。つまり、航空写真や衛星画像に写る建物のように、画像上で抽出対象のオブジェクトが小さなサイズを有し、また密集して存在し得る場合に、抽出精度が低下し易い。

この従来のＣＮＮの問題の解決策として、プーリング層内の改良やDilated Convolutions（拡張畳み込み演算と称することにする。）を組み込むこと等が検討されている。これらのうち、拡張畳み込み演算は、解像度を下げずに受容野を広げる方法である（非特許文献１参照）。しかし、拡張畳み込み演算は、受容野を広げて処理する際、隣り合う情報を考慮しないため、建物領域の境界が不明瞭になり易いという問題があった。

本発明は上記問題点を解決するためになされたものであり、航空写真や衛星画像等の上空から撮影した画像に、拡張畳み込み演算を用いた畳み込みニューラルネットワークを適用して建物領域を好適な精度で抽出することを目的とする。

（１）本発明に係る学習済みモデルは、地表上の処理対象領域を上空から撮影した画像に基づいて、前記処理対象領域における建物が存在する建物領域を抽出するよう、コンピュータを機能させるための学習済みモデルであって、前記画像を入力層とし、それぞれ拡張畳み込み演算（dilated convolution）を行う畳み込み層であって、拡張係数（dilation factor）が異なる複数種類の畳み込み層を積み重ねた特徴抽出層を有し、前記建物の存在確率を画素値とする建物確率画像を出力するニューラルネットワークで構成され、前記特徴抽出層は、前記入力層に続く複数の前記畳み込み層であって、当該畳み込み層の並び順に従って前記拡張係数が当該特徴抽出層における最大値まで増加するフロントエンド部と、前記フロントエンド部に続く複数の前記畳み込み層であって、当該畳み込み層の並び順に従って前記拡張係数が減少する局所特徴抽出部とを含み、前記画像に関する訓練用画像データと当該訓練用画像データに対する前記建物確率画像の正解データとを用いて、前記各畳み込み層の畳み込み演算の重みパラメータが学習された、建物領域抽出用の学習済みモデルである。

（２）上記（１）に記載の学習済みモデルにおいて、前記最大値をｊ（ｊは３以上の自然数である。）として、前記フロントエンド部は、１乃至ｊそれぞれを前記拡張係数とするｊ種類の前記畳み込み層を含み、前記局所特徴抽出部は、１乃至ｊ−１それぞれを前記拡張係数とするｊ−１種類の前記畳み込み層を含む構成とすることができる。

本発明によれば、航空写真や衛星画像等の上空から撮影した画像から建物領域を好適な精度で抽出することが可能となる。

本発明の実施形態に係る学習装置の概略の構成を示すブロック図である。ＣＮＮの設計パラメータの例を示す模式図である。拡張畳み込み演算を用いたＣＮＮを説明する模式図である。拡張畳み込み演算を用いたＣＮＮにおいて最上層における近傍ユニット間の相関が弱まるという問題を説明する模式図である。拡張畳み込み演算を用いたＣＮＮにおいて入力データのローカルな特徴を拾いにくくなるという問題を説明する模式図である。拡張畳み込み演算を行う層としてフロントエンド部の後に局所特徴抽出部を設けたＣＮＮを説明する模式図である。最上層における近傍ユニット間の相関が弱まるという問題に対しての局所特徴抽出部を設けたＣＮＮの効果を説明する模式図である。入力データのローカルな特徴を拾いにくくなるという問題に対しての局所特徴抽出部を設けたＣＮＮの効果を説明する模式図である。２次元の拡張畳み込み演算に用いるカーネルの模式図である。本発明の実施形態に係る建物領域抽出装置の概略の構成を示すブロック図である。本発明の実施形態に係る建物領域抽出装置の処理を模式的に表した説明図である。建物確率画像の模式図である。

以下、本発明の実施の形態（以下実施形態という）である学習装置１及び建物領域抽出装置２について図面に基づいて説明する。学習装置１は本発明に係る学習済みモデルを生成する装置であり、具体的には、学習済みモデルとして、地表上の処理対象領域を上空から撮影した航空写真や衛星画像などに基づいて処理対象領域における建物が存在する建物領域を抽出するよう、コンピュータを機能させるための建物判定モデルを生成する。一方、建物領域抽出装置２は、本発明に係る建物判定モデルを用いて、航空写真や衛星画像などから、処理対象領域における建物領域を判定・抽出する装置である。

［学習装置］
図１は実施形態に係る学習装置１の概略の構成を示すブロック図である。学習装置１は、入力部１０、記憶部１１、処理部１２及び出力部１３を含んで構成される。入力部１０、記憶部１１及び出力部１３は処理部１２と接続される。

入力部１０は処理部１２への入力を行うためのユーザインターフェース装置であり、キーボード、マウス等からなる。入力部１０は、学習装置１にて学習データを指定したり、学習処理を起動したりする際にユーザにより操作される。

記憶部１１はＲＯＭ、ＲＡＭ、ハードディスク等の記憶装置であり、処理部１２で使用されるプログラムやデータを記憶する。記憶部１１はこれらプログラム、データを処理部１２との間で入出力する。本実施形態では記憶部１１に記憶されるデータには、設計パラメータ１１０、学習データ１１１及び建物判定モデル１１２が含まれる。

設計パラメータ１１０は、建物判定モデル１１２を構成するＣＮＮのネットワーク構造を規定するパラメータや、学習動作に関するパラメータであり、学習動作に際して予めユーザにより記憶部１１に記憶される。

図２は設計パラメータ１１０の例を示す模式図である。図２（ａ）はネットワーク構造を規定するパラメータの例を表形式で表している。「層」はＣＮＮの層構造における層の順序であり、この例ではネットワークは第１層〜第１７層で構成される。「処理」は当該層で行われる処理の種類を表している。一般的なＣＮＮで用いられる処理には、畳み込み（convolution）とプーリング（pooling）とが存在するが、学習装置１では、畳み込み処理として拡張畳み込み演算を用いることに対応して、プーリング層を省略して、全ての層は畳み込み層で構成される。また、各層が拡張畳み込み層であることに対応して、それぞれの層について拡張係数が設定される。カーネルサイズは、畳み込みフィルタのサイズを表すパラメータである。ここでは処理対象が画像であることに対応して、カーネルは２次元であり、図２（ａ）におけるカーネルサイズの値“ｋ”は“ｋ×ｋ”フィルタであることを意味する。拡張畳み込み演算で用いる具体的なカーネルについては後述する。各層の「特徴マップ数」は、当該層にて抽出される特徴マップの数である。なお、ストライド（カーネルの適用間隔）は各層について１に固定し、層ごとの設定を省略している。

図２（ｂ）は学習動作に関するパラメータの例を表形式で表している。最適化アルゴリズムは、モデルの予測値と実際の値との誤差から畳み込みの重みパラメータを更新し最適化する手法の種類であり、ここでは勾配降下法である“Ａｄａｍ”（adaptive moment estimation）を用い、初期学習率を１．０×１０^−３〜１．０×１０^−５の範囲で設定し、モーメンタム（１次，２次）を０．９，０．９９、荷重減衰係数を１．０×１０^−４にそれぞれ設定し、また学習率制御を線形減衰としている。また、バッチサイズを３２〜１２８の範囲で設定したデータとしたバッチ学習を行い、訓練イタレーション数は３００００回としている。

学習データ１１１は、訓練用画像データ及び、当該訓練用画像データに対する建物確率画像の正解データであり、学習データ１１１には訓練用画像データと正解データとの組が格納される。訓練用画像データは地表を撮影した航空写真や衛星画像であり、当該データには建物が写った画像が基本的に多数含まれ、また建物が写らない画像も含まれ得る。なお、当該画像データはカラー画像及びモノクロ画像のいずれであってもよい。正解データは、訓練用画像データにおける建物が写る領域とそれ以外の領域とに異なる画素値を付与した２値化画像であり、例えば、建物領域における画素値を“１”（白）、非建物領域における画素値を“０”（黒）と定義することができる。

例えば、訓練用画像データは、建物が比較的に密に存在する広範囲の航空写真等から、比較的小領域の画像を切り出して生成することができる。但し、当該小領域は、少なくとも１つの建物の全体を包含する必要があり、好適には、建物を複数個含み得る程度の大きさを有するように設定される。正解データは訓練用画像データに基づいて生成され、例えば、作業者の判読により作成することができる。

ここで、一群の訓練用画像データを、当該画像の撮影面積に占める建物領域の面積の割合Ｒの分布が広範囲に亘り、かつ偏りが少ない分布となるように用意することが建物領域の抽出精度を向上させる上で好適である。そこで、当該割合Ｒを訓練用画像データのピクセル数に対する建物領域のピクセル数の比の値に基づいて求め、例えば、Ｒが０％であるクラス、０％より大きく２５％以下であるクラス、２５％より大きく５０％以下であるクラス、５０％より大きく７５％以下であるクラス、７５％より大きく１００％以下であるクラスの５クラスを設定し、各クラスに同数ずつの訓練用画像データが含まれるように学習データ１１１を整備する。

なお、学習データ１１１の訓練用画像データとする航空写真や衛星画像にはオルソ画像を用いるのが好適である。

建物判定モデル１１２は、学習装置１により生成される学習モデルであり、処理部１２が機械学習にて学習データ１１１から複数の訓練用画像データと正解データとの組を順次読み出して処理するのに合わせて更新され、学習処理が完了すると学習済みモデルとして、建物領域抽出装置２での利用に供される。

処理部１２は、例えば、ＣＰＵ（Central Processing Unit）等の演算装置を用いて構成される。また、処理部１２を構成する演算装置はＣＰＵに代えて、ＭＰＵ（Micro-Processing Unit）や、画像処理を高速に実行するＧＰＵ（Graphics Processing Unit）等を用いてもよい。例えばＧＰＵの機能を画像処理以外の用途に転用する技術であるＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）を利用して、本実施形態に係る各機能を実現してもよい。具体的には処理部１２はコンピュータであり、当該コンピュータは記憶部１１からプログラムを読み出して実行し、パラメータ設定手段１２０、モデル学習手段１２１として機能する。

パラメータ設定手段１２０は、記憶部１１から設計パラメータ１１０を読み出して、モデル学習手段１２１に設定する。

モデル学習手段１２１は、設計パラメータ１１０に基づく学習処理により学習データ１１１から建物判定モデル１１２を生成する。すなわち、モデル学習手段１２１は、設計パラメータ１１０に基づいて多層構造のニューラルネットワークを設定する。具体的には、モデル学習手段１２１は、拡張畳み込み演算を行う畳み込み層であって拡張係数が異なる複数種類の畳み込み層を積み重ねた特徴抽出層を有するＣＮＮを設定する。そして、建物の存在確率を画素値とする建物確率画像が出力されるように、学習データ１１１を用いて当該ＣＮＮを訓練する。訓練にてモデル学習手段１２１は、訓練用画像データをＣＮＮに入力し、ＣＮＮの出力層に得られる建物の存在確率を正解データの２値化画像の画素値と比較して建物存在確率の誤差を評価する。そして、当該誤差が小さくなるように、ＣＮＮの各層に適用される畳み込みフィルタを構成する重みパラメータを調整する。この学習の基本的な手法は周知の技術に基づく。

出力部１３は、学習により生成された建物判定モデル１１２を学習装置１の外部へ出力するＵＳＢ端子、ＣＤドライブ、ネットワークアダプタ等のインターフェース回路、及びそれぞれのドライバ・プログラムからなる。本実施形態では、建物判定モデル１１２は出力部１３を介して建物領域抽出装置２へ渡される。また、出力部１３は、ディスプレイ、プリンタなど、ユーザが処理部１２の動作及びその結果を把握することを可能とするユーザインターフェース装置を含み得る。

図３は拡張畳み込み演算を説明する模式図である。学習装置１にて生成するＣＮＮが対象とするデータは画像データであり空間的に２次元のデータであるが、ここでは図示及び説明の簡素化のため、ＣＮＮの入力データを１次元データに単純化する。具体的には、図３にて一番下に位置する入力層にて水平方向に並ぶ複数の“○”印が入力データを構成する。“○”印で表す入力データの要素３０は、画像における画素（又は画素値）に相当する。

ここで、一般的なＣＮＮは、入力データからなる入力層と、畳み込み層とプーリング層とが積層された特徴抽出層と、特徴抽出層に接続される識別層と、出力データからなる出力層とを含む。図３に示すＣＮＮの構造は、このうち入力層及び特徴抽出層に対応し、特徴抽出層に続く構造は図示を省略している。

図３に示すＣＮＮは特徴抽出層として４層の畳み込み層を有し、各畳み込み層が拡張畳み込み演算を行う。入力層の上に位置する第１層の畳み込み層は拡張係数ｄ＝１の拡張畳み込み演算を行う。具体的には第１層にて“○”印で表す複数のユニット３１それぞれにて畳み込み演算が行われ、各ユニット３１は入力層の隣り合う２つの要素３０の値に重みを乗じて足し合わせた値を出力する。

第２層の畳み込み層は拡張係数ｄ＝２の拡張畳み込み演算を行う。具体的には第２層にて“○”印で表す複数のユニット３２それぞれにて畳み込み演算が行われ、各ユニット３２は第１層にて１つ置きのユニット３１の出力値に重みを乗じて足し合わせた値を出力する。

また、第３層の畳み込み層は拡張係数ｄ＝３の拡張畳み込み演算を行い、第３層の“○”印で表す各ユニット３３は第２層にて３つ置きのユニット３２の出力値に重みを乗じて足し合わせた値を出力し、第４層の畳み込み層は拡張係数ｄ＝４の拡張畳み込み演算を行い、第４層の“○”印で表す各ユニット３４は第３層にて７つ置きのユニット３３の出力値に重みを乗じて足し合わせた値を出力する。

図３には、第４層の或る１つのユニット３４の出力に畳み込まれる第１層乃至第３層のユニット及び入力層についてそれらの接続関係を線（エッジ）で例示している。拡張畳み込み演算では、拡張係数ｄに応じて指数関数的にカーネルの適用範囲が拡張される。例えば、図３のｄ＝１〜４の畳み込み演算のカーネルは、いずれも２つの入力を畳み込むフィルタ、つまりサイズが２のフィルタであるが、ｄ＝１のカーネルにより畳み込まれる２つの入力の１次元データの並びでの間隔は１であるのに対して、ｄ＝２のカーネルにより畳み込まれる２つの入力の間隔は２であり、またｄ＝３では当該間隔は４、ｄ＝４では当該間隔は８となる。つまり、間隔は２^ｄ−１に設定される。

このように拡張畳み込み演算では、カーネルの適用範囲を拡張することで、少ない層数で受容野を広げることができる。そして、畳み込みだけで受容野を広げるので、一般的なＣＮＮで用いるプーリング層が不要となり、プーリング層による解像度低下を回避できる。また、適用範囲を拡大する一方で、当該範囲内の要素を間引いて残った一部の要素しか畳み込まないことで、重みパラメータの増大が抑制される。

一方、拡張畳み込み演算を導入したＣＮＮに関し、図３の例のように順に拡張係数ｄが増加するように層を積み重ねる構造は、最上層における近傍ユニット間の相関が弱まるという問題や、入力データのローカルな特徴を拾いにくくなるという問題を有する。図４及び図５はこれらの問題を説明する模式図であり、それぞれのＣＮＮの構造は図３と同じであり、１次元データの入力層に対し、ｄ＝１，２，３，４の拡張畳み込み演算を行う層を順番に積み重ねた構造を有する。

図４は、最上層における近傍ユニット間の相関が弱まるという問題を説明する模式図である。図４には、最上層である第４層にて隣接するユニット４０ａ，４０ｂの出力に関与するユニットの接続関係を、ユニット４０ａに関して実線のエッジで、またユニット４０ｂに関して点線のエッジで示している。図４の例では、隣接するユニット４０ａ，４０ｂそれぞれに関する受容野が、最下層である入力層まで辿らないと互いにオーバーラップしない。つまり、或る層から上において、ユニット４０ａにつながるエッジ及びユニットと、ユニット４０ａにつながるエッジ及びユニットとが別々となり、上述した近傍ユニット間の相関が弱まるという問題を生じる。

図５は、入力データのローカルな特徴を拾いにくくなるという問題を説明する模式図である。図５には、第１層にて隣接するユニット４１ａ，４１ｂに関係する接続関係を、ユニット４１ａに関して実線のエッジで、またユニット４１ｂに関して点線のエッジで示している。図５の例では、第１層にて隣接するユニット４１ａ，４１ｂそれぞれからの情報を同時に受けるユニットが第２層〜第４層に存在しない。つまり、最上層にてユニット４１ａ，４１ｂが隣り合っているというローカルな情報を把握できないという問題を生じる。

図６は、拡張畳み込み演算を導入したＣＮＮにおいて上述の問題に対処する構造を説明する模式図である。図６に示すＣＮＮの構造は、図３と同様、入力層及び特徴抽出層に対応し、特徴抽出層に続く構造は図示を省略している。

図６のＣＮＮの特徴抽出層は、７層の畳み込み層からなり、図３の第４層の上にさらに第５層〜第７層を積み重ねた構造を有する。第５層は、ｄ＝３の拡張畳み込み演算を行い、また、第６層、第７層は、それぞれｄ＝２，ｄ＝１の拡張畳み込み演算を行う。ここで、図６に示す特徴抽出層の構造において、図３と同じ第１層〜第４層からなる部分をフロントエンド部と称し、これに続く第５層〜第７層からなる部分を局所特徴抽出部と称することにする。フロントエンド部は、入力層に続く複数の畳み込み層であり、フロントエンド部では、当該畳み込み層の並び順に従って拡張係数ｄが特徴抽出層における最大値まで増加する。一方、局所特徴抽出部は、フロントエンド部に続く複数の畳み込み層であり、局所特徴抽出部では当該畳み込み層の並び順に従って拡張係数が減少する。

図６は、第７層の或る１つのユニット３７の出力に畳み込まれる第１層乃至第６層のユニット及び入力層の接続関係を線で例示している。

図７及び図８は、局所特徴抽出部を設けたＣＮＮに関し、図４及び図５を用いて説明した問題に対する効果を説明する模式図であり、それぞれのＣＮＮの構造は、図６と同じであり、１次元データの入力層に対し、ｄ＝１，２，３，４，３，２，１の拡張畳み込み演算を行う層を順番に積み重ねた構造を有する。

図７は、最上層における近傍ユニット間の相関が弱まるという問題に対する効果を説明する模式図である。図７には、最上層である第７層にて隣接するユニット５０ａ，５０ｂの出力に関与するユニットの接続関係を、ユニット５０ａに関して実線のエッジで、またユニット５０ｂに関して点線のエッジで示している。図７の例では、隣接するユニット５０ａ，５０ｂそれぞれに関する受容野は、第６層以下の太線の“○”印で示すユニット及び太線で示すエッジの部分でオーバーラップする。よって、上述した近傍ユニット間の相関が弱まるという問題が解決される。

図８は、入力データのローカルな特徴を拾いにくくなるという問題に対する効果を説明する模式図である。図８には、第１層にて隣接するユニット５１ａ，５１ｂに関係する接続関係を、ユニット５１ａに関して実線のエッジで、またユニット５１ｂに関して点線のエッジで示している。図８の例では、最上層である第７層の太線の“○”印で示すユニットが第１層にて隣接するユニット５１ａ，５１ｂそれぞれからの情報を同時に受ける。よって、最上層にてユニット５１ａ，５１ｂが隣り合っているというローカルな情報を把握できないという問題が解決される。

すなわち、拡張畳み込み演算を用いたＣＮＮにおいて、フロントエンド部の後に局所特徴抽出部を設けた構成とすることで、フロントエンド部にて拡張畳み込み演算を積極的に利用し解像度を一切落とさずにコンテキストを得ると共に、局所特徴抽出部ではフロントエンド部により分散された局所特徴を集約する。これにより、コンテキストの情報と局所特徴の情報を有効活用でき、小さく密集したオブジェクトも認識可能となる。

以上、拡張畳み込み演算について１次元データへの適用例を用いて説明してきたが、既に述べたように、学習装置１にて対象とするデータは、画像データであり空間的に２次元のデータである。図９は、２次元の拡張畳み込み演算に用いるカーネルの模式図である。図において、格子の配列がＣＮＮの各層におけるユニットの２次元配列を表しており、畳み込まれるユニットに対応する格子に斜線を施している。

具体的には、図９に示すカーネルは３×３フィルタであり、図９（ａ）が拡張係数ｄ＝１の場合、また図９（ｂ），（ｃ）がそれぞれｄ＝２，ｄ＝３の場合のカーネルを示している。

図９の水平方向をｘ軸、垂直方向をｙ軸として第ｊ層のｘ軸方向にｉ_ｘ番目、ｙ軸方向にｉ_ｙ番目のユニットをＵ_ｊ（ｉ_ｘ，ｉ_ｙ）と表すと、Ｕ_ｊ（ｉ_ｘ，ｉ_ｙ）での図９のカーネルを用いた畳み込み演算では、例えば、カーネルの中心を（ｉ_ｘ，ｉ_ｙ）に配置し、第（ｊ−１）層のユニットのうち、Ｕ_ｊ−１（ｉ_ｘ，ｉ_ｙ），Ｕ_ｊ−１（ｉ_ｘ＋δ，ｉ_ｙ），Ｕ_ｊ−１（ｉ_ｘ−δ，ｉ_ｙ），Ｕ_ｊ−１（ｉ_ｘ，ｉ_ｙ＋δ），Ｕ_ｊ−１（ｉ_ｘ，ｉ_ｙ−δ），Ｕ_ｊ−１（ｉ_ｘ＋δ，ｉ_ｙ＋δ），Ｕ_ｊ−１（ｉ_ｘ＋δ，ｉ_ｙ−δ），Ｕ_ｊ−１（ｉ_ｘ−δ，ｉ_ｙ＋δ），Ｕ_ｊ−１（ｉ_ｘ−δ，ｉ_ｙ−δ）の９つの出力に重みパラメータを乗じて足し合わせる。ここで重みパラメータが定義されるユニットの間隔δは、拡張係数ｄに対してδ＝２^ｄ−１に設定される。

ＣＮＮのネットワーク構造は上述したように設計パラメータ１１０により定義される。ネットワーク構造は例えば、入力画像の解像度などに応じて変更することができる。

例えば、５０ｃｍの分解能を有する衛星画像に対しては、図２（ａ）に示したパラメータで構成されるＣＮＮを用いることが好適である。すなわち、第１層〜第１０層からなるフロントエンド部にて、拡張係数ｄを順に１，１，２，２，３，３，３，３，３，３に設定し、第１１層〜第１４層からなる局所特徴抽出部にて、拡張係数ｄを順に２，２，１，１に設定する。

ここで、解像度が高い画像ほど詳細が見える一方で、周囲のコンテキストを確保するためにより多くのピクセルをカバーすることが好適となる。そこで、ＣＮＮにおける最大の拡張係数ｄを入力画像の解像度に応じて設定し、解像度が高いほど畳み込み演算の受容野を広げるように構成する。例えば、上述の５０ｃｍの分解能の入力画像に対してはｄの最大値が３であったところ、例えば１６ｃｍ分解能を有する航空写真に対しては、ｄの最大値を４としたネットワーク構造を採用することができる。具体的には、フロントエンド部として、図２（ａ）の第１層〜第７層に続けて、拡張係数ｄ＝４の第８層〜第１０層を追加することができる。なお、これら第８層〜第１０層は、カーネルを他の層と同様の３×３フィルタとし、また特徴マップ数を５１２とする。局所特徴抽出部については、拡張係数ｄが順に３，３，２，２，１，１に設定される第１１層〜第１６層が設けられる。なお、第１１層〜第１６層のカーネルは３×３フィルタ、特徴マップ数は５１２とする。ちなみに、第１７層〜第１９層に識別層として、図２（ａ）の第１５層〜第１７層と同じ構成を設けることができる。

［建物領域抽出装置］
図１０は、実施形態に係る建物領域抽出装置２の概略の構成を示すブロック図である。建物領域抽出装置２は、入力部２０、記憶部２１、処理部２２及び出力部２３を含んで構成される。入力部２０、記憶部２１及び出力部２３は処理部２２と接続される。

入力部２０は処理部２２への入力を行うためのユーザインターフェース装置であり、キーボード、マウス等からなる。入力部２０は、建物領域抽出装置２にて建物領域抽出処理を起動したり、処理する画像や処理対象領域を指定したりする際にユーザにより操作される。また、入力部２０は建物判定モデル１１２を学習装置１から入力するＵＳＢ端子、ＣＤドライブ、ネットワークアダプタ等のインターフェース回路、及びそれぞれのドライバ・プログラムを含む。

記憶部２１はＲＯＭ、ＲＡＭ、ハードディスク等の記憶装置であり、処理部２２で使用されるプログラムやデータを記憶する。記憶部２１はこれらプログラム、データを処理部２２との間で入出力する。本実施形態では記憶部２１に記憶されるデータには、処理対象画像データ２１０及び建物判定モデル２１１が含まれる。

処理対象画像データ２１０は、建物を抽出する処理の対象領域とする地表を撮影した航空写真や衛星画像等である。なお、処理対象画像データ２１０には予めオルソ変換した航空写真や衛星画像等を格納することができる。一方、建物領域抽出装置２は、処理対象画像データ２１０にオルソ変換前の画像を格納し、処理部２２にてオルソ変換を行う構成としてもよい。

建物判定モデル２１１は、学習装置１により生成される学習済みモデルであり、学習装置１の記憶部１１に記憶される建物判定モデル１１２を導入して用いる。

処理部２２は、例えば、ＣＰＵ等の演算装置を用いて構成される。また、処理部２２を構成する演算装置は、上述した学習装置１の処理部１２と同様、ＣＰＵに代えて、ＭＰＵや、画像処理を高速に実行するＧＰＵ等を用いてもよい。具体的には処理部２２はコンピュータであり、当該コンピュータは記憶部２１からプログラムを読み出して実行し、判定手段２２０として機能する。

判定手段２２０は、処理対象画像データ２１０における建物領域を判定、抽出する。図１１は建物領域抽出装置２の処理を模式的に表した説明図である。建物領域抽出装置２は判定手段２２０により、処理対象画像データ２１０から、学習データ１１１の訓練用画像データに応じたサイズでパッチ画像６０を切り出して建物判定モデル２１１に入力し、画像６１に示すように、個々の建物を分離された領域として抽出する。ちなみに、画像６１において白で示す領域が建物の領域である。

具体的には、判定手段２２０はパッチ画像６０を建物判定モデル２１１に入力し、建物判定モデル２１１は、入力画像に対応する建物確率画像を生成する。図１２は、建物確率画像の模式図である。図において２次元配列される格子が建物確率画像の画素であり、例えば、入力画像の各画素に対応して設定される。建物確率画像の各画素には、対応する入力画像の位置での建物の存在確率が画素値として付与され、図において格子内の数値が当該確率を表している。

さらに、判定手段２２０は、建物確率画像を所定の閾値で２値化して、図１１に示す画像６１に相当する出力を得る。判定手段２２０は当該出力から例えば、建物の領域を特定したり、建物の個数や面積を算出したりすることができる。この領域抽出や個数・面積の算出は周知の画像処理技術を用いて行うことができる。

本発明の学習済みモデルである建物判定モデルを用いることで、航空写真や衛星画像といったリモートセンシング画像から小さい構造物や建築物等を認識できるようになる。つまり、本発明の建物判定モデルは、建物の新築や滅失などの把握に利用することができ、家屋異動に関する統計の基礎情報の取得を可能とする。さらに、建物領域を精度良く抽出可能となることで、個々の建物の時間的変移を把握でき、また、抽出された建物領域の大きさや形状から建物の詳細属性（例えば、戸建、マンション、工場といった建物の種類）を判別することも可能になる。

そして、画像からの建物に関するこれらの情報抽出作業の自動化が図られることで、広範囲の地表を処理対象とした当該作業を低コストで高速に行うことが可能となる。

なお、上記実施形態では、建物抽出を行う画像として航空写真や衛星画像を挙げて説明したが、本発明の建物判定モデルは、建物が小さいサイズで密集して存在する画像から建物を高精度で認識でき、そのような画像であれば航空写真や衛星画像ではなくても本発明の建物判定モデルを適用可能である。さらに、本発明の学習済みモデルは、建物以外のオブジェクトについて生成して、画像内の小さいサイズで密集して存在する当該オブジェクトを好適に判定することができる。

１学習装置、２建物領域抽出装置、１０，２０入力部、１１，２１記憶部、１２，２２処理部、１３，２３出力部、１１０設計パラメータ、１１１学習データ、１１２建物判定モデル、１２０パラメータ設定手段、１２１モデル学習手段、２１０処理対象画像データ、２１１建物判定モデル、２２０判定手段。

Claims

地表上の処理対象領域を上空から撮影した画像に基づいて、前記処理対象領域における建物が存在する建物領域を抽出するよう、コンピュータを機能させるための学習済みモデルであって、
前記画像を入力層とし、それぞれ拡張畳み込み演算（ｄｉｌａｔｅｄｃｏｎｖｏｌｕｔｉｏｎ）を行う畳み込み層であって拡張係数（ｄｉｌａｔｉｏｎｆａｃｔｏｒ）が異なる複数種類の畳み込み層を積み重ねた特徴抽出層を有し、前記建物の存在確率を画素値とする建物確率画像を出力するニューラルネットワークで構成され、
前記特徴抽出層は、前記入力層に続く複数の前記畳み込み層であって、当該畳み込み層の並び順に従って前記拡張係数が当該特徴抽出層における最大値まで増加するフロントエンド部と、前記フロントエンド部に続く複数の前記畳み込み層であって当該畳み込み層の並び順に従って前記拡張係数が減少する局所特徴抽出部とを含み、
前記画像に関する訓練用画像データと当該訓練用画像データに対する前記建物確率画像の正解データとを用いて前記各畳み込み層の畳み込み演算の重みパラメータが学習された、建物領域抽出用の学習済みモデル。
請求項１に記載の学習済みモデルにおいて、
前記最大値をｊ（ｊは３以上の自然数である。）として、
前記フロントエンド部は、１乃至ｊそれぞれを前記拡張係数とするｊ種類の前記畳み込み層を含み、
前記局所特徴抽出部は、１乃至ｊ−１それぞれを前記拡張係数とするｊ−１種類の前記畳み込み層を含むこと、
を特徴とする学習済みモデル。