JP7096034B2 - Building extraction system - Google Patents

Building extraction system Download PDF

Info

Publication number
JP7096034B2
JP7096034B2 JP2018062646A JP2018062646A JP7096034B2 JP 7096034 B2 JP7096034 B2 JP 7096034B2 JP 2018062646 A JP2018062646 A JP 2018062646A JP 2018062646 A JP2018062646 A JP 2018062646A JP 7096034 B2 JP7096034 B2 JP 7096034B2
Authority
JP
Japan
Prior art keywords
building
detector
learning
range
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018062646A
Other languages
Japanese (ja)
Other versions
JP2019175140A (en
Inventor
竜平 濱口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pasco Corp
Original Assignee
Pasco Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pasco Corp filed Critical Pasco Corp
Priority to JP2018062646A priority Critical patent/JP7096034B2/en
Publication of JP2019175140A publication Critical patent/JP2019175140A/en
Application granted granted Critical
Publication of JP7096034B2 publication Critical patent/JP7096034B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は建築物抽出システムに関する。 The present invention relates to a building extraction system.

航空写真や衛星画像など、上空から取得した画像等のデータから建物を抽出する技術が研究されている。特許文献1には、航空写真等の画像上にて作業者が抽出したい建物を含む作業領域を指定し、当該作業領域にて建物の輪郭を自動的に抽出するシステムが開示されており、また下記特許文献2には、上空からレーザスキャナなどを用いて取得したDSM(Digital Surface Model:数値表層モデル)を使用して建物の輪郭を抽出する装置が開示されている。 Techniques for extracting buildings from data such as images acquired from the sky, such as aerial photographs and satellite images, are being researched. Patent Document 1 discloses a system in which a work area including a building that a worker wants to extract is specified on an image such as an aerial photograph, and the outline of the building is automatically extracted in the work area. Patent Document 2 below discloses an apparatus for extracting the contour of a building from the sky using a DSM (Digital Surface Model) acquired from the sky using a laser scanner or the like.

特許文献3には、歩行者を認識するための物体検出装置において、3つのスケールを有するアンサンブル検出器が開示されており、スケールにより検出するべき歩行者の画像のサイズが異なることが開示されている。 Patent Document 3 discloses an ensemble detector having three scales in an object detection device for recognizing a pedestrian, and discloses that the size of an image of a pedestrian to be detected differs depending on the scale. There is.

特開2011-76178号公報Japanese Unexamined Patent Publication No. 2011-76178 特開2013-101428号公報Japanese Unexamined Patent Publication No. 2013-101428 特開2018-5520号公報Japanese Unexamined Patent Publication No. 2018-5520

発明者らは、例えば、建物の異動(新築や取り壊し)を検出する作業負荷を軽減するために、畳み込みニューラルネットワークを利用して建物を抽出する手法を開発している。畳み込みニューラルネットワークを用いて建物を抽出する場合、建物の抽出における見落としを抑制することが困難であった。 The inventors are developing a method of extracting a building using a convolutional neural network, for example, in order to reduce the workload of detecting a change (new construction or demolition) of a building. When extracting a building using a convolutional neural network, it was difficult to suppress oversight in the extraction of the building.

本発明は上記課題を鑑みてなされたものであって、その目的は、建物の抽出における見落としを抑制することが可能な建築物抽出システムを提供することにある。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a building extraction system capable of suppressing oversight in the extraction of buildings.

(1)面積が第1の範囲に属する複数の建物について、第1の縮尺を有する第1の学習用入力画像と、前記第1の学習用入力画像に含まれる前記複数の建物の形状を示す情報の教師データとを用いて学習された第1の建物検出器と、面積が前記第1の範囲と異なる第2の範囲に属する複数の建物について、第2の縮尺を有する第2の学習用入力画像と、前記第2の学習用入力画像に含まれる複数の建物の形状を示す情報を含む教師データとを用いて学習させた第2の建物検出器と、地表上の学習対象領域が上空から撮影された第1の入力画像の特徴情報を前記第1の建物検出器に入力し、前記第1の入力画像が前記第1の縮尺と前記第2の縮尺との比に応じて拡大または縮小された第2の入力画像の特徴情報を前記第2の建物検出器に入力する入力部と、前記第1の入力画像の特徴情報に対する前記第1の建物検出器の出力と、前記第2の入力画像の特徴情報に対する第2の建物検出器の出力とを統合する統合部と、を含む建築物抽出システム。 (1) For a plurality of buildings whose areas belong to the first range, the first learning input image having the first scale and the shapes of the plurality of buildings included in the first learning input image are shown. A second learning device having a second scale for a first building detector learned using informational teacher data and a plurality of buildings belonging to a second range whose area is different from the first range. A second building detector trained using the input image and teacher data including information indicating the shapes of a plurality of buildings included in the second learning input image, and a learning target area on the ground surface are in the sky. The feature information of the first input image taken from the above is input to the first building detector, and the first input image is enlarged or enlarged according to the ratio of the first scale to the second scale. An input unit that inputs the feature information of the reduced second input image to the second building detector, an output of the first building detector with respect to the feature information of the first input image, and the second. A building extraction system that includes an integrated unit that integrates the output of a second building detector with respect to the feature information of the input image of.

(2)(1)において、前記第2の縮尺は、前記第1の縮尺と異なる、建築物抽出システム。 (2) In (1), the second scale is a building extraction system different from the first scale.

(3)(2)において、前記第1の範囲の最大値は、前記第2の範囲の最大値より大きく、
前記第1の縮尺は、前記第2の縮尺より小さい、建築物抽出システム。
(3) In (2), the maximum value of the first range is larger than the maximum value of the second range.
The first scale is a building extraction system smaller than the second scale.

(4)(1)から(3)のいずれかにおいて、前記第1の建物検出器の出力に含まれる建物、および、前記第2の建物検出器の出力に含まれる建物を面積に基づいて除去するフィルタをさらに含む、建築物抽出システム。 (4) In any of (1) to (3), the building included in the output of the first building detector and the building included in the output of the second building detector are removed based on the area. A building extraction system that further includes filters to do.

(5)(1)から(4)のいずれかにおいて、前記統合部は、前記第1の入力画像の特徴情報に対する前記第1の建物検出器の出力と、前記第2の入力画像の特徴情報に対する第2の建物検出器の出力との縮尺が一致するように、前記2つの出力のうち少なくとも一方を拡大または縮小する処理を実行し、前記処理が実行された前記2つの出力を重畳させる、建築物抽出システム。 (5) In any of (1) to (4), the integrated unit has the output of the first building detector with respect to the feature information of the first input image and the feature information of the second input image. A process of enlarging or reducing at least one of the two outputs is executed so that the scale of the output of the second building detector and the output of the second building detector are the same, and the two outputs for which the process is executed are superimposed. Building extraction system.

(6)(1)から(5)のいずれかにおいて、前記第1の範囲および前記第2の範囲のうちいずれかに属する複数の建物について、第1の候補縮尺を有する第3の学習用入力画像と、前記第3の学習用入力画像に含まれる前記複数の建物の形状を示す情報の教師データとを用いて学習された第1の候補検出器と、第2の候補縮尺を有する第4の学習用入力画像と、前記第4の学習用入力画像に含まれる前記複数の建物の形状を示す情報の教師データとを用いて学習された第2の候補検出器とのそれぞれの、建物の形状の検出精度を評価する評価部と、前記評価部により評価された検出精度に基づいて、前記第1の候補検出器および前記第2の候補検出器のうち一つを、前記第1の建物検出器および前記第2の建物検出器のうちいずれかとして選択する検出器選択部と、をさらに含む、建築物抽出システム。 (6) In any of (1) to (5), a third learning input having a first candidate scale for a plurality of buildings belonging to any one of the first range and the second range. A first candidate detector trained using the image and teacher data of information indicating the shape of the plurality of buildings included in the third learning input image, and a fourth having a second candidate scale. Of the building, the second candidate detector learned using the learning input image of the above and the teacher data of the information indicating the shapes of the plurality of buildings included in the fourth learning input image. Based on the evaluation unit that evaluates the shape detection accuracy and the detection accuracy evaluated by the evaluation unit, one of the first candidate detector and the second candidate detector is used in the first building. A building extraction system further comprising a detector and a detector selection unit for selection as any of the second building detectors.

(7)(1)から(6)のいずれかにおいて、前記統合部は、前記入力された入力画像の特徴情報に対する、前記第1の建物検出器の出力と前記第2の建物検出器の出力とのいずれかにおいて建物と認識された領域を、建物のある領域と判定する、建築物抽出システム。 (7) In any of (1) to (6), the integrated unit outputs the output of the first building detector and the output of the second building detector with respect to the feature information of the input input image. A building extraction system that determines an area recognized as a building in any of the above to be an area with a building.

本発明の実施形態にかかる建築物抽出システムのハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware composition of the building extraction system which concerns on embodiment of this invention. 建築物抽出システムの機能構成を示すブロック図である。It is a block diagram which shows the functional structure of a building extraction system. 学習検出器の種類を説明する図である。It is a figure explaining the kind of a learning detector. スケールの違いを説明する図である。It is a figure explaining the difference of scale. 学習検出器の構成の概要を示す図である。It is a figure which shows the outline of the structure of the learning detector. プーリングモデルの学習検出器に含まれる層を説明する図である。It is a figure explaining the layer contained in the learning detector of a pooling model. ダイレーションモデルの学習検出器に含まれる層を説明する図である。It is a figure explaining the layer included in the learning detector of the dilation model. 拡張畳み込み演算における層構造の一例を説明する図である。It is a figure explaining an example of the layer structure in the extended convolution operation. 学習検出器を学習させる処理の一例を示すフロー図である。It is a flow diagram which shows an example of the process which makes a learning detector learn. 窓画像のそれぞれに対する学習実行部の処理の一例を示すフロー図である。It is a flow diagram which shows an example of the processing of the learning execution part for each of window images. 教師データの一例を示す図である。It is a figure which shows an example of a teacher data. 学習検出器を評価する処理の一例を示すフロー図である。It is a flow diagram which shows an example of the process which evaluates a learning detector. 評価結果を示す図である。It is a figure which shows the evaluation result. 建物の領域を判定する処理の概要を説明する図である。It is a figure explaining the outline of the process of determining the area of a building. 処理対象画像から全体出力画像を生成する処理の流れを示すフロー図である。It is a flow chart which shows the flow of the process which generates the whole output image from the process target image.

以下では、本発明の実施形態について図面に基づいて説明する。出現する構成要素のうち同一機能を有するものには同じ符号を付し、その説明を省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. Among the components that appear, those having the same function are designated by the same reference numerals, and the description thereof will be omitted.

本実施形態にかかる建築物抽出システムでは、ニューラルネットワークを用いた学習済みモデルである建物検出器に、建物を抽出する処理の対象領域とする地表を撮影した航空写真や衛星画像等(航空写真や衛星画像に基づくオルソ画像であってよく、以下では「処理対象画像」と表記する)の特徴情報を入力し、建物検出器から出力された画像に基づいて建物領域を判定・抽出する。建築物抽出システムは、処理対象画像から建物を識別する際には、3つの建物検出器を用いる。また、3つの建物検出器は、それぞれ、面積がS,M,Lの範囲に属する建物をより高精度に検出するように構成されている。例えば、面積の範囲Sは45m未満であり、面積の範囲Mは、45m以上131m未満であり、面積の範囲Lは131m以上である。おおむね、面積の範囲Lに属する建物はマンションや大型商業施設に対応し、面積の範囲Mはアパートや小売店に対応し、面積の範囲Sは一般家屋に対応する。 In the building extraction system according to the present embodiment, an aerial photograph, a satellite image, or the like (aerial photograph or satellite image) obtained by taking a ground surface as a target area of the processing for extracting a building is applied to a building detector which is a trained model using a neural network. It may be an ortho image based on a satellite image, and is referred to as a “processed image” below), and the building area is determined and extracted based on the image output from the building detector. The building extraction system uses three building detectors when identifying a building from the image to be processed. Further, each of the three building detectors is configured to detect buildings having an area in the range of S, M, and L with higher accuracy. For example, the area range S is less than 45 m 2 , the area range M is 45 m 2 or more and less than 131 m 2 , and the area range L is 131 m 2 or more. Generally, the buildings belonging to the area range L correspond to condominiums and large commercial facilities, the area range M corresponds to apartments and retail stores, and the area range S corresponds to general houses.

また、本実施形態にかかる建築物抽出システムでは、面積の範囲S,M,Lのそれぞれについて、ニューラルネットワークの種類や、入力される学習用画像のスケール(縮尺)が互いに異なる複数の建物検出器に対して学習が行われ、面積の範囲S,M,Lのそれぞれについて、複数の建物検出器から最も良い建物検出器が選択され、選択された建物検出器が、処理対象データからの建物領域の検出に用いられる。 Further, in the building extraction system according to the present embodiment, there are a plurality of building detectors having different types of neural networks and scales (scales) of input learning images for each of the area ranges S, M, and L. The best building detector is selected from a plurality of building detectors for each of the area ranges S, M, and L, and the selected building detector is the building area from the data to be processed. Is used to detect.

図1は、本発明の実施形態にかかる建築物抽出システムのハードウェア構成を示す図である。建築物抽出システムは、学習サーバ1を含む。学習サーバ1は、サーバコンピュータであり、プロセッサ11、記憶部12、通信部13、入出力部14を含む。 FIG. 1 is a diagram showing a hardware configuration of a building extraction system according to an embodiment of the present invention. The building extraction system includes a learning server 1. The learning server 1 is a server computer, and includes a processor 11, a storage unit 12, a communication unit 13, and an input / output unit 14.

プロセッサ11は、記憶部12に格納されているプログラムに従って動作する。またプロセッサ11は通信部13を制御し、入出力部14に接続されたデバイスを制御する。ここでは、プロセッサ11は、いわゆるCPU(Central Processing Unit)や、並列計算機として用いられるGPU(Graphics Processing Unit)を含んでよい。なお、上記プログラムは、インターネット等を介して提供されるものであってもよいし、フラッシュメモリやDVD-ROM等のコンピュータで読み取り可能な記憶媒体に格納されて提供されるものであってもよい。 The processor 11 operates according to the program stored in the storage unit 12. Further, the processor 11 controls the communication unit 13 and controls the device connected to the input / output unit 14. Here, the processor 11 may include a so-called CPU (Central Processing Unit) or a GPU (Graphics Processing Unit) used as a parallel computer. The above program may be provided via the Internet or the like, or may be stored and provided in a computer-readable storage medium such as a flash memory or a DVD-ROM. ..

記憶部12は、RAMやフラッシュメモリ等のメモリ素子やハードディスクドライブによって構成されている。記憶部12は、上記プログラムを格納する。また、記憶部12は、各部から入力される情報や演算結果を格納する。 The storage unit 12 is composed of a memory element such as a RAM or a flash memory and a hard disk drive. The storage unit 12 stores the above program. Further, the storage unit 12 stores information and calculation results input from each unit.

通信部13は、他の装置と通信する機能を実現するものであり、例えば有線LANの集積回路などにより構成されている。通信部13は、それぞれプロセッサ11の制御に基づいて、他の装置との間で情報を送受信する。また通信部13は、受信された情報をプロセッサ11や記憶部12に入力する。通信部13は、例えばLANにより他の機器と接続されている。 The communication unit 13 realizes a function of communicating with other devices, and is configured by, for example, an integrated circuit of a wired LAN. The communication unit 13 transmits / receives information to / from other devices based on the control of the processor 11. Further, the communication unit 13 inputs the received information to the processor 11 and the storage unit 12. The communication unit 13 is connected to another device by, for example, a LAN.

入出力部14は、表示出力デバイスをコントロールするビデオコントローラや、入力デバイスからのデータを取得するコントローラなどにより構成される。入力デバイスとしては、キーボード、マウス、タッチパネルなどがある。入出力部14は、プロセッサ11の制御に基づいて、表示出力デバイスに表示データを出力し、入力デバイスをユーザが操作することにより入力されるデータを取得する。表示出力デバイスは例えば外部に接続されるディスプレイ装置である。 The input / output unit 14 includes a video controller that controls a display output device, a controller that acquires data from the input device, and the like. Input devices include keyboards, mice, touch panels, and the like. The input / output unit 14 outputs display data to the display output device based on the control of the processor 11, and acquires the data input by the user operating the input device. The display output device is, for example, a display device connected to the outside.

次に、建築物抽出システムの機能の概要について説明する。図2は、建築物抽出システムの機能構成を示すブロック図である。建築物抽出システムは、機能的に、学習データ取得部51と、学習実行部52と、学習検出器セット53と、評価データ取得部56と、評価実行部57と、検出器選択部58と、実行検出器セット61と、対象データ入力部65と、出力取得部66と、フィルタ部67と、統合部68と、画像出力部69とを含む。これらの機能は、主に、プロセッサ11が記憶部12に格納されたプログラムを実行し、記憶部12に格納されるデータにアクセスすることで実現される。これらの全ての機能が、学習サーバ1により実行されてもよいし、その一部の機能が他のサーバで実行されてもよい。例えば、対象データ入力部65、実行検出器セット61、出力取得部66、フィルタ部67、統合部68、画像出力部69の機能が、プロセッサ11、記憶部12、通信部13、入出力部14を有する他のサーバにより実現されてもよい。 Next, the outline of the function of the building extraction system will be described. FIG. 2 is a block diagram showing a functional configuration of a building extraction system. The building extraction system functionally includes a learning data acquisition unit 51, a learning execution unit 52, a learning detector set 53, an evaluation data acquisition unit 56, an evaluation execution unit 57, a detector selection unit 58, and the like. It includes an execution detector set 61, a target data input unit 65, an output acquisition unit 66, a filter unit 67, an integration unit 68, and an image output unit 69. These functions are mainly realized by the processor 11 executing the program stored in the storage unit 12 and accessing the data stored in the storage unit 12. All of these functions may be executed by the learning server 1, or some of the functions may be executed by another server. For example, the functions of the target data input unit 65, the execution detector set 61, the output acquisition unit 66, the filter unit 67, the integrated unit 68, and the image output unit 69 are the processor 11, the storage unit 12, the communication unit 13, and the input / output unit 14. It may be realized by another server having.

学習検出器セット53は、複数の学習検出器54を有する。本実施形態では、学習検出器54の数は6であり、学習検出器54のそれぞれは、面積の範囲S,M,Lに関わらず共通の学習がなされる共通部540と、それぞれ面積の範囲S,M,Lに応じた学習がなされる個別部541,542,543とを有する。学習検出器54のそれぞれは、互いに異なる、ニューラルネットワークの種類と入力される学習用画像のスケールの組み合わせについて学習がなされる。 The learning detector set 53 has a plurality of learning detectors 54. In the present embodiment, the number of learning detectors 54 is 6, and each of the learning detectors 54 has a common portion 540 in which common learning is performed regardless of the area ranges S, M, and L, and an area range of each. It has individual units 541, 542, 543 for learning according to S, M, and L. Each of the learning detectors 54 learns about different combinations of neural network types and input training image scales.

学習データ取得部51は、学習用入力画像と、その学習用入力画像に含まれる建物の形状を示す教師データとを取得する。学習実行部52は、学習用入力画像と教師データとを用いて学習検出器54を学習させる。 The learning data acquisition unit 51 acquires a learning input image and teacher data indicating the shape of the building included in the learning input image. The learning execution unit 52 trains the learning detector 54 using the input image for learning and the teacher data.

評価データ取得部56は、評価用入力画像と、その評価用入力画像に含まれる建物の形状を示す正解データとを取得する。評価用入力画像および正解データは、学習用入力画像および教師データと同じであってもよい。評価実行部57は、評価用入力画像と正解データとを用いて、学習検出器54のそれぞれについて、個別部541,542,543のそれぞれについて、その建物の形状の検出精度を評価する。 The evaluation data acquisition unit 56 acquires an evaluation input image and correct answer data indicating the shape of the building included in the evaluation input image. The evaluation input image and the correct answer data may be the same as the learning input image and the teacher data. The evaluation execution unit 57 evaluates the detection accuracy of the shape of the building for each of the individual units 541, 542, 543 for each of the learning detectors 54 using the evaluation input image and the correct answer data.

検出器選択部58は、評価実行部57により評価された検出精度に基づいて、面積の範囲S,M,Lのそれぞれについて、入力対象データに対する建物の検出を行う学習検出器54を選択する。選択された学習検出器54の少なくとも一部は、実行検出器セット61を構成する実行検出器62,63,64として使用される。より具体的には、面積の範囲Sについて選択された学習検出器54に含まれる共通部540および個別部541の組み合わせが、面積の範囲Sに対応する実行検出器62に含まれる、共通部620および個別部621となる。面積の範囲Mについて選択された学習検出器54に含まれる共通部540および個別部542の組み合わせが、面積の範囲Mに対応する実行検出器63に含まれる、共通部630および個別部631となる。面積の範囲Lについて選択された学習検出器54に含まれる共通部540および個別部543の組み合わせが、面積の範囲Lに対応する実行検出器64に含まれる、共通部640および個別部641となる。 The detector selection unit 58 selects the learning detector 54 that detects the building with respect to the input target data for each of the area ranges S, M, and L, based on the detection accuracy evaluated by the evaluation execution unit 57. At least a part of the selected learning detector 54 is used as the execution detectors 62, 63, 64 constituting the execution detector set 61. More specifically, the combination of the common part 540 and the individual part 541 included in the learning detector 54 selected for the area range S is included in the execution detector 62 corresponding to the area range S, the common part 620. And the individual part 621. The combination of the common part 540 and the individual part 542 included in the learning detector 54 selected for the area range M becomes the common part 630 and the individual part 631 included in the execution detector 63 corresponding to the area range M. .. The combination of the common part 540 and the individual part 543 included in the learning detector 54 selected for the area range L becomes the common part 640 and the individual part 641 included in the execution detector 64 corresponding to the area range L. ..

対象データ入力部65は、入力対象画像を取得し、その入力対象画像を必要に応じ加工し、入力対象画像を実行検出器62,63,64に入力する。出力取得部66は、実行検出器62,63,64が出力する出力画像を取得する。 The target data input unit 65 acquires an input target image, processes the input target image as necessary, and inputs the input target image to the execution detectors 62, 63, 64. The output acquisition unit 66 acquires the output image output by the execution detectors 62, 63, 64.

フィルタ部67は、実行検出器62,63,64の出力画像に含まれる建物を、面積に基づいて除去し、フィルタされた出力画像を生成する。 The filter unit 67 removes the buildings included in the output images of the execution detectors 62, 63, 64 based on the area, and generates a filtered output image.

統合部68は、フィルタされた、実行検出器62,63,64の出力画像を統合する。統合部68は、実行検出器62,63,64の出力画像のいずれかにおいて建物と認識された領域が、建物のある領域と判定された画像を生成する。 The integration unit 68 integrates the filtered output images of the execution detectors 62, 63, 64. The integration unit 68 generates an image in which the area recognized as a building in any of the output images of the execution detectors 62, 63, and 64 is determined to be a certain area of the building.

画像出力部69は、統合部68により統合された画像を記憶部12や表示出力デバイスへ出力する。 The image output unit 69 outputs the image integrated by the integration unit 68 to the storage unit 12 or the display output device.

次に、学習検出器セット53およびそれに含まれる学習検出器54の詳細について説明する。図3は、学習検出器54の種類を説明する図である。図3に示される表の「No」は、6つの学習検出器54に振られた番号を示す。「スケール」はその番号の学習検出器54に投入される学習用入力画像のスケールを示し、はじめに用意される学習用入力画像をスケールに示される倍率で調整(必要に応じた拡大または縮小)され、スケールにかかわらず同じピクセル数を有するように切り出された学習用入力画像(以下では切り出された学習用入力画像を「窓画像」と記載する)が学習検出器54に入力される。「モデル種類」はその番号の学習検出器54の内部を構成するニューラルネットワークの種類を示す。「Pooling」はCNN(Convolutional Neural Network)の中でも畳み込み層とプーリング層とを組み合わせたモデル(以下では「プーリングモデル」と記載する)であることを示し、「Dilation」は拡張畳み込み演算を行う畳み込み層を用いるモデル(以下では「ダイレーションモデル」と記載する)であることを示す。 Next, the details of the learning detector set 53 and the learning detector 54 included therein will be described. FIG. 3 is a diagram illustrating the types of the learning detector 54. “No” in the table shown in FIG. 3 indicates a number assigned to the six learning detectors 54. "Scale" indicates the scale of the learning input image input to the learning detector 54 of that number, and the learning input image prepared at the beginning is adjusted (enlarged or reduced as necessary) at the magnification indicated on the scale. , A learning input image cut out so as to have the same number of pixels regardless of the scale (hereinafter, the cut out learning input image is referred to as a “window image”) is input to the learning detector 54. The "model type" indicates the type of the neural network constituting the inside of the learning detector 54 of the number. "Polling" indicates that it is a model that combines a convolutional layer and a pooling layer (hereinafter referred to as "pooling model") in CNN (Convolutional Neural Network), and "Dilation" is a convolutional layer that performs an extended convolutional operation. It is shown that it is a model using (hereinafter referred to as "dilation model").

図4は、スケールの違いを説明する図である。図4(a)は、スケールが0.5倍の場合の窓画像の一例であり、図4(b)、図4(c)は、それぞれ、スケールが1倍、2倍の場合の窓画像の一例である。図4(a)~(c)に示される窓画像は、同じ領域を含んでいる。窓画像のピクセル数は、どれもPx×Pyである。PxおよびPyの値は、例えば32や64であってよい。スケールが0.5倍の場合の学習用入力画像は、スケールが1.0の場合の学習用入力画像を、縦横のドット数が1/2倍になるように縮小する(間引く)ことで得られ、スケールが2.0倍の場合の学習用入力画像は、スケールが1.0の場合の学習用入力画像を縦横のドット数が2倍になるように拡大する(ドット間に線形補間等によるドットを配置する)ことで得られる。この学習用入力画像の拡大または縮小は、学習データ取得部51により行われる。 FIG. 4 is a diagram illustrating the difference in scale. FIG. 4A is an example of a window image when the scale is 0.5 times, and FIGS. 4B and 4C are window images when the scale is 1x and 2x, respectively. This is an example. The window images shown in FIGS. 4A to 4C include the same area. The number of pixels of the window image is Px × Py. The values of Px and Py may be, for example, 32 or 64. The learning input image when the scale is 0.5 times is obtained by reducing (thinning) the learning input image when the scale is 1.0 so that the number of vertical and horizontal dots is halved. The learning input image when the scale is 2.0 times is enlarged so that the number of vertical and horizontal dots is doubled (linear interpolation between dots, etc.). It is obtained by arranging dots by). Enlarging or reducing the learning input image is performed by the learning data acquisition unit 51.

図5は、学習検出器54の構成の概要を示す図である。学習検出器54は、前述のように、共通部540と個別部541,542,543を有する。共通部540は複数の層を有し、また個別部541,542,543は、同じ数の層を有する。共通部540の1番目の層には調整された学習用入力画像が入力され、最後の層の出力である特徴情報は、個別部541,542,543のそれぞれの1番目の層に入力される。個別部541,542,543の出力は、例えば16×16ドットの画像であり、その各ドットはそのドットの位置における建物の存在確率を示す。 FIG. 5 is a diagram showing an outline of the configuration of the learning detector 54. As described above, the learning detector 54 has a common unit 540 and individual units 541, 542, 543. The common part 540 has a plurality of layers, and the individual parts 541, 542, 543 have the same number of layers. The adjusted input image for learning is input to the first layer of the common part 540, and the feature information which is the output of the last layer is input to the first layer of each of the individual parts 541, 542, 543. .. The output of the individual portions 541, 542, 543 is, for example, an image of 16 × 16 dots, and each dot indicates the existence probability of the building at the position of the dot.

図6は、プーリングモデルの学習検出器54に含まれる層を説明する図であり、図6には各層が、処理順に記載されている。所属の欄において、「共通」と記載される層は共通部540に存在し、「個別」と記載される層は個別部541,542,543に存在する。ここで、「個別」に記載される層は、個別部541,542,543のそれぞれに存在している。処理種類は、各層の種類を示しており、「input」は入力層、「convolution」は畳み込み層、「pooling(s2)」は、ストライド(カーネルの適用間隔)が2であるプーリング層を示している。カーネルサイズは、畳み込みフィルタのサイズを表すパラメータである。ここでは処理対象が画像であることに対応して、カーネルは2次元であり、カーネルサイズの値「k」は“k×k”フィルタであることを意味する。各層の「特徴マップ数」は、当該層にて抽出される特徴マップの数であり、チャネルともよばれる。なお、ストライドは特に記載のない限り1であり、層ごとの記載を省略している。 FIG. 6 is a diagram illustrating layers included in the learning detector 54 of the pooling model, and FIG. 6 shows each layer in the order of processing. In the column of affiliation, the layer described as "common" exists in the common unit 540, and the layer described as "individual" exists in the individual units 541, 542, 543. Here, the layers described in "individual" exist in each of the individual portions 541, 542, 543. The processing type indicates the type of each layer, "input" indicates an input layer, "convolution" indicates a convolution layer, and "pooling (s2)" indicates a pooling layer having a stride (kernel application interval) of 2. There is. The kernel size is a parameter that represents the size of the convolution filter. Here, corresponding to the processing target being an image, the kernel is two-dimensional, and the kernel size value "k" means that it is a "k × k" filter. The "number of feature maps" of each layer is the number of feature maps extracted in the layer, and is also called a channel. The stride is 1 unless otherwise specified, and the description for each layer is omitted.

図7は、ダイレーションモデルの学習検出器に含まれる層を説明する図である。図7の記載も図6の記載に準じているが、ダイレーションモデルにおける「convolution」の層は拡張畳み込み層を示しており、その拡張畳み込み層の設定が拡張係数の欄に示されている。 FIG. 7 is a diagram illustrating layers included in the learning detector of the dilation model. The description of FIG. 7 is also based on the description of FIG. 6, but the layer of “convolution” in the dilation model indicates an extended convolution layer, and the setting of the expanded convolution layer is shown in the column of expansion coefficient.

拡張畳み込み演算についてさらに説明する。図8は、拡張畳み込み演算における層構造の一例を説明する図である。学習用入力画像などの入力画像は空間的に2次元のデータであるが、ここでは図示及び説明の簡素化のため、学習検出器54への入力データを1次元データに単純化して説明する。具体的には、図8にて一番下に位置する入力層にて水平方向に並ぶ複数の“○”印が入力データを構成する。“○”印で表す入力データの要素30は、入力画像における画素(又は画素値)に相当する。図8に示される畳み込み層はいわゆる特徴抽出層であり、特徴抽出層に続く層の記載を省略している。 The extended convolution operation will be further described. FIG. 8 is a diagram illustrating an example of a layer structure in the extended convolution operation. The input image such as the input image for learning is spatially two-dimensional data, but here, for the sake of simplification of illustration and explanation, the input data to the learning detector 54 will be simplified and described as one-dimensional data. Specifically, a plurality of "○" marks arranged in the horizontal direction in the input layer located at the bottom in FIG. 8 constitute input data. The element 30 of the input data represented by the “◯” mark corresponds to a pixel (or a pixel value) in the input image. The convolutional layer shown in FIG. 8 is a so-called feature extraction layer, and the description of the layer following the feature extraction layer is omitted.

図8に示されるニューラルネットワークは特徴抽出層として7層の畳み込み層を有し、各畳み込み層が拡張畳み込み演算を行う。入力層の上に位置する第1層の畳み込み層は拡張係数d=1の拡張畳み込み演算を行う。具体的には第1層にて“○”印で表す複数のユニット31それぞれにて畳み込み演算が行われ、各ユニット31は入力層の隣り合う2つの要素30の値に重みを乗じて足し合わせた値を出力する。 The neural network shown in FIG. 8 has seven convolution layers as feature extraction layers, and each convolution layer performs an extended convolution operation. The convolution layer of the first layer located above the input layer performs an expansion convolution operation with an expansion coefficient d = 1. Specifically, a convolution operation is performed on each of the plurality of units 31 represented by "○" in the first layer, and each unit 31 multiplies the values of two adjacent elements 30 of the input layer and adds them together. Output the value.

第2層の畳み込み層は拡張係数d=2の拡張畳み込み演算を行う。具体的には第2層にて“○”印で表す複数のユニット32それぞれにて畳み込み演算が行われ、各ユニット32は第1層にて1つ置きのユニット31の出力値に重みを乗じて足し合わせた値を出力する。 The second convolutional layer performs an extended convolution operation with an expansion coefficient d = 2. Specifically, a convolution operation is performed on each of the plurality of units 32 represented by "○" in the second layer, and each unit 32 multiplies the output value of every other unit 31 in the first layer by a weight. The added value is output.

また、第3層の畳み込み層は拡張係数d=3の拡張畳み込み演算を行い、第3層の“○”印で表す各ユニット33は第2層にて3つ置きのユニット32の出力値に重みを乗じて足し合わせた値を出力し、第4層の畳み込み層は拡張係数d=4の拡張畳み込み演算を行い、第4層の“○”印で表す各ユニット34は第3層にて7つ置きのユニット33の出力値に重みを乗じて足し合わせた値を出力する。第5層の各ユニット35は、d=3の拡張畳み込み演算を行い、また、第6層の各ユニット36、第7層の各ユニット37は、それぞれd=2,d=1の拡張畳み込み演算を行う。 Further, the convolution layer of the third layer performs an expansion convolution operation having an expansion coefficient d = 3, and each unit 33 represented by the “○” mark of the third layer is the output value of every three units 32 in the second layer. The value obtained by multiplying the weights and adding them is output, the convolutional layer of the 4th layer performs the extended convolution operation with the expansion coefficient d = 4, and each unit 34 represented by the “○” mark of the 4th layer is the 3rd layer. The output value of every seven units 33 is multiplied by a weight and added together to output the value. Each unit 35 of the fifth layer performs an extended convolution operation of d = 3, and each unit 36 of the sixth layer and each unit 37 of the seventh layer perform an extended convolution operation of d = 2, d = 1, respectively. I do.

ここで、図8に示す特徴抽出層の構造において、第1層~第4層からなる部分をフロントエンド部と称し、これに続く第5層~第7層からなる部分を局所特徴抽出部と称することにする。フロントエンド部は、入力層に続く複数の畳み込み層であり、フロントエンド部では、当該畳み込み層の並び順に従って拡張係数dが特徴抽出層における最大値まで増加する。一方、局所特徴抽出部は、フロントエンド部に続く複数の畳み込み層であり、局所特徴抽出部では当該畳み込み層の並び順に従って拡張係数が減少する。 Here, in the structure of the feature extraction layer shown in FIG. 8, the portion consisting of the first layer to the fourth layer is referred to as a front end portion, and the portion consisting of the subsequent fifth layer to the seventh layer is referred to as a local feature extraction portion. I will call it. The front end portion is a plurality of convolution layers following the input layer, and in the front end portion, the expansion coefficient d increases to the maximum value in the feature extraction layer according to the order of the convolution layers. On the other hand, the local feature extraction unit is a plurality of convolutional layers following the front end portion, and the expansion coefficient of the local feature extraction unit decreases according to the order of the convolutional layers.

図8は、第7層の或る1つのユニット37の出力に畳み込まれる第1層から第6層のユニット及び入力層の接続関係を線で例示している。拡張畳み込み演算では、拡張係数dに応じて指数関数的にカーネルの適用範囲が拡張される。例えば、図8のd=1~4の畳み込み演算のカーネルは、いずれも2つの入力を畳み込むフィルタ、つまりサイズが2のフィルタであるが、d=1のカーネルにより畳み込まれる2つの入力の1次元データの並びでの間隔は1であるのに対して、d=2のカーネルにより畳み込まれる2つの入力の間隔は2であり、またd=3では当該間隔は4、d=4では当該間隔は8となる。つまり、間隔は2d-1に設定されている。 FIG. 8 illustrates the connection relationship between the units of the first layer to the sixth layer and the input layer convoluted to the output of one unit 37 of the seventh layer by a line. In the extended convolution operation, the scope of application of the kernel is expanded exponentially according to the expansion coefficient d. For example, the kernel of the convolution operation of d = 1 to 4 in FIG. 8 is a filter that convolves two inputs, that is, a filter of size 2, but one of the two inputs convolved by the kernel of d = 1. The spacing in the sequence of dimensional data is 1, whereas the spacing between the two inputs convolved by the kernel with d = 2 is 2, and at d = 3, the spacing is 4, and at d = 4, the spacing is 4. The interval is 8. That is, the interval is set to 2 d-1 .

フロントエンド部におけるユニットおよび入力層の接続関係からわかるように、拡張畳み込み演算では、カーネルの適用範囲を拡張することで、少ない層数で受容野を広げることができる。そして、畳み込みだけで受容野を広げるので、一般的なCNNで用いるプーリング層が不要となり、プーリング層による解像度低下を回避できる。また、適用範囲を拡大する一方で、当該範囲内の要素を間引いて残った一部の要素しか畳み込まないことで、重みパラメータの増大が抑制される。 As can be seen from the connection relationship between the unit and the input layer in the front end part, in the extended convolution operation, the receptive field can be expanded with a small number of layers by expanding the applicable range of the kernel. Since the receptive field is expanded only by convolution, the pooling layer used in a general CNN becomes unnecessary, and the resolution deterioration due to the pooling layer can be avoided. Further, while expanding the applicable range, the increase of the weight parameter is suppressed by thinning out the elements within the range and convolving only a part of the remaining elements.

一方、フロントエンド部のように、順に拡張係数dが増加するように層を積み重ねる構造は、最上層における近傍ユニット間の相関が弱まるという問題や、入力データのローカルな特徴を拾いにくくなるという問題を有する。局所特徴抽出部はこの問題を解決するために設けられており、フロントエンド部と局所特徴抽出部とを組み合わせることで、第7層のあるユニットにおいて近傍ユニット間の相関が弱まるという問題や、第1層のユニット31a,31bが隣り合っているというローカルな情報を把握できないという問題が解決されている。 On the other hand, a structure in which layers are stacked so that the expansion coefficient d increases in order, such as the front end part, has a problem that the correlation between neighboring units in the uppermost layer is weakened and a problem that it is difficult to pick up local characteristics of input data. Have. The local feature extraction unit is provided to solve this problem, and by combining the front end unit and the local feature extraction unit, the problem that the correlation between neighboring units is weakened in a unit with the 7th layer, and the second The problem that the local information that the units 31a and 31b of one layer are adjacent to each other cannot be grasped is solved.

言い換えると、フロントエンド部の後に局所特徴抽出部を設けた構成とすることで、フロントエンド部にて拡張畳み込み演算を積極的に利用し解像度を一切落とさずにコンテキストを得ると共に、局所特徴抽出部ではフロントエンド部により分散された局所特徴を集約する。これにより、コンテキストの情報と局所特徴の情報を有効活用でき、小さく密集したオブジェクトも認識可能となっている。 In other words, by providing a local feature extraction section after the front end section, the front end section actively uses the extended convolution operation to obtain context without reducing the resolution at all, and the local feature extraction section. Now, the local features distributed by the front end part are aggregated. As a result, contextual information and local feature information can be effectively utilized, and even small and dense objects can be recognized.

次に、これまでに説明した学習検出器54を、スケールに応じた学習用入力画像と、その学習用画像に含まれる建物の形状を示す教師データとを用いて学習させる処理の詳細について説明する。 Next, the details of the process of training the learning detector 54 described so far by using the learning input image according to the scale and the teacher data indicating the shape of the building included in the learning image will be described. ..

図9は、学習検出器54を学習させる処理の一例を示すフロー図である。図9には、学習データ取得部51および学習実行部52の処理が記載されており、この処理により、学習検出器54が学習される。また、図9に示される処理は、学習検出器54ごとに繰り返し回数だけ行われる。 FIG. 9 is a flow chart showing an example of a process for learning the learning detector 54. FIG. 9 shows the processing of the learning data acquisition unit 51 and the learning execution unit 52, and the learning detector 54 is learned by this processing. Further, the process shown in FIG. 9 is performed for each learning detector 54 by the number of repetitions.

学習データ取得部51は、記憶部12に格納された学習用画像を取得する(ステップS101)。学習用画像は、建物を抽出する処理の対象領域とする地表を撮影した航空写真や衛星画像等(航空写真や衛星画像に基づくオルソ画像であってよい)である。次に、学習データ取得部51は、学習用画像のサイズを、学習検出器54のスケールに合わせるように設定する(ステップS102)。例えば、学習検出器54のスケールが0.5倍であれば学習用画像を0.5倍に縮小し、スケールが2倍であれば学習用画像を2倍に拡大する。なお、ステップS102の処理をする代わりに、予めスケールの種類のそれぞれに対応した複数の学習用画像を準備しておき、学習データ取得部51が学習検出器54のスケールに対応する画像を読み込んでもよい。 The learning data acquisition unit 51 acquires a learning image stored in the storage unit 12 (step S101). The learning image is an aerial photograph, a satellite image, or the like (which may be an ortho image based on the aerial photograph or the satellite image) taken on the ground surface as the target area of the processing for extracting the building. Next, the learning data acquisition unit 51 sets the size of the learning image to match the scale of the learning detector 54 (step S102). For example, if the scale of the learning detector 54 is 0.5 times, the learning image is reduced to 0.5 times, and if the scale is 2 times, the learning image is enlarged 2 times. Even if a plurality of learning images corresponding to each of the scale types are prepared in advance instead of the processing of step S102, and the learning data acquisition unit 51 reads the images corresponding to the scale of the learning detector 54. good.

そして、学習実行部52は、スケールに合わせるように設定された学習用画像から、学習検出器54に入力する窓画像を切出す(ステップS103)。窓画像は、Px×Pyのサイズであり、1つの学習用画像から、ランダムに位置を選択し、選択した位置をもとに学習用画像から窓画像が切り出す。 Then, the learning execution unit 52 cuts out a window image to be input to the learning detector 54 from the learning image set to match the scale (step S103). The window image has a size of Px × Py, and a position is randomly selected from one learning image, and the window image is cut out from the learning image based on the selected position.

学習実行部52は、学習用画像から切り出された窓画像を入力し、出力を教師データと比較することで学習検出器54を学習させる(ステップS104)。 The learning execution unit 52 inputs a window image cut out from the learning image, and trains the learning detector 54 by comparing the output with the teacher data (step S104).

図10は、窓画像のそれぞれに対する学習実行部52の処理の一例を示すフロー図であり、ステップS104の処理をさらに詳細に説明する図である。ステップS104では、はじめに、学習実行部52は、学習検出器54の共通部540へ、学習用画像から切り出された窓画像を入力する(ステップS121)。これにより、学習検出器54の共通部540が窓画像を処理し、さらに共通部540の出力を個別部541,542,543が処理する。そして、学習実行部52は、学習検出器54の個別部541,542,543のそれぞれの出力画像を取得する(ステップS122)。ここで、以下では、面積の範囲Sに対応する個別部541の出力画像を出力画像(S)、面積の範囲Mに対応する個別部542の出力画像を出力画像(M)、面積の範囲Lに対応する個別部543の出力画像を出力画像(L)と記載する。また、個別部541,542,543の出力画像をまとめて出力画像(S,M,L)と記載する。ここで、出力画像(S,M,L)の各ドットの値は、建物の領域の存在確率を示している。 FIG. 10 is a flow chart showing an example of the processing of the learning execution unit 52 for each of the window images, and is a diagram for explaining the processing in step S104 in more detail. In step S104, first, the learning execution unit 52 inputs the window image cut out from the learning image to the common unit 540 of the learning detector 54 (step S121). As a result, the common unit 540 of the learning detector 54 processes the window image, and the individual units 541, 542, 543 further process the output of the common unit 540. Then, the learning execution unit 52 acquires the output images of the individual units 541, 542, 543 of the learning detector 54 (step S122). Here, in the following, the output image of the individual unit 541 corresponding to the area range S is the output image (S), the output image of the individual unit 542 corresponding to the area range M is the output image (M), and the area range L. The output image of the individual unit 543 corresponding to the above is referred to as an output image (L). Further, the output images of the individual portions 541, 542, 543 are collectively referred to as output images (S, M, L). Here, the value of each dot of the output image (S, M, L) indicates the existence probability of the area of the building.

次に、学習実行部52は、学習検出器54の出力画像(S,M,L)と、教師データとの誤差を算出する(ステップS123)。ここで、教師データは、学習用画像データに含まれる建物の形状を示す情報である。 Next, the learning execution unit 52 calculates an error between the output image (S, M, L) of the learning detector 54 and the teacher data (step S123). Here, the teacher data is information indicating the shape of the building included in the learning image data.

図11は、教師データの一例を示す図である。図11に示される教師データは、図4に示される窓画像を含む学習用画像に対応しているビットマップ画像である。図11に示される教師データは、面積が範囲Sに属する建物の領域(例えばA)と、範囲Mに属する建物の領域(例えばB)と、範囲Lに属する建物の領域(例えばC)とが区別されている。教師データは、例えば、建物のない領域のドットの値を0、面積が範囲S,M,Lの建物の領域のドットの値をそれぞれ1,2,3に設定された画像であってもよい。また、教師データは、面積が範囲Sに属する建物の領域のドットの値が1である画像と、面積が範囲Mに属する建物の領域のドットの値が1である画像と、面積が範囲Lに属する建物の領域のドットの値が1である画像との複数のレイヤーに相当する画像であってもよい。 FIG. 11 is a diagram showing an example of teacher data. The teacher data shown in FIG. 11 is a bitmap image corresponding to the learning image including the window image shown in FIG. In the teacher data shown in FIG. 11, the area of the building whose area belongs to the range S (for example, A), the area of the building belonging to the range M (for example, B), and the area of the building belonging to the range L (for example, C) are included. It is distinguished. The teacher data may be, for example, an image in which the dot value of the area without a building is set to 0 and the dot value of the area of the building having the areas S, M, and L is set to 1, 2, and 3, respectively. .. Further, the teacher data includes an image in which the dot value of the area of the building whose area belongs to the range S is 1, an image in which the dot value of the area of the building whose area belongs to the range M is 1, and the area L. It may be an image corresponding to a plurality of layers with an image in which the dot value of the area of the building belonging to is 1.

学習実行部52は、誤差の算出において、学習用画像の窓画像の中央の16×16ドットに相当する位置の画像を教師データから切り出し、そして、出力画像(S,M,L)のそれぞれと、教師データとを比較する。ここで、学習実行部52は、教師データのうち建物のない領域および範囲Sに属する建物の領域については出力画像(S)との誤差を算出するが、範囲M,Lに属する建物の領域については誤差を算出しない。同様に、学習実行部52は、範囲S,Lに属する建物の領域について出力画像(M)との誤差を算出せず、範囲S,Mに属する建物の領域について出力画像(L)との誤差を算出しない。これにより、個別部541,542,543のそれぞれが、面積の範囲S,M,Lの建物の検出に適するように学習が進む。 In the calculation of the error, the learning execution unit 52 cuts out an image at a position corresponding to 16 × 16 dots in the center of the window image of the learning image from the teacher data, and with each of the output images (S, M, L). , Compare with teacher data. Here, the learning execution unit 52 calculates an error from the output image (S) for the area of the teacher data without a building and the area of the building belonging to the range S, but the area of the building belonging to the ranges M and L. Does not calculate the error. Similarly, the learning execution unit 52 does not calculate the error with the output image (M) for the area of the building belonging to the ranges S and L, and the error with the output image (L) with respect to the area of the building belonging to the ranges S and M. Is not calculated. As a result, learning proceeds so that each of the individual portions 541, 542, 543 is suitable for detecting a building in the area ranges S, M, and L.

次に、学習実行部52は、算出された誤差に基づいて、誤差逆伝播法(バックプロパゲーション)などにより、個別部541,542,543における重み等のパラメータの値を変更する(ステップS124)。また、学習実行部52は、個別部541,542,543のそれぞれの最上位の層から共通部の最下層に伝播させるべき誤差を積算し(ステップS125)、積算された誤差に基づいて、誤差逆伝播法などにより、共通部540における重み等のパラメータの値を変更する(ステップS126)。 Next, the learning execution unit 52 changes the values of parameters such as weights in the individual units 541, 542, 543 by an error back propagation method (backpropagation) or the like based on the calculated error (step S124). .. Further, the learning execution unit 52 integrates the error to be propagated from the highest layer of each of the individual units 541, 542, 543 to the lowest layer of the common unit (step S125), and based on the integrated error, the error is calculated. The value of the parameter such as the weight in the common portion 540 is changed by the back propagation method or the like (step S126).

ステップS103およびステップS104(図9)に示される学習の処理は、ある学習用画像から学習に用いるすべての窓画像が取得されるまで繰り返される。この処理のセットは、すべての学習検出器54のそれぞれに対して繰り返し行われ、それにより、各学習検出器54が学習される。ここで、ステップS103の処理の代わりに、学習に用いる複数の窓画像をまとめて切り出す処理を行ってもよい。この場合、窓画像を入力し学習検出器54を学習させる処理が切り出された窓画像のそれぞれについて行われるように、ステップS104の処理が繰り返し実行されてよい。 The learning process shown in step S103 and step S104 (FIG. 9) is repeated until all the window images used for learning are acquired from a certain learning image. This set of processes is repeated for each of all the learning detectors 54, thereby learning each learning detector 54. Here, instead of the process of step S103, a process of collectively cutting out a plurality of window images used for learning may be performed. In this case, the process of step S104 may be repeatedly executed so that the process of inputting the window image and training the learning detector 54 is performed for each of the cut out window images.

次に、学習済の学習検出器54を評価し、実際に処理対象画像から建物の領域を抽出する処理を実行させるための学習検出器54を実行検出器62,63,64として選択する処理の詳細について説明する。 Next, in the process of evaluating the learned learning detector 54 and selecting the learning detector 54 for actually executing the process of extracting the building area from the image to be processed as the execution detectors 62, 63, 64. The details will be described.

図12は、学習検出器54を評価する処理の一例を示すフロー図である。この処理では、はじめに、評価データ取得部56は、記憶部12から評価用画像および正解データを取得する(ステップS201)。評価用画像は学習用画像と同じであってもよく、異なってもよい。評価用画像の縮尺は学習用画像と同じである。正解データは評価用画像のうち面積の範囲S,M,Lのそれぞれに属する建物の領域を示す画像であり、評価用画像と学習用画像とが同じ場合は、正解データは教師データであってよい。また、図12には図示されていないが、評価データ取得部56は、学習データ取得部51と同様に、評価用画像のサイズを学習検出器54のスケールに合わせるように設定する。 FIG. 12 is a flow chart showing an example of processing for evaluating the learning detector 54. In this process, first, the evaluation data acquisition unit 56 acquires an evaluation image and correct answer data from the storage unit 12 (step S201). The evaluation image may be the same as the learning image or may be different. The scale of the evaluation image is the same as that of the learning image. The correct answer data is an image showing the area of the building belonging to each of the area ranges S, M, and L in the evaluation image, and when the evaluation image and the learning image are the same, the correct answer data is the teacher data. good. Further, although not shown in FIG. 12, the evaluation data acquisition unit 56 sets the size of the evaluation image to match the scale of the learning detector 54, similarly to the learning data acquisition unit 51.

次に、評価実行部57は、評価用画像から、学習検出器54に入力する窓画像を切出す(ステップS202)。より具体的には、評価実行部57は、切り出される領域がこれまでに切り出された窓領域と比べて所定数のドットがずれるように窓画像を切り出す。所定数のドットは1ドット以上、16ドット以下の任意の大きさとすることができる。所定数の上限である16は、学習検出器54の出力が16×16ドットの画像であることに対応している。所定数は学習検出器54の出力の縦または横の大きさ以下である。評価実行部57は、評価用画像から切り出された窓画像を学習検出器54へ入力し(ステップS203)、学習検出器54の個別部541,542,543のそれぞれの出力画像(S,M,L)を取得する(ステップS204)。ここで、評価実行部57は、取得された出力画像を、各ドットの存在確率の値が閾値より大きいか小さいかに基づいて2値化し、2値化された出力画像を記憶部12に格納する。以下の処理では、出力画像は2値化された出力画像を指すものとする。そして、すべての窓画像について学習検出器54の処理を行うまで、ステップS202からS204の処理を繰り返す(ステップS205参照)。 Next, the evaluation execution unit 57 cuts out a window image to be input to the learning detector 54 from the evaluation image (step S202). More specifically, the evaluation execution unit 57 cuts out a window image so that a predetermined number of dots are deviated from the window area cut out so far. The predetermined number of dots can be any size of 1 dot or more and 16 dots or less. The upper limit of 16 corresponding to the predetermined number corresponds to the output of the learning detector 54 being an image of 16 × 16 dots. The predetermined number is equal to or less than the vertical or horizontal size of the output of the learning detector 54. The evaluation execution unit 57 inputs the window image cut out from the evaluation image to the learning detector 54 (step S203), and outputs the respective output images (S, M, 543) of the individual units 541, 542, 543 of the learning detector 54. L) is acquired (step S204). Here, the evaluation execution unit 57 binarizes the acquired output image based on whether the value of the existence probability of each dot is larger or smaller than the threshold value, and stores the binarized output image in the storage unit 12. do. In the following processing, the output image refers to the binarized output image. Then, the processes of steps S202 to S204 are repeated until the process of the learning detector 54 is performed for all the window images (see step S205).

すべての窓画像についての出力画像(S,M,L)が得られると、評価実行部57は、それらの窓画像に対応する位置に出力画像(S)が配置された全体画像(S)と、それらの窓画像に対応する位置に出力画像(M)が配置された全体画像(M)と、それらの窓画像に対応する位置に出力画像(L)が配置された全体画像(L)と、を生成する(ステップS206)。より具体的には、評価実行部57は出力画像(S,M,L)を窓画像の配置に対応するように互いに所定数のドットずれるように配置することで、全体画像(S,M,L)を生成する。ここで、窓画像を切出す際のずれの大きさである所定数のドットが16ドットより小さい場合、各窓画像から得られる出力画像(S,M,L)のうち少なくとも一部のドットが他の窓画像についての出力画像(S,M,L)と重なる。評価実行部57は、複数の窓画像の出力において位置が重なるドットについては、出力画像のドットの値が平均された平均値を全体画像(S,M,L)におけるドットの値とする。これにより、隣り合う出力画像(S,M,L)の境界が滑らかにつながらない場合であっても、それに起因する不整合が全体画像に表れることを防ぐことができる。 When the output images (S, M, L) for all the window images are obtained, the evaluation execution unit 57 together with the whole image (S) in which the output images (S) are arranged at the positions corresponding to those window images. , The whole image (M) in which the output image (M) is arranged at the position corresponding to those window images, and the whole image (L) in which the output image (L) is arranged at the position corresponding to those window images. , Are generated (step S206). More specifically, the evaluation execution unit 57 arranges the output images (S, M, L) so as to be offset by a predetermined number of dots from each other so as to correspond to the arrangement of the window images, so that the entire image (S, M, L) can be arranged. L) is generated. Here, when a predetermined number of dots, which is the size of the deviation when cutting out the window image, is smaller than 16 dots, at least some of the dots in the output image (S, M, L) obtained from each window image are It overlaps with the output images (S, M, L) for other window images. For dots whose positions overlap in the output of a plurality of window images, the evaluation execution unit 57 uses the average value obtained by averaging the dot values of the output image as the dot value in the entire image (S, M, L). As a result, even when the boundaries of adjacent output images (S, M, L) are not smoothly connected, it is possible to prevent the inconsistency caused by the inconsistency from appearing in the entire image.

そして、評価実行部57は全体画像と正解データとを比較し、学習検出器54の個別部541,542,543のそれぞれについて精度を評価する(ステップS207)。精度の評価は、例えば、評価実行部57は正解データのうち面積の範囲Sに属する建物が存在する領域に、出力画像(S)において建物と判定された領域が存在する割合(Recall)を求めることで行う。評価実行部57は、正解データのうち面積の範囲M,Lに属する建物の領域と、出力画像(M)、出力画像(L)に存在する建物の領域とにおいても、同様に精度を評価する。 Then, the evaluation execution unit 57 compares the entire image with the correct answer data, and evaluates the accuracy of each of the individual units 541, 542, 543 of the learning detector 54 (step S207). In the accuracy evaluation, for example, the evaluation execution unit 57 obtains the ratio (Recall) in which the area determined to be a building in the output image (S) exists in the area where the building belonging to the area range S exists in the correct answer data. Do it by. The evaluation execution unit 57 similarly evaluates the accuracy in the area of the building belonging to the area ranges M and L of the correct answer data and the area of the building existing in the output image (M) and the output image (L). ..

ステップS202からステップS207の処理により、1つの学習検出器54の精度が評価される。そして、評価実行部57は、すべての学習検出器54について精度を評価していない場合、ステップS202からの処理を繰り返し(ステップS208)、これにより、評価実行部57は、すべての学習検出器54の精度を評価する。 The accuracy of one learning detector 54 is evaluated by the processing of steps S202 to S207. Then, when the evaluation execution unit 57 has not evaluated the accuracy of all the learning detectors 54, the process from step S202 is repeated (step S208), whereby the evaluation execution unit 57 causes all the learning detectors 54. Evaluate the accuracy of.

図13は、評価実行部57による評価結果を示す図である。図13における「No」は、図3に示されるものと同じく、学習検出器54に振られた番号を示す。図13の例では、面積の範囲がSである、個別部541の出力については、スケールが1.0倍かつダイレーションモデルである学習検出器54が最も精度がよい。また、面積の範囲がMである個別部542の出力については、スケールが1.0倍かつプーリングモデルの学習検出器54が最も精度がよく、面積の範囲がLである個別部543の出力については、スケールが0.5倍かつプーリングモデルの学習検出器54が最も精度がよい。 FIG. 13 is a diagram showing the evaluation results by the evaluation execution unit 57. “No” in FIG. 13 indicates a number assigned to the learning detector 54, as shown in FIG. In the example of FIG. 13, for the output of the individual unit 541 whose area range is S, the learning detector 54 having a scale of 1.0 times and a dilation model has the highest accuracy. Regarding the output of the individual unit 542 having an area range of M, the output of the individual unit 543 having a scale of 1.0 times, the learning detector 54 of the pooling model having the highest accuracy, and the area range of L being L. The scale is 0.5 times and the learning detector 54 of the pooling model is the most accurate.

学習検出器54の精度が評価されると、検出器選択部58は、面積の範囲S,M,Lのそれぞれについて、最も精度の高い学習検出器54を、実行検出器62,63,64として選択する(ステップS209)。実行検出器62は、面積の範囲Sについて最も精度の高い学習検出器54に含まれる、共通部540(以下では共通部620という)と個別部541(以下では個別部621という)との組み合わせである。実行検出器63は、面積の範囲Mについて最も精度の高い学習検出器54に含まれる、共通部540(以下では共通部630という)と個別部542(以下では個別部631という)との組み合わせである。実行検出器64は、面積の範囲Lについて元も精度の高い学習検出器54に含まれる、共通部540(以下では共通部640という)と個別部543(以下では個別部641という)との組み合わせである。 When the accuracy of the learning detector 54 is evaluated, the detector selection unit 58 sets the learning detector 54 with the highest accuracy as the execution detectors 62, 63, 64 for each of the area ranges S, M, and L. Select (step S209). The execution detector 62 is a combination of a common part 540 (hereinafter referred to as a common part 620) and an individual part 541 (hereinafter referred to as an individual part 621) included in the learning detector 54 having the highest accuracy in the area range S. be. The execution detector 63 is a combination of a common part 540 (hereinafter referred to as a common part 630) and an individual part 542 (hereinafter referred to as an individual part 631) included in the learning detector 54 having the highest accuracy for the area range M. be. The execution detector 64 is a combination of a common part 540 (hereinafter referred to as a common part 640) and an individual part 543 (hereinafter referred to as an individual part 641), which are originally included in the learning detector 54 having high accuracy in the area range L. Is.

ここで、図13の記載からもわかるように、ダイレーションモデルはプーリングモデルに比べて小さな変化をとらえやすい傾向があるため、面積の範囲(の最大値)が小さいものではダイレーションモデルが有利になり、面積の範囲が大きいものではプーリングモデルが有利になる。また、スケールが小さいと細かな情報が減る一方、大規模な建物の形状を判定しやすくなる傾向がある。そのため、面積の範囲(の最大値)が小さいものではスケールが大きい方が有利になり、面積の範囲が大きいものではスケールが小さい方が有利になる。 Here, as can be seen from the description in FIG. 13, since the dilation model tends to catch small changes as compared with the pooling model, the dilation model is advantageous when the area range (maximum value) is small. Therefore, the pooling model is advantageous for those with a large area range. In addition, when the scale is small, detailed information is reduced, but it tends to be easier to determine the shape of a large-scale building. Therefore, if the area range (maximum value) is small, the larger scale is advantageous, and if the area range is large, the smaller scale is advantageous.

したがって、図13の例においても、面積の範囲の最大値が小さいものに対応する実行検出器62として、スケールが大きめの1.0倍であり、ダイレーションモデルである学習検出器54が選択され、面積の範囲の最大値が大きいものに対応する実行検出器64として、スケールが小さめの0.5倍であり、プーリングモデルである学習検出器54が選択されている。 Therefore, also in the example of FIG. 13, as the execution detector 62 corresponding to the one having a small maximum value in the area range, the learning detector 54 having a large scale of 1.0 times and being a dilation model is selected. As the execution detector 64 corresponding to the one having a large maximum value in the area range, the learning detector 54, which has a small scale of 0.5 times and is a pooling model, is selected.

検出器選択部58は、単に後述の対象データ入力部65が処理対象画像を入力し出力画像を取得する対象となる学習検出器54を示す情報を記憶部12に保存することで、学習検出器54を選択してもよいし、実行検出器62,63,64の実体として、選択された学習検出器54の共通部540、個別部541等をコピーすることで学習検出器54を実行検出器62,63,64として選択してもよい。 The detector selection unit 58 simply stores the information indicating the learning detector 54 to be the target for inputting the processing target image and acquiring the output image by the target data input unit 65, which will be described later, in the storage unit 12, so that the learning detector can be detected. 54 may be selected, or the learning detector 54 may be executed by copying the common part 540, the individual part 541, etc. of the selected learning detector 54 as the substance of the execution detectors 62, 63, 64. It may be selected as 62, 63, 64.

次に、実行検出器62,63,64を用いて、処理対象画像から建物の領域を判定する処理について説明する。図14は、建物の領域を判定する処理の概要を説明する図である。 Next, the process of determining the area of the building from the image to be processed will be described using the execution detectors 62, 63, 64. FIG. 14 is a diagram illustrating an outline of a process for determining an area of a building.

はじめに、対象データ入力部65は、処理対象画像を面積の範囲Sに適した実行検出器62に入力し、出力取得部66は、実行検出器62の出力に基づいて全体出力画像(S)を取得する(ステップS301)。全体出力画像(S)は、処理対象画像の全体について、実行検出器62により建物が存在すると判定された領域を示す画像である。後述の全体出力画像(M)、全体出力画像(L)は、同様に、それぞれ、実行検出器63,64により建物が存在すると判定された領域を示す画像である。 First, the target data input unit 65 inputs the processing target image to the execution detector 62 suitable for the area range S, and the output acquisition unit 66 outputs the entire output image (S) based on the output of the execution detector 62. Acquire (step S301). The whole output image (S) is an image showing an area where a building is determined to exist by the execution detector 62 for the whole image to be processed. Similarly, the overall output image (M) and the overall output image (L), which will be described later, are images showing areas where it is determined by the execution detectors 63 and 64 that a building exists, respectively.

図15は、処理対象画像から全体出力画像を生成する処理の流れを示すフロー図であり、ステップS301の処理を詳細に説明する図である。はじめに、対象データ入力部65は、処理対象画像のスケールを、実行検出器62に設定されたスケールに合わせる(ステップS321)。対象データ入力部65は、処理対象画像のスケールと実行検出器62のスケールが異なる場合には処理対象画像を拡大または縮小することにより、スケールを合わせる。次に、対象データ入力部65は、スケールが合わせられた処理対象画像から窓画像を切出す(ステップS322)。窓画像のサイズや処理対象画像から窓画像を切出す手法については、評価用画像から窓画像を切出す手法と同じであるので説明を省略する。次に、対象データ入力部65は、実行検出器62へ窓画像を入力する(ステップS323)。すると、実行検出器62は、入力された窓画像について建物の領域を検出する処理を行い、出力取得部66は、実行検出器62の出力画像を取得する(ステップS324)。ここで、図示していないが、出力取得部66は、取得された出力画像を、各ドットの存在確率の値が閾値より大きいか小さいかに基づいて2値化し、2値化された出力画像を記憶部12に格納する。以下の処理では、出力画像は2値化された出力画像を指すものとする。そして、すべての窓画像について学習検出器54の処理を行うまで、ステップS322からS324の処理を繰り返す(ステップS325参照)。 FIG. 15 is a flow chart showing a flow of processing for generating an overall output image from a processing target image, and is a diagram for explaining the processing in step S301 in detail. First, the target data input unit 65 adjusts the scale of the image to be processed to the scale set in the execution detector 62 (step S321). When the scale of the processing target image and the scale of the execution detector 62 are different, the target data input unit 65 adjusts the scale by enlarging or reducing the processing target image. Next, the target data input unit 65 cuts out a window image from the processed target image to which the scale has been adjusted (step S322). Since the method of cutting out the window image from the size of the window image and the image to be processed is the same as the method of cutting out the window image from the evaluation image, the description thereof will be omitted. Next, the target data input unit 65 inputs a window image to the execution detector 62 (step S323). Then, the execution detector 62 performs a process of detecting the area of the building with respect to the input window image, and the output acquisition unit 66 acquires the output image of the execution detector 62 (step S324). Here, although not shown, the output acquisition unit 66 binarizes the acquired output image based on whether the value of the existence probability of each dot is larger or smaller than the threshold value, and the binarized output image. Is stored in the storage unit 12. In the following processing, the output image refers to the binarized output image. Then, the processes of steps S322 to S324 are repeated until the process of the learning detector 54 is performed for all the window images (see step S325).

なお、建物検出器が実行検出器62,63,64の個別部621,631,641に対応し、建物検出器へ入力される処理対象画像の特徴情報が、それぞれ共通部620,630,640の出力であってよい。なお、学習検出器54や実行検出器62,63,64は、共通部540,620、630,640を含まなくてもよい。この場合、面積の範囲S、M、Lのそれぞれについて学習用入力画像や処理対象画像が入力され、建物検出器へ入力される処理対象画像の特徴情報は、単なる処理対象画像やその窓画像であってよい。 The building detector corresponds to the individual parts 621, 631, 641 of the execution detectors 62, 63, 64, and the feature information of the image to be processed input to the building detector is the common parts 620, 630, 640, respectively. It may be an output. The learning detector 54 and the execution detectors 62, 63, 64 do not have to include the common portions 540, 620, 630, and 640. In this case, the learning input image and the processing target image are input for each of the area ranges S, M, and L, and the feature information of the processing target image input to the building detector is simply the processing target image or its window image. It may be there.

すべての窓画像についての出力画像が得られると、評価実行部57は、それらの窓画像に対応する位置に出力画像が配置された全体出力画像(S)を生成する(ステップS326)。 When the output images for all the window images are obtained, the evaluation execution unit 57 generates an overall output image (S) in which the output images are arranged at positions corresponding to those window images (step S326).

次に、フィルタ部67は、全体出力画像(S)に、面積に基づくフィルタをかける(ステップS302)。この処理は、より具体的には、フィルタ部67は、全体出力画像(S)において建物が存在すると判定された領域の面積(領域のドット数とスケールから求められる)を算出し、その面積が面積の範囲Sに応じた許容範囲にない領域を全体出力画像(S)から削除する。具体的には許容範囲は、89.2m未満である。なお、フィルタ部67の処理は行われなくてもよい。 Next, the filter unit 67 applies an area-based filter to the entire output image (S) (step S302). More specifically, in this process, the filter unit 67 calculates the area (obtained from the number of dots and the scale of the area) of the area where the building is determined to exist in the overall output image (S), and the area is calculated. The area that is not within the permissible range according to the area range S is deleted from the overall output image (S). Specifically, the permissible range is less than 89.2 m 2 . The processing of the filter unit 67 may not be performed.

また、対象データ入力部65は、処理対象画像を面積の範囲Mに適した実行検出器63に入力し、出力取得部66は、実行検出器63の出力に基づいて全体出力画像(M)を取得する(ステップS303)。この処理の詳細は、実行検出器62から全体出力画像(S)を取得する処理と同様であるので詳細の説明は省略する。 Further, the target data input unit 65 inputs the processing target image to the execution detector 63 suitable for the area range M, and the output acquisition unit 66 outputs the entire output image (M) based on the output of the execution detector 63. Acquire (step S303). Since the details of this process are the same as the process of acquiring the entire output image (S) from the execution detector 62, detailed description thereof will be omitted.

次に、フィルタ部67は、全体出力画像(M)に、面積に基づくフィルタをかける(ステップS304)。この処理は、より具体的には、フィルタ部67は、全体出力画像(M)において建物が存在すると判定された領域の面積(領域のドット数とスケールから求められる)を算出し、その面積が面積の範囲Mに応じた許容範囲にない領域を全体出力画像(M)から削除する。具体的には許容範囲は、22.3m以上89.2m未満である。 Next, the filter unit 67 applies an area-based filter to the entire output image (M) (step S304). More specifically, in this process, the filter unit 67 calculates the area of the area where the building is determined to exist in the overall output image (M) (obtained from the number of dots and the scale of the area), and the area is calculated. Areas that are not within the permissible range according to the area range M are deleted from the overall output image (M). Specifically, the permissible range is 22.3 m 2 or more and less than 89.2 m 2 .

また、対象データ入力部65は、処理対象画像を面積の範囲Lに適した実行検出器64に入力し、出力取得部66は、実行検出器64の出力に基づいて全体出力画像(L)を取得する(ステップS305)。この処理の詳細は、実行検出器62から全体出力画像(L)を取得する処理と同様であるので詳細の説明は省略する。 Further, the target data input unit 65 inputs the processing target image to the execution detector 64 suitable for the area range L, and the output acquisition unit 66 outputs the entire output image (L) based on the output of the execution detector 64. Acquire (step S305). Since the details of this process are the same as the process of acquiring the entire output image (L) from the execution detector 62, detailed description thereof will be omitted.

次に、フィルタ部67は、全体出力画像(L)に、面積に基づくフィルタをかける(ステップS306)。この処理は、より具体的には、フィルタ部67は、全体出力画像(L)において建物が存在すると判定された領域の面積(領域のドット数とスケールから求められる)を算出し、その面積が面積の範囲Lに応じた許容範囲にない領域を全体出力画像(M)から削除する。具体的には許容範囲は、65.4m以上である。 Next, the filter unit 67 applies an area-based filter to the entire output image (L) (step S306). More specifically, in this process, the filter unit 67 calculates the area of the area where the building is determined to exist in the overall output image (L) (obtained from the number of dots and the scale of the area), and the area is calculated. The area that is not within the permissible range according to the area range L is deleted from the overall output image (M). Specifically, the permissible range is 65.4 m 2 or more.

そして、統合部68は、全体出力画像(S)、全体出力画像(M)、全体出力画像(L)の縮尺が一致するように、これらのうち少なくとも1つを拡大または縮小する処理を実行する(ステップS307)。なお、この処理は、フィルタ部67の処理の前に行われてもよい。 Then, the integration unit 68 executes a process of enlarging or reducing at least one of these so that the scales of the overall output image (S), the overall output image (M), and the overall output image (L) match. (Step S307). This process may be performed before the process of the filter unit 67.

統合部68は、その処理がなされた全体出力画像(S)、全体出力画像(M)、全体出力画像(L)を統合する(ステップS308)。言い換えると、統合部68は、全体出力画像(S)、全体出力画像(M)、全体出力画像(L)のいずれかにおいて建物と認識された領域を、建物のある領域と判定し、その判定がされた領域を示す統合された画像を生成する。より具体的には、統合部68は、フィルタされた全体出力画像(S)、全体出力画像(M)、全体出力画像(L)の各ドットの論理和をとることで、統合された画像を生成する。ここで、全体出力画像(S)、全体出力画像(M)、全体出力画像(L)の各ドットは、建物が存在すると判定された領域において1であり、そうでない領域において0であるとする。 The integration unit 68 integrates the processed overall output image (S), overall output image (M), and overall output image (L) (step S308). In other words, the integration unit 68 determines that the area recognized as a building in any one of the total output image (S), the total output image (M), and the total output image (L) is a region with a building, and the determination is made. Generates an integrated image showing the area that has been removed. More specifically, the integration unit 68 creates an integrated image by taking the logical sum of the dots of the filtered overall output image (S), overall output image (M), and overall output image (L). Generate. Here, it is assumed that the dots of the overall output image (S), the overall output image (M), and the overall output image (L) are 1 in the area where it is determined that the building exists, and 0 in the area where the building is not present. ..

そして、画像出力部69は、統合部68により生成された画像を記憶部12や表示出力デバイスへ出力する。 Then, the image output unit 69 outputs the image generated by the integration unit 68 to the storage unit 12 or the display output device.

面積の範囲S,M,Lのそれぞれに好適なスケールやモデルの種類を有する実行検出器62,63,64を用いて建物の領域が判定された画像を取得し、さらに統合部68によりそれらの画像を統合することで、処理対象画像から判定される建物の精度を向上させ、特に見逃しを減らすことができる。 Images in which the area of the building was determined were acquired using execution detectors 62, 63, 64 having scales and model types suitable for each of the area ranges S, M, and L, and further, the integrated unit 68 used them. By integrating the images, it is possible to improve the accuracy of the building determined from the processed image and reduce oversight in particular.

例えば、図13に示される評価結果に基づいて、検出器選択部58が、実行検出器62,63,64として、それぞれ、スケールが1.0倍かつダイレーションモデル、スケールが1.0倍でプーリングモデル、スケールが0.5倍でプーリングモデルの学習検出器54を選択した場合、ある実験では、見逃しの指標であるRecallの値が87.0%であり、実行検出器62,63,64として、どれもスケールが1.0倍でプーリングモデルとした場合における値である82.0%や、実行検出器62,63,64として、どれもスケールが1.0倍でダイレーションモデルとした場合における値である83.8%を上回っている。ここで、Recallの値は、正解として与えられる建物の領域のうち、建物が存在すると判定された領域の数を、正解として与えられる建物の領域の数でわった数である。建物の領域の判定において、見落としを減らすことは一般的に容易ではないので、この効果は非常に大きいものとなる。 For example, based on the evaluation result shown in FIG. 13, the detector selection unit 58 has a scale of 1.0 times and a dilation model and a scale of 1.0 times as execution detectors 62, 63, 64, respectively. When the pooling model, the learning detector 54 of the pooling model with a scale of 0.5 times is selected, in one experiment, the value of Recall, which is an index of oversight, is 87.0%, and the execution detectors 62, 63, 64. As for the 82.0%, which is the value when the scale is 1.0 times and the pooling model, and the execution detectors 62, 63, 64, the scale is 1.0 times and the dilation model is used. It exceeds the value of 83.8% in the case. Here, the value of Recall is a number obtained by dividing the number of areas where it is determined that a building exists among the areas of the building given as the correct answer by the number of areas of the building given as the correct answer. This effect is very large because it is generally not easy to reduce oversights in determining the area of a building.

これまでに説明した実行検出器62,63,64を組み合わせた建築物抽出システムを用いることで、航空写真や衛星画像といったリモートセンシング画像から様々なサイズの構造物や建築物等をより高精度に認識できるようになる。そして、建築物抽出システムを、建物の新築や滅失などの把握に利用することができ、家屋異動に関する統計の基礎情報の取得を可能とする。さらに、建物領域を精度良く抽出可能となることで、個々の建物の時間的変移をより容易に把握し、また、抽出された建物領域の大きさや形状から建物の詳細属性(例えば、戸建、マンション、工場といった建物の種類)を判別することもより容易になる。 By using the building extraction system that combines the execution detectors 62, 63, and 64 described so far, structures and buildings of various sizes can be obtained with higher accuracy from remote sensing images such as aerial photographs and satellite images. You will be able to recognize it. Then, the building extraction system can be used to grasp new construction or loss of a building, and it is possible to obtain basic information on statistics on house changes. Furthermore, by being able to extract the building area with high accuracy, it is easier to grasp the temporal transition of each building, and the detailed attributes of the building (for example, detached house, etc.) from the size and shape of the extracted building area. It will also be easier to identify the type of building (type of building such as condominium or factory).

そして、画像からの建物に関するこれらの情報抽出作業の自動化が図られることで、広範囲の地表を処理対象とした当該作業を低コストで高速に行うことが可能となる。 By automating the work of extracting information about the building from the image, it is possible to perform the work on a wide range of ground surfaces at low cost and at high speed.

これまでに、本発明の実施形態について説明してきたが、本発明の趣旨の範囲内で様々な変形をすることができる。例えば、面積の範囲が3つではなく、2つや4つ以上でもよい。また、モデルの種類の数やスケールの種類の数が異なっていてもよい。また、個別部は建物の面積の範囲に応じて最適化されなくてもよい。例えば建物の高さなど、他の手法で分類されたグループに応じて個別部が最適化されてもよい。 Although the embodiments of the present invention have been described so far, various modifications can be made within the scope of the gist of the present invention. For example, the area range may be two or four or more instead of three. Also, the number of model types and the number of scale types may be different. Further, the individual part does not have to be optimized according to the range of the area of the building. Individual parts may be optimized according to groups classified by other methods, for example, the height of a building.

1 学習サーバ、11 プロセッサ、12 記憶部、13 通信部、14 入出力部、30 要素、31,32,33,34,35,36,37 ユニット、51 学習データ取得部、52 学習実行部、53 学習検出器セット、54 学習検出器、540 共通部、541,542,543 個別部、56 評価データ取得部、57 評価実行部、58 検出器選択部、61 実行検出器セット、62,63,64 実行検出器、620,630,640 共通部、621,631,641 個別部、65 対象データ入力部、66 出力取得部、67 フィルタ部、68 統合部、69 画像出力部。 1 learning server, 11 processor, 12 storage unit, 13 communication unit, 14 input / output unit, 30 elements, 31,32,33,34,35,36,37 units, 51 learning data acquisition unit, 52 learning execution unit, 53 Learning detector set, 54 learning detector, 540 common part, 541,542,543 individual part, 56 evaluation data acquisition part, 57 evaluation execution part, 58 detector selection part, 61 execution detector set, 62,63,64 Execution detector, 620, 630, 640 common part, 621, 631, 641 individual part, 65 target data input part, 66 output acquisition part, 67 filter part, 68 integration part, 69 image output part.

Claims (5)

面積が第1の範囲に属する複数の建物について、第1の縮尺を有する第1の学習用入力画像と、前記第1の学習用入力画像に含まれる前記複数の建物の形状を示す情報の教師データとを用いて学習された第1の建物検出器と、
面積が前記第1の範囲と異なる第2の範囲に属する複数の建物について、第2の縮尺を有する第2の学習用入力画像と、前記第2の学習用入力画像に含まれる複数の建物の形状を示す情報を含む教師データとを用いて学習させた第2の建物検出器と、
地表上の学習対象領域が上空から撮影され前記第1の縮尺を有する第1の入力画像の特徴情報を前記第1の建物検出器に入力し、前記第1の入力画像が前記第1の縮尺と前記第2の縮尺との比に応じて拡大または縮小された第2の入力画像の特徴情報を前記第2の建物検出器に入力する入力部と、
前記第1の入力画像の特徴情報に対する前記第1の建物検出器の出力と、前記第2の入力画像の特徴情報に対する第2の建物検出器の出力とを統合する統合部と、
を含み、
前記第1の範囲の最大値は、前記第2の範囲の最大値より大きく、
前記第1の範囲の最小値は、前記第2の範囲の最小値より大きく、
前記第1の縮尺は、前記第2の縮尺より小さい、
建築物抽出システム。
A teacher of information showing the shapes of a first learning input image having a first scale and the plurality of buildings included in the first learning input image for a plurality of buildings whose areas belong to the first range. The first building detector learned using the data,
For a plurality of buildings belonging to a second range whose area is different from the first range, a second learning input image having a second scale and a plurality of buildings included in the second learning input image. A second building detector trained using teacher data containing shape information,
The learning target area on the ground surface is photographed from the sky, and the feature information of the first input image having the first scale is input to the first building detector, and the first input image is the first scale. And an input unit that inputs the feature information of the second input image enlarged or reduced according to the ratio to the second scale to the second building detector.
An integrated unit that integrates the output of the first building detector with respect to the feature information of the first input image and the output of the second building detector with respect to the feature information of the second input image.
Including
The maximum value of the first range is larger than the maximum value of the second range.
The minimum value of the first range is larger than the minimum value of the second range.
The first scale is smaller than the second scale.
Building extraction system.
面積が第1の範囲に属する複数の建物について、第1の縮尺を有する第1の学習用入力画像と、前記第1の学習用入力画像に含まれる前記複数の建物の形状を示す情報の教師データとを用いて学習された第1の建物検出器と、
面積が前記第1の範囲と異なる第2の範囲に属する複数の建物について、第2の縮尺を有する第2の学習用入力画像と、前記第2の学習用入力画像に含まれる複数の建物の形状を示す情報を含む教師データとを用いて学習させた第2の建物検出器と、
地表上の学習対象領域が上空から撮影され前記第1の縮尺を有する第1の入力画像の特徴情報を前記第1の建物検出器に入力し、前記第1の入力画像が前記第1の縮尺と前記第2の縮尺との比に応じて拡大または縮小された第2の入力画像の特徴情報を前記第2の建物検出器に入力する入力部と、
前記第1の入力画像の特徴情報に対する前記第1の建物検出器の出力と、前記第2の入力画像の特徴情報に対する第2の建物検出器の出力とを統合する統合部と、
を含み、
前記第1の範囲の最大値は、前記第2の範囲の最大値より大きく、
前記第1の範囲の最小値は、前記第2の範囲の最小値より大きく、
前記第1の範囲および前記第2の範囲を含む複数の範囲のそれぞれについて設けられる、第1の候補検出器および第2の候補検出器と、
前記複数の範囲のそれぞれについて、第1の候補縮尺を有する第3の学習用入力画像と、前記第3の学習用入力画像に含まれる当該範囲に属する複数の建物の形状を示す情報の教師データとを用いて学習された前記第1の候補検出器と、前記第1の候補縮尺と異なる第2の候補縮尺を有する第4の学習用入力画像と、前記第4の学習用入力画像に含まれる当該範囲に属する複数の建物の形状を示す情報の教師データとを用いて学習された前記第2の候補検出器とのそれぞれの、建物の形状の検出精度を評価する評価部と、
前記評価部により評価された検出精度に基づいて、前記第1の範囲について設けられる前記第1の候補検出器および前記第2の候補検出器のうち一つを、前記第1の建物検出器として選択し、前記第2の範囲について設けられる前記第1の候補検出器および前記第2の候補検出器のうち一つを、前記第2の建物検出器として選択し、前記第1の候補縮尺および前記第2の候補縮尺のうち、前記第1の範囲について設けられる前記第1の候補検出器および前記第2の候補検出器のうち選択されたものに対応するものを前記第1の縮尺として選択し、前記第1の候補縮尺および前記第2の候補縮尺のうち、前記第2の範囲について設けられる前記第1の候補検出器および前記第2の候補検出器のうち選択されたものに対応するものを前記第2の縮尺として選択する検出器選択部と、をさらに含む、
建築物抽出システム。
A teacher of information showing the shapes of a first learning input image having a first scale and the plurality of buildings included in the first learning input image for a plurality of buildings whose areas belong to the first range. The first building detector learned using the data,
For a plurality of buildings belonging to a second range whose area is different from the first range, a second learning input image having a second scale and a plurality of buildings included in the second learning input image. A second building detector trained using teacher data containing shape information,
The learning target area on the ground surface is photographed from the sky, and the feature information of the first input image having the first scale is input to the first building detector, and the first input image is the first scale. And an input unit that inputs the feature information of the second input image enlarged or reduced according to the ratio to the second scale to the second building detector.
An integrated unit that integrates the output of the first building detector with respect to the feature information of the first input image and the output of the second building detector with respect to the feature information of the second input image.
Including
The maximum value of the first range is larger than the maximum value of the second range.
The minimum value of the first range is larger than the minimum value of the second range.
A first candidate detector and a second candidate detector provided for each of the first range and the plurality of ranges including the second range.
For each of the plurality of ranges, a third learning input image having a first candidate scale and information teacher data indicating the shapes of a plurality of buildings belonging to the range included in the third learning input image are teacher data. Included in the first candidate detector learned using the above, a fourth learning input image having a second candidate scale different from the first candidate scale , and the fourth learning input image. An evaluation unit that evaluates the detection accuracy of the shape of each of the second candidate detectors learned by using the teacher data of the information indicating the shapes of a plurality of buildings belonging to the range .
Based on the detection accuracy evaluated by the evaluation unit, one of the first candidate detector and the second candidate detector provided for the first range is referred to as the first building detector . Then, one of the first candidate detector and the second candidate detector provided for the second range is selected as the second building detector, and the first candidate is selected. Of the scales and the second candidate scales, the one corresponding to the selected one of the first candidate detector and the second candidate detector provided for the first range is the first scale. Of the first candidate scale and the second candidate scale, the one selected from the first candidate detector and the second candidate detector provided for the second range. Further includes a detector selection unit that selects the corresponding one as the second scale .
Building extraction system.
請求項1または2に記載の建築物抽出システムにおいて、In the building extraction system according to claim 1 or 2.
前記第1の建物検出器の出力に含まれる建物、および、前記第2の建物検出器の出力に含まれる建物を面積に基づいて除去するフィルタをさらに含む、Further comprising a filter for removing the building included in the output of the first building detector and the building included in the output of the second building detector based on the area.
建築物抽出システム。Building extraction system.
請求項1から3のいずれかに記載の建築物抽出システムにおいて、In the building extraction system according to any one of claims 1 to 3.
前記統合部は、前記第1の入力画像の特徴情報に対する前記第1の建物検出器の出力と、前記第2の入力画像の特徴情報に対する第2の建物検出器の出力との縮尺が一致するように、前記2つの出力のうち少なくとも一方を拡大または縮小する処理を実行し、前記処理が実行された前記2つの出力を重畳させる、In the integrated unit, the scales of the output of the first building detector with respect to the feature information of the first input image and the output of the second building detector with respect to the feature information of the second input image match. As described above, the process of enlarging or reducing at least one of the two outputs is executed, and the two outputs for which the process is executed are superimposed.
建築物抽出システム。Building extraction system.
請求項1からのいずれかに記載の建築物抽出システムにおいて、
前記統合部は、前記入力された入力画像の特徴情報に対する、前記第1の建物検出器の出力と前記第2の建物検出器の出力とのいずれかにおいて建物と認識された領域を、建物のある領域と判定する、
建築物抽出システム。
In the building extraction system according to any one of claims 1 to 4 .
The integrated unit sets a region recognized as a building in either the output of the first building detector or the output of the second building detector with respect to the feature information of the input input image of the building. Judge as a certain area,
Building extraction system.
JP2018062646A 2018-03-28 2018-03-28 Building extraction system Active JP7096034B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018062646A JP7096034B2 (en) 2018-03-28 2018-03-28 Building extraction system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018062646A JP7096034B2 (en) 2018-03-28 2018-03-28 Building extraction system

Publications (2)

Publication Number Publication Date
JP2019175140A JP2019175140A (en) 2019-10-10
JP7096034B2 true JP7096034B2 (en) 2022-07-05

Family

ID=68167703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018062646A Active JP7096034B2 (en) 2018-03-28 2018-03-28 Building extraction system

Country Status (1)

Country Link
JP (1) JP7096034B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7235134B2 (en) * 2019-11-08 2023-03-08 日本電気株式会社 Object detection device, learning method, and program
US20230004810A1 (en) * 2019-12-06 2023-01-05 Nec Corporation Parameter optimization device, parameter optimization method, and parameter optimization program
TW202226071A (en) * 2020-12-25 2022-07-01 日商發那科股份有限公司 Machine learning device and machine learning method
JP7270856B1 (en) * 2022-05-16 2023-05-10 三菱電機株式会社 Detection device, camera system, detection method, and detection program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005520A (en) 2016-06-30 2018-01-11 クラリオン株式会社 Object detection device and object detection method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005520A (en) 2016-06-30 2018-01-11 クラリオン株式会社 Object detection device and object detection method

Also Published As

Publication number Publication date
JP2019175140A (en) 2019-10-10

Similar Documents

Publication Publication Date Title
JP7096034B2 (en) Building extraction system
CN109670474B (en) Human body posture estimation method, device and equipment based on video
JP7048225B2 (en) Trained model for building area extraction
CN109376681B (en) Multi-person posture estimation method and system
JP6431245B1 (en) Edge recognition bidirectional image processing
JP5939056B2 (en) Method and apparatus for positioning a text region in an image
JP7059883B2 (en) Learning device, image generator, learning method, and learning program
CN110084155B (en) Method, device and equipment for counting dense people and storage medium
JP7096033B2 (en) Building extraction system
KR101917525B1 (en) Method and apparatus for identifying string
CN108694716B (en) Workpiece detection method, model training method and equipment
CN102171723A (en) Method for red-eye detection
CN111008631A (en) Image association method and device, storage medium and electronic device
JP7006782B2 (en) Information processing equipment, control methods, and programs
KR102260556B1 (en) Deep learning-based parking slot detection method and apparatus integrating global and local information
CN106663317B (en) Morphological processing method and digital image processing device for digital image
JP2019149119A (en) Image processing device, image processing method, and program
CN109740337B (en) Method and device for realizing identification of slider verification code
Liu et al. Automated building change detection using UltraCamD images and existing CAD data
JP4998905B2 (en) 3D terrain data high accuracy apparatus, 3D terrain data high accuracy method and program
CN114782239A (en) Digital watermark adding method and system based on convolutional neural network
CN115170978A (en) Vehicle target detection method and device, electronic equipment and storage medium
WO2021171411A1 (en) Target region detection device, target region detection method, and target region detection program
JP2022056219A (en) Information processor, method for processing information, and program
JP2005258728A (en) Method and program for supporting extraction of changing region between geographic images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220623

R150 Certificate of patent or registration of utility model

Ref document number: 7096034

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150