JP6945772B1 - Learning device, object detection device and learning method - Google Patents
Learning device, object detection device and learning method Download PDFInfo
- Publication number
- JP6945772B1 JP6945772B1 JP2021526501A JP2021526501A JP6945772B1 JP 6945772 B1 JP6945772 B1 JP 6945772B1 JP 2021526501 A JP2021526501 A JP 2021526501A JP 2021526501 A JP2021526501 A JP 2021526501A JP 6945772 B1 JP6945772 B1 JP 6945772B1
- Authority
- JP
- Japan
- Prior art keywords
- unit
- auxiliary information
- image
- teacher
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
物体が撮像された教師画像、および、物体に対応する補助情報を取得する第1補助情報参照部(101)と、第1補助情報参照部(101)が取得した補助情報を教師画像に反映した合成教師画像を生成する第1補助情報合成部(102)と、第1補助情報合成部(102)が生成した合成教師画像を用いた学習により機械学習モデル(40)を生成する学習部(106)を備えた。The teacher image obtained by capturing the object, the first auxiliary information reference unit (101) for acquiring the auxiliary information corresponding to the object, and the auxiliary information acquired by the first auxiliary information reference unit (101) are reflected in the teacher image. A first auxiliary information synthesis unit (102) that generates a composite teacher image, and a learning unit (106) that generates a machine learning model (40) by learning using the composite teacher image generated by the first auxiliary information synthesis unit (102). ) Was provided.
Description
この発明は、機械学習モデルを生成する学習装置、学習方法、および、機械学習を用いた物体検出装置に関するものである。 The present invention relates to a learning device for generating a machine learning model, a learning method, and an object detection device using machine learning.
機械学習を用いて対象画像から特定の物体(以下、「特定の物体」のことを単に「物体」という。)を検出する物体検出装置が知られている。対象画像とは、物体が撮像されている可能性がある画像であり、物体検出装置が物体を検出する対象となる画像である。例えば、特許文献1には、空中撮像画像内の移動車両を識別する出力を生成するための機械学習モデルを使用した移動車両分析システムが開示されている。
There is known an object detection device that detects a specific object (hereinafter, "specific object" is simply referred to as "object") from a target image by using machine learning. The target image is an image in which an object may be captured, and is an image for which the object detection device detects the object. For example,
対象画像とともに機械学習モデルへ入力した場合に、物体の検出精度を向上させることができる情報(以下「補助情報」という。)が存在する。補助情報として、例えば、GIS(Geographic Information System)情報がある。
しかしながら、従来、機械学習において補助情報を用いるためには、例えば、対象画像のみを入力パラメータとする機械学習モデルをそのまま用いることはできず、対象画像および補助情報の両方を入力パラメータとする機械学習モデルを改めて設計する必要があるという課題があった。There is information (hereinafter referred to as "auxiliary information") that can improve the detection accuracy of an object when it is input to a machine learning model together with a target image. As auxiliary information, for example, there is GIS (Geographic Information System) information.
However, conventionally, in order to use auxiliary information in machine learning, for example, a machine learning model in which only the target image is used as an input parameter cannot be used as it is, and machine learning in which both the target image and auxiliary information are used as input parameters cannot be used as it is. There was a problem that the model had to be redesigned.
この発明は上記のような課題を解決するためになされたもので、補助情報を入力パラメータとする機械学習モデルを用いることなく、補助情報を考慮した機械学習モデルを生成することができる学習装置を提供することを目的としている。 The present invention has been made to solve the above problems, and provides a learning device capable of generating a machine learning model in consideration of auxiliary information without using a machine learning model in which auxiliary information is used as an input parameter. It is intended to be provided.
この発明に係る学習装置は、物体が撮像された教師画像、および、物体に対応する補助情報を取得する第1補助情報参照部と、第1補助情報参照部が取得した補助情報を教師画像に反映した合成教師画像を生成する第1補助情報合成部と、第1補助情報合成部が生成した合成教師画像を用いた学習により機械学習モデルを生成する学習部と、第1補助情報合成部が生成した合成教師画像を複数の小教師画像に分割する第1画像分割部と、第1画像分割部が分割した複数の小教師画像を複数の分類に分類する統計量解析部と、統計量解析部が分類した後の、各分類に属する小教師画像を、各分類に属する小教師画像の数に応じて、間引きする教師データ間引き部を備え、学習部は、教師データ間引き部が間引きした後の小教師画像の学習によって機械学習モデルを生成することを特徴とするものである。 The learning device according to the present invention uses a teacher image of an object, a first auxiliary information reference unit that acquires auxiliary information corresponding to the object, and auxiliary information acquired by the first auxiliary information reference unit as a teacher image. The first auxiliary information synthesis unit that generates the reflected synthetic teacher image, the learning unit that generates a machine learning model by learning using the synthetic teacher image generated by the first auxiliary information synthesis unit, and the first auxiliary information synthesis unit A first image division unit that divides the generated composite teacher image into a plurality of teacher images, a statistic analysis unit that classifies a plurality of teacher images divided by the first image division into a plurality of classifications, and a statistic analysis. The learning unit is provided with a teacher data thinning unit that thins out the small teacher images belonging to each classification after the departments have been classified according to the number of small teacher images belonging to each classification, and the learning unit is after the teacher data thinning unit thins out. It is characterized in that a machine learning model is generated by learning a small teacher image of .
この発明によれば、補助情報を入力パラメータとする機械学習モデルを用いることなく、補助情報を考慮した機械学習モデルを生成することができる。 According to the present invention, it is possible to generate a machine learning model in consideration of auxiliary information without using a machine learning model in which auxiliary information is used as an input parameter.
以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
実施の形態1.Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
実施の形態1において、物体検出装置1は、教師データと補助情報とを用いて学習を実行し、機械学習モデルを生成する。そして、物体検出装置1は、物体を検出する対象となる対象画像を取得し、機械学習モデルを用いて当該対象画像から物体を検出する。実施の形態1では、物体として、ボートが想定されている。また、実施の形態1では、対象画像および後述する教師画像として、衛星画像、ドローン空撮画像、または、航空機画像等が想定されている。
以下の実施の形態1では、物体検出装置1は、水上を航行中のボートまたは水上で出発準備中のボートを対象画像から検出するものとする。In the first embodiment, the
In the following
図1は、実施の形態1に係る物体検出装置1の構成例を示す図である。
物体検出装置1は、学習装置10、第1補助情報DB20、機械学習モデル40、推論装置50、および、第2補助情報DB60を備える。FIG. 1 is a diagram showing a configuration example of the
The
学習装置10は、物体検出装置1において、機械学習における学習を実行する装置であり、例えば、高性能なワークステーションから成る。
学習装置10は、教師データと補助情報とを用いて、学習を実行する。学習装置10は、学習により、対象画像から物体を検出するための機械学習モデル40を生成する。
学習装置10は、教師データ取得部100、第1補助情報参照部101、第1補助情報合成部102、第1画像分割部103、統計量解析部104、教師データ間引き部105、および、学習部106を備える。The
The
The
教師データ取得部100は、教師データを取得する。なお、教師データは、予め用意されており、例えば、学習装置10が参照可能な場所に記憶されている。
実施の形態1において、教師データは、複数の、物体が撮像された画像(以下「教師画像」という。)を含む。また、教師データは、複数の教師画像のうちの各教師画像に対応づけられた、当該各教師画像上の物体に関するテキスト情報を含む。対象物に関するテキスト情報とは、例えば、物体の、教師画像上の位置情報である。教師画像上の物体の位置は、例えば、物体の矩形に基づいてあらわされる。物体の矩形とは、例えば、教師画像上で物体を囲む最小矩形である。実施の形態1では、物体をボートとしているので、例えば、教師画像上でボートを囲む最小矩形の4つの頂点を示すピクセル位置(x,y)が、物体の、教師画像上の位置情報となる。
なお、1つの教師画像上に存在する物体は1つとは限らない。1つの教師画像上に複数の物体が存在する場合、教師データには、1つの教師画像と対応付けて、複数の物体それぞれに関するテキスト情報が含まれる。例えば、1つの教師画像上にボートが2艘存在していれば、当該2艘のボートの矩形の4つの頂点が2組で、合計8つの頂点を示すピクセル位置が、ボートの位置情報として教師データに含まれる。
教師画像のメタデータには、教師画像に撮像されている地点または領域を示す位置情報(以下「第1撮像位置情報」という。)が含まれている。第1撮像位置情報は、具体的には、例えば、教師画像に撮像されている地点または領域を示す、緯度および経度の情報である。
教師データ取得部100は、取得した教師データを、第1補助情報参照部101および学習部106に出力する。The teacher
In the first embodiment, the teacher data includes a plurality of images (hereinafter referred to as "teacher images") in which an object is captured. The teacher data also includes text information about an object on each teacher image associated with each teacher image among the plurality of teacher images. The text information about the object is, for example, the position information of the object on the teacher image. The position of the object on the teacher image is represented, for example, based on the rectangle of the object. The rectangle of the object is, for example, the smallest rectangle that surrounds the object on the teacher image. In the first embodiment, since the object is a boat, for example, the pixel positions (x, y) indicating the four vertices of the smallest rectangle surrounding the boat on the teacher image are the position information of the object on the teacher image. ..
The number of objects existing on one teacher image is not limited to one. When a plurality of objects exist on one teacher image, the teacher data includes text information about each of the plurality of objects in association with one teacher image. For example, if there are two boats on one teacher image, the four vertices of the rectangle of the two boats are two sets, and the pixel position indicating a total of eight vertices is the teacher as the position information of the boat. Included in the data.
The metadata of the teacher image includes position information (hereinafter referred to as “first imaged position information”) indicating a point or region captured in the teacher image. Specifically, the first imaging position information is latitude and longitude information indicating a point or region imaged in the teacher image, for example.
The teacher
第1補助情報参照部101は、第1補助情報DB20を参照して、教師データ取得部100が取得した教師画像のメタデータに含まれている、第1撮像位置情報に基づき、第1補助情報DB20から補助情報を取得する。
実施の形態1において、補助情報とは、教師画像または対象画像に撮像されている地点または領域に関連した情報である。補助情報は、例えば、水域地図、地形図、陸域地図、道路地図、土地被覆地図、または、過去に、教師画像若しくは対象画像に撮像されている地点若しくは領域と同じ地点若しくは領域が撮像された画像である。補助情報には、それぞれ、地理情報が付与されている。地理情報とは、例えば、緯度、経度および標高の情報であり、当該地理情報に基づいて、当該地理情報に地理的に対応する範囲の補助情報が特定される。
第1補助情報DB20には、補助情報が記憶されている。
第1補助情報参照部101が、どのような種類の補助情報を取得するかは、物体に応じて予め決められている。例えば、ボートに対しては、水域地図等の、水域に関する情報を補助情報とすると予め決められている。従って、ここでは、第1補助情報参照部101は、第1補助情報DB20を参照して、水域に関する情報を取得する。
第1補助情報参照部101は、教師データと、取得した補助情報とを第1補助情報合成部102に出力する。The first auxiliary
In the first embodiment, the auxiliary information is information related to a point or region captured in the teacher image or the target image. The auxiliary information is, for example, a water area map, a topographic map, a land area map, a road map, a land cover map, or the same point or area as the point or area previously captured in the teacher image or the target image. It is an image. Geographic information is attached to each of the auxiliary information. The geographic information is, for example, information on latitude, longitude, and altitude, and based on the geographic information, auxiliary information in a range geographically corresponding to the geographic information is specified.
Auxiliary information is stored in the first
What kind of auxiliary information the first auxiliary
The first auxiliary
第1補助情報合成部102は、第1補助情報参照部101から出力された教師データおよび補助情報に基づき、補助情報と教師画像を合成する。具体的には、第1補助情報合成部102は、例えば、教師画像において、水域に該当する箇所以外の箇所の画素を、特定の色で塗りつぶすことでマスクした画像を生成する。実施の形態1において、第1補助情報合成部102が補助情報と教師画像を合成して生成した画像を、「合成教師画像」ともいう。ここでは、一例として、第1補助情報合成部102は、教師画像において、水域に該当する箇所以外の箇所の画素を、黒色で塗りつぶすものとする。
なお、上述のとおり、補助情報は、第1撮像位置情報に基づき取得されたものであり、教師画像に撮像されている地点または領域と、地理的に対応した情報である。従って、第1補助情報合成部102は、補助情報に基づき、教師画像上で水域に該当する箇所を特定することができる。The first auxiliary
As described above, the auxiliary information is acquired based on the first imaging position information, and is information that geographically corresponds to the point or area imaged in the teacher image. Therefore, the first auxiliary
図2は、実施の形態1において、第1補助情報合成部102が、補助情報と教師画像とを合成して合成教師画像を生成するイメージの一例を説明するための図である。
図2では、教師画像は、ボートが浮かんでいる水際を撮像した空撮画像とし、補助情報は、水域に関する情報としている。図2において、水域を、201で示している。
第1補助情報合成部102が、教師画像と補助情報を合成すると、合成教師画像は、201で示す水域を表す範囲以外の範囲の画素が、黒色に塗りつぶされた画像となる。
なお、補助情報が、1枚の教師画像に撮像されている領域の一部に対して存在しない場合には、当該一部の領域については、例えば、上記水域に該当する箇所を特定できない場合もあり得る。FIG. 2 is a diagram for explaining an example of an image in which the first auxiliary
In FIG. 2, the teacher image is an aerial image of the waterside where the boat is floating, and the auxiliary information is information about the water area. In FIG. 2, the water area is indicated by 201.
When the first auxiliary
If the auxiliary information does not exist for a part of the area captured in one teacher image, for example, the part corresponding to the above water area may not be specified for the part of the area. could be.
第1補助情報合成部102は、教師画像を合成教師画像に置き換えた教師データ(以下「合成教師データ」という。)を、第1画像分割部103に出力する。
なお、第1補助情報合成部102は、第1補助情報参照部101から補助情報が出力されず、教師画像と合成する補助情報が存在しなかった場合は、教師データをそのまま合成教師データとして、第1画像分割部103に出力する。The first auxiliary
If the first auxiliary
第1画像分割部103は、合成教師データに含まれる合成教師画像のサイズが大きい場合に、当該合成教師画像を、予め決められたサイズに分割する。例えば、第1画像分割部103は、合成教師画像を、256×256のサイズに分割する。
以下、第1画像分割部103によって小さいサイズに分割された合成教師画像を、「小教師画像」という。When the size of the composite teacher image included in the composite teacher data is large, the first
Hereinafter, the composite teacher image divided into small sizes by the first
図3は、実施の形態1において、第1画像分割部103が、小教師画像に分割する前の合成教師画像と、小教師画像に分割した後の合成教師画像のイメージの一例を説明するための図である。
図3では、合成教師画像のサイズが1024×2048であったとし、第1画像分割部103は、合成教師画像を、256×256のサイズの小教師画像に分割するものとしている。
第1画像分割部103が合成教師画像を分割した結果、合成教師画像は、32枚の小教師画像に分割される。
このとき、第1画像分割部103は、小教師画像上に物体が存在する場合、小教師画像上の物体の位置情報を、小教師画像に付与しておくようにする。第1画像分割部103は、小教師画像上の物体の位置情報を、合成教師画像に対応付けられている物体の位置情報から判断すればよい。
第1画像分割部103は、小教師画像に分割した後の合成教師データを、統計量解析部104に出力する。FIG. 3 is for explaining an example of an image of a composite teacher image before being divided into a teacher image and an image of a composite teacher image after being divided into a teacher image by the first
In FIG. 3, it is assumed that the size of the composite teacher image is 1024 × 2048, and the first
As a result of the first
At this time, when the object exists on the teacher image, the first
The first
統計量解析部104は、第1画像分割部103から出力された合成教師データについて、小教師画像の特性ごとに当該小教師画像を分類し、分類毎の小教師画像の枚数をカウントする。
実施の形態1では、一例として、統計量解析部104は、小教師画像を、「補助情報合成有り、かつ、物体有り」、「補助情報合成有り、かつ、物体無し」、「補助情報合成無し、かつ、物体有り」、または、「補助情報合成無し、かつ、物体無し」の4パターンに分類するものとする。なお、これは一例に過ぎず、統計量解析部104は、適宜のパターンに小教師画像を分類可能である。
統計量解析部104は、小教師画像の枚数をカウントした結果に関する情報を、合成教師データとともに、教師データ間引き部105に出力する。このとき、統計量解析部104は、小教師画像に対して、どの分類に分類分けされたかの情報を付与するようにする。The
In the first embodiment, as an example, the
The
教師データ間引き部105は、統計量解析部104が小教師画像の枚数をカウントした結果に基づき、偏りのある分類に属する小教師画像を、間引く。具体的には、教師データ間引き部105は、合成教師データに含まれる小教師画像について、各分類に属する小教師画像が理想的な比率になるように、画像数が多い分類に属する小教師画像を取り出し、破棄する。これにより、教師データ間引き部105は、不要な小教師画像の間引きを行う。
なお、各分類に属する小教師画像の理想的な比率は、ユーザ等によって、適宜設定されるものとする。理想的な比率の例としては、上述の4パターンに小教師画像が分類分けされるものとすると、「補助情報合成有り、かつ、物体有り」:「補助情報合成有り、かつ、物体無し」:「補助情報合成無し、かつ、物体有り」:「補助情報合成無し、かつ、物体無し」が、「1:1:1:1」、「1:3:1:3」、または、「2:6:1:3」等が挙げられる。The teacher
The ideal ratio of the teacher images belonging to each classification shall be appropriately set by the user or the like. As an example of the ideal ratio, assuming that the teacher image is classified into the above four patterns, "with auxiliary information synthesis and with object": "with auxiliary information synthesis and without object": "No auxiliary information synthesis and with object": "No auxiliary information synthesis and no object" is "1: 1: 1: 1", "1: 3: 1: 3", or "2: 6: 1: 3 "and the like.
図4は、実施の形態1において、教師データ間引き部105が行う、小教師画像の間引きのイメージの一例について説明するための図である。
図4では、一例として、教師データ間引き部105は、統計量解析部104が上述の4パターンに分類した後の小教師画像を間引くものとしている。また、図4では、教師データ間引き部105は、各分類に属する小教師画像の枚数が「1:1:1:1」の比率となるように、小教師画像を間引くものとしている。
図4では、「補助情報合成有り、かつ、物体無し」および「補助情報合成無し、かつ、物体無し」の分類に属する小教師画像が多い。そこで、教師データ間引き部105は、「補助情報合成有り、かつ、物体有り」および「補助情報合成無し、かつ、物体有り」の分類に属する小画像の枚数と同じ枚数になるまで、「補助情報合成有り、かつ、物体無し」および「補助情報合成無し、かつ、物体無し」の分類に属する小教師画像を間引く。
教師データ間引き部105は、間引き後の合成教師データを、学習部106に出力する。FIG. 4 is a diagram for explaining an example of an image of thinning out a small teacher image performed by the teacher
In FIG. 4, as an example, the teacher
In FIG. 4, there are many teacher images that belong to the categories of "with auxiliary information synthesis and without objects" and "without auxiliary information synthesis and without objects". Therefore, the teacher
The teacher
学習部106は、教師データ間引き部105から出力された間引き後の合成教師データと、教師データ取得部100が取得した教師データとを、所定の比率で混ぜた上で学習を実行し、機械学習モデル40を生成する。なお、学習部106は、教師データ間引き部105から出力された間引き後の合成教師データと、教師データ取得部100が取得した教師データとを混ぜる際、教師データに含まれる教師画像を、小教師画像と同じサイズに分割する。学習部106が、合成教師データと教師データとを混ぜた上で学習を実行するのは、補助情報の有無にかかわらず、推論装置50における推論の際に、1つの機械学習モデル40での推論を可能とするためである。また、補助情報が必ず存在する場合であっても、第1補助情報参照部101が、必ずしも、教師画像と紐づく補助情報を取得できるとも限らない。学習部106は、合成教師データと教師データとを混ぜた上で学習を実行することで、機械学習モデル40のロバスト性を向上させることができる。
機械学習モデル40は、学習部106が学習時に使用したネットワーク構造および調整後のパラメータを保持する。
実施の形態1において、機械学習モデル40は、YOLO(You Only Look Once)またはSSD(Single Shot Detection)等の、物体検出型のニューラルネットワーク等を想定している。The
The
In the first embodiment, the
第1補助情報DB20は、補助情報を記憶するデータベースである。
The first
推論装置50は、物体検出装置1において、機械学習における推論を実行する装置であり、例えば、高性能なワークステーションから成る。実施の形態1において、推論装置50は、対象画像に物体が撮像されているか否かを推論する。また、実施の形態1において、推論装置50は、物体が存在すると推論された場合に、物体の位置およびサイズを検出する。
推論装置50は、対象画像および第2補助情報DB60に記憶されている補助情報を取得し、学習装置10が生成した機械学習モデル40を用いて、対象画像中の物体の有無を推論して、対象画像中の物体の位置およびサイズを検出する。
なお、図1では、物体検出装置1は、学習装置10および推論装置50をそれぞれ備えるものとしたが、これは一例に過ぎない。物体検出装置は、学習装置10および推論装置50が統合された装置を備えるようにしてもよい。ただし、学習装置10と推論装置50に求められる仕様は互いに異なり、一般的に、学習装置10の方が高い処理性能が必要とされる。
推論装置50は、画像取得部500、第2補助情報参照部501、第2補助情報合成部502、第2画像分割部503、推論部504、検出結果統合部505、および、検出結果出力部506を備える。The
The
In FIG. 1, the
The
画像取得部500は、対象画像を取得する。なお、対象画像は、予め用意されており、例えば、推論装置50が参照可能な場所に記憶されている。
対象画像のメタデータには、対象画像に撮像されている地点または領域を示す位置情報(以下「第2撮像位置情報」という。)が含まれている。第2撮像位置情報は、具体的には、例えば、対象画像に撮像されている地点または領域を示す、緯度および経度の情報である。
画像取得部500は、取得した対象画像を、第2補助情報参照部501に出力する。
第2補助情報参照部501は、第2補助情報DB60を参照して、画像取得部500が取得した対象画像のメタデータに含まれている、第2撮像位置情報に基づき、第2補助情報DB60から補助情報を取得する。
第2補助情報参照部501が、どのような種類の補助情報を取得するかは、物体に応じて予め決められている。ここでは、物体としてボートが想定されているため、第2補助情報参照部501は、第2補助情報DB60を参照して、水域に関する情報を取得する。
第2補助情報参照部501は、取得した補助情報を、対象画像と対応付けて、第2補助情報合成部502に出力する。
第2補助情報参照部501は、補助情報を取得できなかった場合は、対象画像をそのまま、第2補助情報合成部502に出力する。The
The metadata of the target image includes position information (hereinafter referred to as “second imaged position information”) indicating a point or region captured in the target image. Specifically, the second imaging position information is, for example, latitude and longitude information indicating a point or region imaged in the target image.
The
The second auxiliary
What kind of auxiliary information the second auxiliary
The second auxiliary
When the auxiliary information cannot be acquired, the second auxiliary
第2補助情報合成部502は、第2補助情報参照部501から出力された対象画像に基づき、対象画像に補助情報が対応付けられている場合、補助情報と対象画像とを合成する。具体的には、第2補助情報合成部502は、例えば、対象画像において、水域に該当する箇所以外の画素を、特定の色で塗りつぶしてマスクした画像を生成する。実施の形態1において、第2補助情報合成部502が補助情報と対象画像を合成して生成した画像を、「合成対象画像」ともいう。ここでは、一例として、第2補助情報合成部502は、合成対象画像において、水域に該当する箇所以外の箇所の画素を、黒色で塗りつぶすものとする。第2補助情報合成部502が、対象画像と補助情報を合成する方法は、適宜の方法とすることが可能であるが、第1補助情報合成部102が、補助情報と教師画像を合成する方法とあわせる必要がある。
なお、上述のとおり、補助情報は、第2撮像位置情報に基づき取得されたものであり、対象画像に撮像されている地点または領域と、地理的に対応した情報である。従って、第2補助情報合成部502は、補助情報に基づき、対象画像上で水域に該当する箇所を特定することができる。
第2補助情報合成部502は、合成対象画像を、第2画像分割部503に出力する。
このとき、第2補助情報合成部502は、合成対象画像とともに、対象画像も、第2画像分割部503に出力するものとする。
第2補助情報合成部502は、対象画像に補助情報が対応づけられていない場合、対象画像のみを、そのまま、第2画像分割部503に出力する。The second auxiliary
As described above, the auxiliary information is acquired based on the second imaging position information, and is information that geographically corresponds to the point or area imaged in the target image. Therefore, the second auxiliary
The second auxiliary
At this time, the second auxiliary
When the auxiliary information is not associated with the target image, the second auxiliary
第2画像分割部503は、第2補助情報合成部502から出力された、対象画像または合成対象画像を、予め決められたサイズに分割する。
具体的には、第2画像分割部503は、第2補助情報合成部502から対象画像のみが出力された場合は、対象画像を、予め決められたサイズに分割する。第2画像分割部503は、第2補助情報合成部502から、対象画像とともに合成対象画像が出力された場合は、合成対象画像を、予め決められたサイズに分割する。以下、第2画像分割部503によって分割された対象画像または合成対象画像を、「小対象画像」という。The second
Specifically, the second
第2画像分割部503が対象画像または合成対象画像を分割する具体的な方法の一例について説明する。以下では、第2画像分割部503が合成対象画像を分割する方法の一例として説明するが、第2画像分割部503が対象画像を分割する方法も合成対象画像を分割する方法と同様である。
An example of a specific method in which the second
図5は、実施の形態1において、第2画像分割部503が、小対象画像に分割する前の合成対象画像と、小対象画像に分割した後の合成対象画像のイメージの一例を説明するための図である。
図5では、合成対象画像のサイズが1024×2048であったとし、第2画像分割部503は、合成対象画像を、256×256のサイズの小対象画像に分割するものとしている。
実施の形態1において、第2画像分割部503が合成対象画像を分割した結果、合成対象画像は、例えば、53枚の小対象画像に分割される。第2画像分割部503が、合成対象画像に基づき、合成対象画像を分割してできた小対象画像同士の間にオーバーラップが発生するような小対象画像を作成するのは、合成対象画像を分割してできた小対象画像同士の境界に存在する物体が検出されないことを防ぐためである。FIG. 5 is for explaining an example of an image of a composite target image before being divided into small target images and an image of a composite target image after being divided into small target images by the second
In FIG. 5, it is assumed that the size of the composite target image is 1024 × 2048, and the second
As a result of the second
第2画像分割部503は、対象画像と、対象画像を分割してできた小対象画像または合成対象画像を分割してできた小対象画像とを、推論部504に出力する。
The second
推論部504は、第2画像分割部503が分割した小対象画像を入力として、機械学習モデル40を用いて、小対象画像上の物体の有無を推論し、小対象画像上に物体が存在する場合、物体の位置およびサイズを検出する。
ただし、推論部504は、明らかに推論が不要な小対象画像があれば、当該小対象画像については、推論対象外として推論を行わないことも可能である。明らかに推論が不要な小対象画像とは、ここでは、画像全面が水域ではないと判断可能な小対象画像である。
例えば、水上を航行中、または、水上で出発準備中のボートを検出する場合には、陸上のボートは検出の対象外となる。従って、推論部504は、例えば、画像全面が陸である小対象画像については、推論を行わなくてもよい。推論部504は、画像全面が陸であることを、例えば、小対象画像の全面が黒く塗りつぶしがされていることで判断すればよい。推論部504が、明らかに推論が不要な小対象画像について推論を行わない場合、推論部504は、補助情報、言い換えれば、水域に関する情報に基づき、小対象画像の全面が黒く塗りつぶされた小対象画像以外の小対象画像に対して、推論を行う。
推論部504は、全ての小対象画像を入力とした推論、または、推論対象外の小対象画像以外の全ての小対象画像を入力した推論を行うと、対象画像と、小対象画像毎の推論結果とを、検出結果統合部505に出力する。The
However, if there is a small object image that clearly does not require inference, the
For example, when detecting a boat sailing on the water or preparing for departure on the water, the boat on land is excluded from the detection. Therefore, the
When the
検出結果統合部505は、推論部504から出力された、小対象画像毎の推論結果に基づき、対象画像に対する推論結果となるよう、小対象画像毎の推論結果を統合して、対象画像に対する推論結果を生成する。
例えば、オーバーラップがある状態で、小対象画像をそれぞれ入力画像として推論部504が推論を行うと、同じ物体が複数の小対象画像にうつりこんでいる場合に、当該物体をダブルカウントすることになる。そこで、同じ物体がダブルカウントされることを避けるため、検出結果統合部505が、小対象画像毎の推論結果を統合する。検出結果統合部505は、小対象画像の境界部分を考慮しながら、小対象画像毎の推論結果を統合する。このように小対象画像毎の推論結果を統合して生成された推論結果が、対象画像に対する推論結果となる。
検出結果統合部505は、対象画像と、当該対象画像に対する推論結果とを、検出結果出力部506に出力する。The detection
For example, when the
The detection
検出結果出力部506は、検出結果統合部505から出力された対象画像と当該対象画像に対する推論結果に基づき、推論結果がユーザに目視可能となるような表示画面を示す表示データを、例えば、表示装置(図示省略)に出力する。表示装置は、例えば、物体検出装置1とネットワークを介して接続されている。検出結果出力部506は、具体的には、例えば、対象画像上で、物体を囲む矩形を重畳表示させる表示用データを生成し、表示装置に出力する。表示装置は、検出結果出力部506から出力された表示用データに従い、対象画像上に、物体を囲む矩形が重畳表示された画面を表示する。
The detection
第2補助情報DB60は、補助情報を記憶しているデータベースである。
The second
なお、実施の形態1では、図1に示すように、第1補助情報DB20、第2補助情報DB60、および、機械学習モデル40は、物体検出装置1に備えられるものとするが、これに限らず、第1補助情報DB20、第2補助情報DB60、および、機械学習モデル40は、物体検出装置1の外部の、学習装置10または推論装置50が参照可能な場所に備えられるようにしてもよい。また、第1補助情報DB20と第2補助情報DB60とは、共通の1つの補助情報DBとして構成されていても良い。
In the first embodiment, as shown in FIG. 1, the first
実施の形態1に係る物体検出装置1の動作について説明する。
図6および図7は、実施の形態1に係る物体検出装置1の動作を説明するためのフローチャートである。図6は、実施の形態1に係る学習装置10の動作を説明するためのフローチャートであり、図7は、実施の形態1に係る推論装置50の動作を説明するためのフローチャートである。
まず、図6を用いて、学習装置10の動作について説明する。
教師データ取得部100は、教師データを取得し、取得した教師データを、第1補助情報参照部101および学習部106に出力する。
図6中の「p=1,教師画像数,1」は、学習装置10が、以下のステップST601〜ステップST603の処理を、教師データに含まれる複数の教師画像の全てに対して順次行うことを示している。すなわち、以下のステップST601〜ST603の処理の説明において、「教師画像」とは、現在、処理対象となっている、ある1つの教師画像を意味し、「教師データ」とは、当該1つの教師画像と当該教師画像に対応づけられたテキスト情報とを意味している。
第1補助情報参照部101は、第1補助情報DB20を参照して、教師データ取得部100が取得した教師画像のメタデータに含まれている第1撮像位置情報に基づき、第1補助情報DB20から補助情報を取得する(ステップST601)。ここでは、第1補助情報参照部101は、第1補助情報DB20を参照して、水域に関する情報を取得する。
第1補助情報参照部101は、教師データと、教師画像上の物体に対応する補助情報とを第1補助情報合成部102に出力する。
具体例を挙げると、第1補助情報参照部101は、補助情報として、水域に関する情報を取得し、教師データとともに、第1補助情報合成部102に出力する。The operation of the
6 and 7 are flowcharts for explaining the operation of the
First, the operation of the
The teacher
In FIG. 6, “p = 1, number of teacher images, 1” means that the
The first auxiliary
The first auxiliary
To give a specific example, the first auxiliary
第1補助情報合成部102は、ステップST601にて第1補助情報参照部101から出力された教師データおよび補助情報に基づき、補助情報と教師画像を合成する(ステップST602)。具体的には、第1補助情報合成部102は、例えば、教師画像において、水域に該当する箇所以外の箇所の画素を、特定の色で塗りつぶした合成教師画像を生成する。
第1補助情報合成部102は、教師画像を合成教師画像に置き換えた合成教師データを、第1画像分割部103に出力する。The first auxiliary
The first auxiliary
第1画像分割部103は、ステップST602において第1補助情報合成部102から出力された合成教師データに含まれる合成教師画像のサイズが大きい場合に、当該合成教師画像を、予め決められたサイズの小教師画像に分割する(ステップST603)。
第1画像分割部103は、小教師画像に分割した後の合成教師データを、統計量解析部104に出力する。
学習装置10は、以上のステップST601〜ステップST603の処理を、教師データに含まれる複数の教師画像の全てに対して順次行う。
学習装置10は、教師データに含まれる複数の教師画像の全てに対してステップST601〜ステップST603の処理を行うと、ステップST604の処理へ進む。When the size of the composite teacher image included in the composite teacher data output from the first
The first
The
When the
統計量解析部104は、ステップST603にて第1画像分割部103から出力された合成教師データについて、小教師画像の特性ごとに当該小教師画像を分類し、分類毎の小教師画像の枚数をカウントする(ステップST604)。
統計量解析部104は、小教師画像の枚数をカウントした結果に関する情報を、合成教師データとともに、教師データ間引き部105に出力する。このとき、統計量解析部104は、小教師画像に対して、どの分類に分類分けされたかの情報を付与するようにする。The
The
教師データ間引き部105は、ステップST604にて統計量解析部104が小教師画像の枚数をカウントした結果に基づき、偏りのある分類に属する小教師画像を、間引く(ステップST605)。
教師データ間引き部105は、間引き後の合成教師データを、学習部106に出力する。The teacher
The teacher
学習部106は、ステップST605にて教師データ間引き部105から出力された間引き後の合成教師データと、ステップST601にて教師データ取得部100が取得した教師データとを、所定の比率で混ぜた上で学習を行い(ステップST606)、機械学習モデル40を生成する(ステップST607)。
The
次に、図7を用いて、推論装置50の動作について説明する。
画像取得部500は、対象画像を取得し、取得した対象画像を、第2補助情報参照部501に出力する。
第2補助情報参照部501は、第2補助情報DB60を参照して、画像取得部500が取得した対象画像のメタデータに含まれている第2撮像位置情報に基づき、第1補助情報DB20内の補助情報が参照可能かどうかを判定する(ステップST701)。ここでは、第2補助情報参照部501は、第2補助情報DB60内の水域に関する情報が参照可能かどうかを判定する。Next, the operation of the
The
The second auxiliary
ステップST701において、第2補助情報参照部501が、水域に関する情報が参照可能ではないと判定した場合(ステップST701の“NO”の場合)、推論装置50の動作は、ステップST704に進む。このとき、第2補助情報参照部501は、対象画像を、第2補助情報合成部502を介して第2画像分割部503に出力する。
ステップST701において、第2補助情報参照部501が、水域に関する情報が参照可能であると判定した場合(ステップST701の“YES”の場合)、第2補助情報参照部501は、第2補助情報DB60から補助情報を取得する(ステップST702)。ここでは、第2補助情報参照部501は、第2補助情報DB60から水域に関する情報を取得する。
第2補助情報参照部501は、取得した補助情報を、対象画像と対応付けて、第2補助情報合成部502に出力する。When the second auxiliary
In step ST701, when the second auxiliary
The second auxiliary
第2補助情報合成部502は、ステップST702にて第2補助情報参照部501から出力された対象画像に基づき、補助情報と対象画像とを合成する(ステップST703)。具体的には、第2補助情報合成部502は、例えば、対象画像において、水域に該当する箇所以外の箇所の画素を、特定の色で塗りつぶした合成対象画像を生成する。
第2補助情報合成部502は、合成対象画像を、第2画像分割部503に出力する。
このとき、第2補助情報合成部502は、合成対象画像とともに、対象画像も、第2画像分割部503に出力する。The second auxiliary
The second auxiliary
At this time, the second auxiliary
第2画像分割部503は、第2補助情報合成部502から対象画像のみが出力された場合(ステップST701の“NO”の場合)は、対象画像を、予め決められたサイズの小対象画像に分割する。
一方、第2画像分割部503は、第2補助情報合成部502から、対象画像とともに合成対象画像が出力された場合(ステップST701の“YES”〜ステップST703の場合)は、合成対象画像を、予め決められたサイズの小対象画像に分割する(ステップST704)。
第2画像分割部503は、対象画像と、対象画像を分割してできた小対象画像または合成対象画像を分割してできた小対象画像とを、推論部504に出力する。When only the target image is output from the second auxiliary information synthesizing unit 502 (in the case of “NO” in step ST701), the second
On the other hand, when the second
The second
図7中の「p=1,分割数,1」は、推論装置50が、以下のステップST705〜ステップST706の処理を、ステップST704にて第2画像分割部503から出力された全ての小対象画像に対して順次行うことを示している。
推論部504は、小対象画像が、明らかに推論が不要な画像であるか否かを判定する(ステップST705)。具体的には、ここでは、推論部504は、小対象画像の画像全面が陸であるかどうかを判定する。
ステップST705において、小対象画像の画像全面が陸ではない、すなわち、画像の一部または全面が水域であると判定した場合(ステップST705の“NO”の場合)、推論部504は、小対象画像に対して、推論を行う(ステップST706)。
ステップST705において、小対象画像の画像全面が陸であると判定した場合(ステップST705の“YES”の場合)、推論部504は、ステップST706の処理を行わない。“P = 1, number of divisions, 1” in FIG. 7 indicates that the
The
In step ST705, when it is determined that the entire image of the small target image is not land, that is, a part or the entire surface of the image is a water area (when “NO” in step ST705), the
When it is determined in step ST705 that the entire image of the small target image is land (when “YES” in step ST705), the
推論部504は、ステップST705〜ステップST706の処理を、ステップST704にて第2画像分割部503から出力された全ての小対象画像に対して行う。
推論部504は、全ての小対象画像に対してステップST705〜ステップST706の処理を行うと、対象画像と、小対象画像毎の推論結果とを、検出結果統合部505に出力するThe
When the
検出結果統合部505は、ステップST706にて推論部504から出力された、小対象画像毎の推論結果に基づき、対象画像に対する推論結果となるよう、小対象画像毎の推論結果を統合する(ステップST707)。
検出結果統合部505は、対象画像と、当該対象画像に対する推論結果とを、検出結果出力部506に出力する。The detection
The detection
検出結果出力部506は、ステップST707にて検出結果統合部505から出力された対象画像と当該対象画像に対する推論結果に基づき、推論結果がユーザに目視可能となるような表示画面を示す表示データを、表示装置に出力する(ステップST708)。
The detection
このように、物体検出装置1における学習装置10は、対象画像から物体を検出するための機械学習モデル40を生成する際、教師データと補助情報とに基づいて学習を実行することで、機械学習モデル40を生成する。その際、学習装置10は、教師データに含まれる教師画像と補助情報とを合成した合成教師画像を用いて学習を実行する。また、物体検出装置1において、推論装置50は、学習装置10が生成した機械学習モデル40を用いて、対象画像から物体を検出する。その際、推論装置50は、機械学習モデル40の入力として、対象画像と補助情報とを合成した合成対象画像を入力可能とした。
物体検出装置1は、補助情報を考慮して対象画像から物体を検出できるため、物体の検出精度が向上する。As described above, when the
Since the
一般的には、上述した従来技術のように、補助情報を用いるためには、対象画像および補助情報の両方を入力パラメータとする機械学習モデルを改めて設計する必要があった。また、汎用ソフト等に組み込まれている機械学習モジュールを使用する場合は、機械学習モデルの変更が不能な場合もある。
これに対し、実施の形態1に係る物体検出装置1は、補助情報を入力パラメータとする機械学習モデルを用いることなく、補助情報を考慮した物体の検出を行うことができる。すなわち、例えば、対象画像のみを入力パラメータとする機械学習モデルを用いつつ、かつ、補助情報を考慮した精度の高い物体の検出を行うことができる。In general, as in the conventional technique described above, in order to use the auxiliary information, it is necessary to redesign a machine learning model in which both the target image and the auxiliary information are input parameters. In addition, when using a machine learning module built into general-purpose software or the like, it may not be possible to change the machine learning model.
On the other hand, the
また、実施の形態1に係る物体検出装置1において、機械学習モデル40への入力パラメータは、補助情報を用いる場合も、補助情報を用いない場合も、例えば画像のみとすることができ、いずれの場合も同じ機械学習モデル40での推論を実行できる。これは、学習を実行する際も、補助情報を用いる場合と補助情報を用いない場合との両方の場合に対応した学習を、同時に実行できることを意味している。例えば、実施の形態1では、合成教師データと教師データとを、所定の比率で混ぜた上で学習を実行することで、補助情報を用いる場合と補助情報を用いない場合との両方に用いることができる機械学習モデル40を生成している。そのため、実施の形態1に係る物体検出装置1においては、補助情報を用いる場合と、補助情報を用いない場合とで、互いに別の機械学習モデルを生成するために、別々の学習を実行させる場合よりも、学習時間の短縮が可能となる。
Further, in the
また、一般に、機械学習では、教師データを様々なケースにおいて偏りなく収集することが望ましいが、多くの場合、教師データの偏りが発生することで、特定の条件下で物体の誤検知が増える。
これに対し、実施の形態1に係る物体検出装置1では、第1画像分割部103が、第1補助情報合成部102が生成した合成教師画像を複数の小教師画像に分割し、統計量解析部104が、当該複数の小教師画像を複数の分類に分類する。そして、教師データ間引き部105が、統計量解析部104が分類した後の、各分類に属する小教師画像を、各分類に属する小教師画像の数に応じて、間引きする。そのため、偏りのない教師データから機械学習モデル40を作成することができ、対象画像から物体を検出する精度を向上させることができる。Further, in general, in machine learning, it is desirable to collect teacher data without bias in various cases, but in many cases, bias of teacher data increases false detection of an object under specific conditions.
On the other hand, in the
以上の実施の形態1では、ボートに対する補助情報は水域に関する情報とし、補助情報は1つとして説明したが、物体に対する補助情報は1種類に限らない。物体に対する補助情報は複数種類あってもよい。 In the above-described first embodiment, the auxiliary information for the boat is the information about the water area, and the auxiliary information is described as one, but the auxiliary information for the object is not limited to one type. There may be a plurality of types of auxiliary information for an object.
また、以上の実施の形態1では、物体をボートとしたが、これは一例に過ぎない。例えば、物体は車両とし、物体検出装置1は、車両を検出する際に、補助情報として道路に関する情報を考慮するようにしてもよい。車両を検出する際に、道路に関する情報を考慮することで、例えば、通常、車両が存在しないような、道路以外の場所での、車両の誤検出を抑制することができる。
また、以上の実施の形態1では、第1補助情報合成部102および第2補助情報合成部502は、二値の水域情報を画像に反映するものとして説明したが、これは一例に過ぎない。例えば、第1補助情報合成部102および第2補助情報合成部502は、補助情報を、二値ではなく、50%のグレーとして教師画像または対象画像に反映するようにしてもよい。また、例えば、第1補助情報合成部102および第2補助情報合成部502は、補助情報をモノクロではなく特定の色として教師画像または対象画像に反映するようにしてもよい。Further, in the above-described first embodiment, the object is a boat, but this is only an example. For example, the object may be a vehicle, and the
Further, in the above-described first embodiment, the first auxiliary
また、以上の実施の形態1では、物体検出装置1は、第1画像分割部103および第2画像分割部503を備え、第1画像分割部103および第2画像分割部503は、合成教師画像を分割するようにした。しかし、これは一例に過ぎず、物体検出装置1において、合成教師画像の分割は必須ではない。例えば、合成教師画像のサイズが小さい場合、物体検出装置1は、合成教師画像を分割しなくてもよい。この場合、物体検出装置1は、第1画像分割部103および第2画像分割部503を備えない構成とすることができる。
また、物体検出装置1において、合成教師画像を分割しない場合、学習部106は、合成教師データと教師データとを混ぜて学習を実行する際、教師データに含まれる教師画像を、小教師画像と同じサイズの小画像に分割する必要はない。Further, in the
Further, when the composite teacher image is not divided in the
ここで、図8は、実施の形態1において、例えば、物体を、道路を移動中の車両とし、補助情報を道路情報および幹線道路情報とした場合に、第1補助情報合成部102または第2補助情報合成部502が、教師画像または対象画像に対して、補助情報を反映した、合成教師画像または合成対象画像を生成するイメージの一例を説明する図である。
図8では、第1補助情報合成部102または第2補助情報合成部502は、道路(図8の801で示す)以外の箇所の画素(図8の802で示す)に、透明度50%の赤色を重ねた合成教師画像または合成対象画像を生成するものとしている。なお、図8では、便宜上、透明度50%の赤色を、横線で示している。
また、図8では、第1補助情報合成部102または第2補助情報合成部502は、幹線道路(図8の803で示す)以外の箇所の画素(図8の804で示す)に、透明度50%の青色を重ねた合成教師画像または合成対象画像を生成するものとしている。なお、図8では、便宜上、透明度50%の青色を、縦線で示している。Here, FIG. 8 shows, in the first embodiment, when the object is a vehicle moving on the road and the auxiliary information is the road information and the main road information, the first auxiliary
In FIG. 8, the first auxiliary
Further, in FIG. 8, the first auxiliary
また、以上の実施の形態1では、学習装置10および推論装置50が、物体検出装置1に備えられるものとしたが、これは一例に過ぎない。学習装置10および推論装置50は、それぞれ単体で用いられるものとしてもよい。
Further, in the above-described first embodiment, the
図9A,図9Bは、実施の形態1に係る学習装置10および推論装置50のハードウェア構成の一例を示す図である。
実施の形態1において、教師データ取得部100と、第1補助情報参照部101と、第1補助情報合成部102と、第1画像分割部103と、統計量解析部104と、教師データ間引き部105と、学習部106の機能は、処理回路901により実現される。すなわち、学習装置10は、教師データと補助情報を用いた学習を実行することにより、対象画像から物体を検出するための機械学習モデル40を生成する処理の制御を行うための処理回路901を備える。
また、実施の形態1において、画像取得部500と、第2補助情報参照部501と、第2補助情報合成部502と、第2画像分割部503と、推論部504と、検出結果統合部505と、検出結果出力部506の機能は、処理回路901により実現される。すなわち、推論装置50は、対象画像および補助情報を取得し、機械学習モデル40を用いて、対象画像から物体を検出する処理の制御を行うための処理回路901を備える。
処理回路901は、図9Aに示すように専用のハードウェアであっても、図9Bに示すようにメモリ906に格納されるプログラムを実行するCPU(Central Processing Unit)905であってもよい。9A and 9B are diagrams showing an example of the hardware configuration of the
In the first embodiment, the teacher
Further, in the first embodiment, the
The
処理回路901が専用のハードウェアである場合、処理回路901は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field−Programmable Gate Array)、またはこれらを組み合わせたものが該当する。
When the
処理回路901がCPU905の場合、教師データ取得部100と、第1補助情報参照部101と、第1補助情報合成部102と、第1画像分割部103と、統計量解析部104と、教師データ間引き部105と、学習部106と、画像取得部500と、第2補助情報参照部501と、第2補助情報合成部502と、第2画像分割部503と、推論部504と、検出結果統合部505と、検出結果出力部506の機能は、ソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせにより実現される。すなわち、教師データ取得部100と、第1補助情報参照部101と、第1補助情報合成部102と、第1画像分割部103と、統計量解析部104と、教師データ間引き部105と、学習部106と、画像取得部500と、第2補助情報参照部501と、第2補助情報合成部502と、第2画像分割部503と、推論部504と、検出結果統合部505と、検出結果出力部506は、HDD(Hard Disk Drive)902、メモリ906等に記憶されたプログラムを実行するCPU905、またはシステムLSI(Large−Scale Integration)等の処理回路により実現される。また、HDD902、またはメモリ906等に記憶されたプログラムは、教師データ取得部100と、第1補助情報参照部101と、第1補助情報合成部102と、第1画像分割部103と、統計量解析部104と、教師データ間引き部105と、学習部106と、画像取得部500と、第2補助情報参照部501と、第2補助情報合成部502と、第2画像分割部503と、推論部504と、検出結果統合部505と、検出結果出力部506の手順や方法をコンピュータに実行させるものであるとも言える。ここで、メモリ906とは、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read−Only Memory)等の、不揮発性もしくは揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、またはDVD(Digital Versatile Disc)等が該当する。
When the
なお、学習装置10において、教師データ取得部100と、第1補助情報参照部101と、第1補助情報合成部102と、第1画像分割部103と、統計量解析部104と、教師データ間引き部105と、学習部106の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。例えば、教師データ取得部100と第1補助情報参照部101については専用のハードウェアとしての処理回路901でその機能を実現し、第1補助情報合成部102と、第1画像分割部103と、統計量解析部104と、教師データ間引き部105と、学習部106については処理回路がメモリ906に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
また、推論装置50において、画像取得部500と、第2補助情報参照部501と、第2補助情報合成部502と、第2画像分割部503と、推論部504と、検出結果統合部505と、検出結果出力部506の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。例えば、画像取得部500と検出結果出力部506については専用のハードウェアとしての処理回路901でその機能を実現し、第2補助情報参照部501と、第2補助情報合成部502と、第2画像分割部503と、推論部504と、検出結果統合部505については処理回路がメモリ906に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
また、学習装置10および推論装置50は、表示装置等の外部の装置との通信を行う、入力インタフェース装置903、および、出力インタフェース装置904を有する。In the
Further, in the
Further, the
以上のように、実施の形態1に係る学習装置10は、物体が撮像された教師画像、および、物体に対応する補助情報を取得する第1補助情報参照部101と、第1補助情報参照部101が取得した補助情報を教師画像に反映した合成教師画像を生成する第1補助情報合成部102と、第1補助情報合成部102が生成した合成教師画像を用いた学習により機械学習モデル40を生成する学習部106を備えるように構成されている。そのため、補助情報を入力パラメータとする機械学習モデルを用いることなく、補助情報を考慮した機械学習モデルを生成することができる。
また、実施の形態1に係る物体検出装置1は、上述の学習装置10と、対象画像、および、当該対象画像に対応する補助情報を取得する第2補助情報参照部501と、第2補助情報参照部501が取得した補助情報を対象画像に反映した合成対象画像を生成する第2補助情報合成部502と、機械学習モデル40に合成対象画像を入力することにより物体を検出する推論部504を備えるように構成されている。そのため、補助情報を入力パラメータとする機械学習モデルを用いることなく、補助情報を考慮した物体の検出を行うことができる。As described above, in the
Further, the
なお、本願発明はその発明の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。 In the present invention, it is possible to modify any component of the embodiment or omit any component of the embodiment within the scope of the invention.
この発明に係る物体検出装置は、補助情報を入力パラメータとする機械学習モデルを用いることなく、補助情報を考慮した機械学習モデルを生成することができるように構成したため、物体を検出するための機械学習モデルを生成する学習装置に適用することができる。 Since the object detection device according to the present invention is configured to be able to generate a machine learning model in consideration of auxiliary information without using a machine learning model in which auxiliary information is used as an input parameter, it is a machine for detecting an object. It can be applied to a learning device that generates a learning model.
1 物体検出装置、10 学習装置、20 第1補助情報DB、40 機械学習モデル、50 推論装置、60 第2補助情報DB、100 教師データ取得部、101 第1補助情報参照部、102 第1補助情報合成部、103 第1画像分割部、104 統計量解析部、105 教師データ間引き部、106 学習部、500 画像取得部、501 第2補助情報参照部、502 第2補助情報合成部、503 第2画像分割部、504 推論部、505 検出結果統合部、506 検出結果出力部、901 処理回路、902 HDD、903 入力インタフェース装置、904 出力インタフェース装置、905 CPU、906 メモリ。 1 Object detection device, 10 Learning device, 20 1st auxiliary information DB, 40 Machine learning model, 50 Inference device, 60 2nd auxiliary information DB, 100 Teacher data acquisition unit, 101 1st auxiliary information reference unit, 102 1st auxiliary Information synthesis unit, 103 1st image division unit, 104 statistic analysis unit, 105 teacher data thinning unit, 106 learning unit, 500 image acquisition unit, 501 2nd auxiliary information reference unit, 502 2nd auxiliary information synthesis unit, 503rd 2 image division unit, 504 inference unit, 505 detection result integration unit, 506 detection result output unit, 901 processing circuit, 902 HDD, 903 input interface device, 904 output interface device, 905 CPU, 906 memory.
Claims (5)
前記第1補助情報参照部が取得した補助情報を前記教師画像に反映した合成教師画像を生成する第1補助情報合成部と、
前記第1補助情報合成部が生成した合成教師画像を用いた学習により機械学習モデルを生成する学習部と、
前記第1補助情報合成部が生成した合成教師画像を複数の小教師画像に分割する第1画像分割部と、
前記第1画像分割部が分割した複数の小教師画像を複数の分類に分類する統計量解析部と、
前記統計量解析部が分類した後の、各分類に属する小教師画像を、各分類に属する小教師画像の数に応じて、間引きする教師データ間引き部を備え、
前記学習部は、前記教師データ間引き部が間引きした後の小教師画像の学習によって前記機械学習モデルを生成する
ことを特徴とする学習装置。 A teacher image in which an object is captured, a first auxiliary information reference unit that acquires auxiliary information corresponding to the object, and
A first auxiliary information synthesis unit that generates a composite teacher image that reflects the auxiliary information acquired by the first auxiliary information reference unit in the teacher image, and
A learning unit that generates a machine learning model by learning using a synthetic teacher image generated by the first auxiliary information synthesis unit, and a learning unit.
A first image segmentation unit that divides the composite teacher image generated by the first auxiliary information synthesis unit into a plurality of sub-teacher images, and a first image segmentation unit.
A statistic analysis unit that classifies a plurality of small teacher images divided by the first image segmentation unit into a plurality of categories, and a statistic analysis unit.
A teacher data thinning unit for thinning out the small teacher images belonging to each classification after being classified by the statistic analysis unit according to the number of small teacher images belonging to each classification is provided.
The learning unit generates the machine learning model by learning the teacher image after the teacher data thinning unit thins out.
A learning device characterized by that.
ことを特徴とする請求項1記載の学習装置。 The learning according to claim 1, wherein the first auxiliary information synthesizing unit generates the synthesized teacher image by masking pixels corresponding to the auxiliary information on the teacher image based on the auxiliary information. Device.
請求項1記載の学習装置と、
前記対象画像、および、当該対象画像に対応する補助情報を取得する第2補助情報参照部と、前記第2補助情報参照部が取得した補助情報を前記対象画像に反映した合成対象画像を生成する第2補助情報合成部と、前記機械学習モデルに前記合成対象画像を入力することにより前記物体を検出する推論部を備えた推論装置
を備えた物体検出装置。 An object detection device that detects the object from the target image using machine learning.
The learning device according to claim 1 and
A second auxiliary information reference unit that acquires the target image and auxiliary information corresponding to the target image, and a composite target image that reflects the auxiliary information acquired by the second auxiliary information reference unit in the target image are generated. An object detection device including a second auxiliary information synthesis unit and an inference device including an inference unit that detects the object by inputting the synthesis target image into the machine learning model.
ことを特徴とする請求項3記載の物体検出装置。 The object according to claim 3, wherein the second auxiliary information synthesizing unit generates the composite target image by masking pixels corresponding to the auxiliary information on the target image based on the auxiliary information. Detection device.
第1補助情報合成部が、前記第1補助情報参照部が取得した補助情報を前記教師画像に反映した合成教師画像を生成するステップと、
学習部が、前記第1補助情報合成部が生成した合成教師画像を用いた学習により機械学習モデルを生成するステップと、
第1画像分割部が、前記第1補助情報合成部が生成した合成教師画像を複数の小教師画像に分割するステップと、
統計量解析部が、前記第1画像分割部が分割した複数の小教師画像を複数の分類に分類するステップと、
教師データ間引き部が、前記統計量解析部が分類した後の、各分類に属する小教師画像を、各分類に属する小教師画像の数に応じて、間引きするステップを備え、
前記学習部は、前記教師データ間引き部が間引きした後の小教師画像の学習によって前記機械学習モデルを生成するステップを有する
ことを特徴とする学習方法。 A step in which the first auxiliary information reference unit acquires a teacher image in which an object is captured and auxiliary information corresponding to the object, and
A step in which the first auxiliary information synthesis unit generates a composite teacher image that reflects the auxiliary information acquired by the first auxiliary information reference unit in the teacher image.
A step in which the learning unit generates a machine learning model by learning using the synthetic teacher image generated by the first auxiliary information synthesis unit .
A step in which the first image segmentation unit divides the composite teacher image generated by the first auxiliary information synthesis unit into a plurality of sub-teacher images, and
A step in which the statistic analysis unit classifies a plurality of teacher images divided by the first image segmentation unit into a plurality of classifications.
The teacher data thinning unit includes a step of thinning out the small teacher images belonging to each classification after being classified by the statistic analysis unit according to the number of small teacher images belonging to each classification.
The learning unit has a step of generating the machine learning model by learning a teacher image after the teacher data thinning unit thins out.
A learning method characterized by that.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/025185 WO2020261392A1 (en) | 2019-06-25 | 2019-06-25 | Learning device, object detection device, and learning method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020261392A1 JPWO2020261392A1 (en) | 2020-12-30 |
JP6945772B1 true JP6945772B1 (en) | 2021-10-06 |
Family
ID=74060798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021526501A Active JP6945772B1 (en) | 2019-06-25 | 2019-06-25 | Learning device, object detection device and learning method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6945772B1 (en) |
WO (1) | WO2020261392A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022171150A (en) * | 2021-04-30 | 2022-11-11 | パナソニックIpマネジメント株式会社 | Information processing device, information processing method, and program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180052224A1 (en) * | 2014-12-15 | 2018-02-22 | Airbus Singapore Private Limited | Automated method for selecting training areas of sea clutter and detecting ship targets in polarimetric synthetic aperture radar imagery |
JP2018173814A (en) * | 2017-03-31 | 2018-11-08 | 富士通株式会社 | Image processing device, image processing method, image processing program and teacher data creating method |
-
2019
- 2019-06-25 WO PCT/JP2019/025185 patent/WO2020261392A1/en active Application Filing
- 2019-06-25 JP JP2021526501A patent/JP6945772B1/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180052224A1 (en) * | 2014-12-15 | 2018-02-22 | Airbus Singapore Private Limited | Automated method for selecting training areas of sea clutter and detecting ship targets in polarimetric synthetic aperture radar imagery |
JP2018173814A (en) * | 2017-03-31 | 2018-11-08 | 富士通株式会社 | Image processing device, image processing method, image processing program and teacher data creating method |
Non-Patent Citations (3)
Title |
---|
WEI AO, ET AL.: ""Detection and Discrimination of Ship Targets in Complex Background From Spaceborne ALOS-2 SAR Image", IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING, vol. 11, no. 2, JPN6019035121, 15 January 2018 (2018-01-15), pages 536 - 550, XP011677270, ISSN: 0004572958, DOI: 10.1109/JSTARS.2017.2787573 * |
ZHENGXIA ZOU, ET AL.: ""Ship Detection in Spaceborne Optical Image With SVD Networks"", IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING, vol. 54, no. 10, JPN6019035118, 16 June 2016 (2016-06-16), pages 5832 - 5845, ISSN: 0004572957 * |
多田 拡太郎(外1名): "「多段階型CNNを用いた自動車用タイヤ内面部における欠陥識別」", 電気学会論文誌C, vol. 138, no. 12, JPN6021031809, 1 December 2018 (2018-12-01), JP, pages 1586 - 1594, ISSN: 0004572959 * |
Also Published As
Publication number | Publication date |
---|---|
WO2020261392A1 (en) | 2020-12-30 |
JPWO2020261392A1 (en) | 2020-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Berman et al. | Single image dehazing using haze-lines | |
CN109934163B (en) | Aerial image vehicle detection method based on scene prior and feature re-fusion | |
US10032301B2 (en) | Rebuilding images based on historical image data | |
WO2022000862A1 (en) | Method and apparatus for detecting object in fisheye image, and storage medium | |
CN110033475B (en) | Aerial photograph moving object detection and elimination method based on high-resolution texture generation | |
CN111815707B (en) | Point cloud determining method, point cloud screening method, point cloud determining device, point cloud screening device and computer equipment | |
CN109493332B (en) | Optimized vector selection ROI remote sensing image preprocessing system based on ENVI | |
CN111667030B (en) | Method, system and storage medium for realizing remote sensing image target detection based on deep neural network | |
CN110276791B (en) | Parameter-configurable depth camera simulation method | |
CN111325717B (en) | Mobile phone defect position identification method and equipment | |
CN110276831B (en) | Method and device for constructing three-dimensional model, equipment and computer-readable storage medium | |
CN112258610B (en) | Image labeling method and device, storage medium and electronic equipment | |
CN112990136B (en) | Target detection method and device | |
CN111311556A (en) | Mobile phone defect position identification method and equipment | |
CN113536935A (en) | Safety monitoring method and equipment for engineering site | |
CN114638294A (en) | Data enhancement method and device, terminal equipment and storage medium | |
JP6945772B1 (en) | Learning device, object detection device and learning method | |
CN105931284B (en) | Fusion method and device of three-dimensional texture TIN data and large scene data | |
CN115424221A (en) | Point cloud and image fusion method, related detection method, device and storage medium | |
CN116168246A (en) | Method, device, equipment and medium for identifying waste slag field for railway engineering | |
CN114049488A (en) | Multi-dimensional information fusion remote weak and small target detection method and terminal | |
CN113743300A (en) | Semantic segmentation based high-resolution remote sensing image cloud detection method and device | |
JP2019175283A (en) | Recognition apparatus, recognition system, program, and position coordinate detecting method | |
CN113269752A (en) | Image detection method, device terminal equipment and storage medium | |
JP6546385B2 (en) | IMAGE PROCESSING APPARATUS, CONTROL METHOD THEREOF, AND PROGRAM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210514 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210514 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210514 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210817 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210914 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6945772 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |