JP7036401B2 - Learning server, image collection support system for insufficient learning, and image estimation program for insufficient learning - Google Patents
Learning server, image collection support system for insufficient learning, and image estimation program for insufficient learning Download PDFInfo
- Publication number
- JP7036401B2 JP7036401B2 JP2018086457A JP2018086457A JP7036401B2 JP 7036401 B2 JP7036401 B2 JP 7036401B2 JP 2018086457 A JP2018086457 A JP 2018086457A JP 2018086457 A JP2018086457 A JP 2018086457A JP 7036401 B2 JP7036401 B2 JP 7036401B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- image
- unit
- feature portion
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、学習用サーバ、不足学習用画像収集支援システム、及び不足学習用画像推定プログラムに関し、より詳細には、特定の物体を認識するためのニューラルネットワークの機械学習に関する。 The present invention relates to a learning server, an image collection support system for under-learning, and an image estimation program for under-learning, and more particularly to machine learning of a neural network for recognizing a specific object.
従来から、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)等のニューラルネットワークは、手書き数字の認識等の入力画像のクラス分類(物体認識)に利用されている。また、CNN等のニューラルネットワークは、上記の物体認識の応用である物体検出にも利用されている。この物体検出は、画像中における物体の位置と種類(クラス)を特定する処理である。 Conventionally, neural networks such as convolutional neural networks (CNN) have been used for class classification (object recognition) of input images such as recognition of handwritten numbers. In addition, neural networks such as CNN are also used for object detection, which is an application of the above-mentioned object recognition. This object detection is a process of specifying the position and type (class) of an object in an image.
上記の物体検出を行うプログラム(物体検出エンジン)として、R-CNNベースの物体検出エンジンが知られている(例えば、特許文献1の背景技術等参照)。このR-CNNベースの物体検出エンジンは、主に、オブジェクトらしい領域を抽出するための候補領域抽出部と、候補領域抽出部で抽出した各領域についてクラス分類(物体認識)を行うためのCNNとから構成されている。このR-CNNベースの物体検出エンジンは、例えば、小売店の商品棚における商品タグの検出に用いることができる。 An R-CNN-based object detection engine is known as a program (object detection engine) for performing the above object detection (see, for example, background technology of Patent Document 1). This R-CNN-based object detection engine mainly has a candidate area extraction unit for extracting an object-like area and a CNN for classifying (object recognition) each area extracted by the candidate area extraction unit. It is composed of. This R-CNN-based object detection engine can be used, for example, to detect product tags on product shelves in retail stores.
ところが、上記の物体認識(クラス分類)を行うニューラルネットワークには、現場のユーザが、ある物体を認識するための機械学習を完了するのに必要な学習用画像の内容や数量を知ることができないという問題がある。このため、上記の物体認識用のニューラルネットワークの再学習を行う度に、ディープラーニングに関する知識のあるAI(Artificial Intelligence)技術者が必要になる。 However, in the neural network that performs the above object recognition (classification), the user in the field cannot know the content and quantity of the learning image required to complete the machine learning for recognizing a certain object. There is a problem. Therefore, every time the above-mentioned neural network for object recognition is relearned, an AI (Artificial Intelligence) engineer who has knowledge about deep learning is required.
例えば、上記の例のように、R-CNNベースの物体検出エンジンを、小売店の商品棚における商品タグの検出に用いた場合には、小売店の店員(ユーザ)は、商品タグを認識するための(ニューラルネットワークのパラメータの)機械学習を完了するのに必要な学習用画像の内容や数量を知ることができなかった。ここで、小売店では、商品タグの入れ替え時に、商品タグ検出用の物体検出エンジン(中のニューラルネットワークにおけるパラメータ)の再学習が必要になる場合がある。そして、従来は、この物体検出エンジンの再学習を行う度に、ディープラーニングに関する知識のあるAI技術者が必要であった。 For example, when an R-CNN-based object detection engine is used to detect a product tag on a retail store's product shelf as in the above example, the retail store clerk (user) recognizes the product tag. It was not possible to know the content or quantity of training images needed to complete machine learning (of the parameters of the neural network) for. Here, in the retail store, it may be necessary to relearn the object detection engine (parameter in the neural network inside) for detecting the product tag when the product tag is replaced. And, conventionally, every time this object detection engine is relearned, an AI engineer who has knowledge about deep learning is required.
本発明は、上記課題を解決するものであり、特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な学習用画像の内容と数量を、ユーザに知らせることができるようにして、ディープラーニングに関する知識のないユーザでも、容易に、上記の機械学習を完了するのに必要な学習用画像を作成することが可能な学習用サーバ、不足学習用画像収集支援システム、及び不足学習用画像推定プログラムを提供することを目的とする。 The present invention solves the above-mentioned problems, and makes it possible to inform the user of the content and quantity of the learning image required to complete the machine learning of the neural network for recognizing a specific object. A learning server, an image collection support system for under-learning, and an under-learning that can easily create the learning images necessary to complete the above machine learning even for users who have no knowledge of deep learning. It is an object of the present invention to provide an image estimation program for use.
上記課題を解決するために、本発明の第1の態様による学習用サーバは、学習用画像を含む入力画像を取得する画像取得部と、前記画像取得部により取得した学習用画像に基づいて、特定の物体を認識するためのニューラルネットワークの機械学習を行う機械学習部と、前記ニューラルネットワークが、前記特定の物体の認識において、現時点で着目している前記入力画像中の着目領域を抽出する着目領域抽出部と、前記入力画像における、前記特定の物体を判別するための特徴部分を記憶する特徴部分記憶部と、前記着目領域抽出部により抽出された前記着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定する不足学習用画像推定部とを備える。 In order to solve the above problem, the learning server according to the first aspect of the present invention is based on an image acquisition unit that acquires an input image including a learning image and a learning image acquired by the image acquisition unit. A machine learning unit that performs machine learning of a neural network for recognizing a specific object, and a focus that the neural network extracts a region of interest in the input image that is currently being focused on in recognizing the specific object. In the region extraction unit, the feature portion storage unit for storing the feature portion for discriminating the specific object in the input image, the focus region extracted by the focus region extraction unit, and the feature portion storage unit. Based on the stored feature portion, the learning image estimation unit for estimating the content and quantity of the learning image required to complete the machine learning is provided.
この学習用サーバにおいて、前記ニューラルネットワークは、前記入力画像がどのクラスに属するかを分類する画像分類器であり、前記画像分類器による分類先のクラスには、前記特定の物体に対応する特定クラスが含まれ、前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記特定クラスについての機械学習を完了するのに必要な学習用画像の内容と数量を推定するようにしてもよい。 In this learning server, the neural network is an image classifier that classifies which class the input image belongs to, and the class to be classified by the image classifier includes a specific class corresponding to the specific object. Is included, and the image estimation unit for insufficient learning is machine learning about the specific class based on the region of interest extracted by the region of interest extraction unit and the feature portion stored in the feature portion storage unit. You may try to estimate the content and quantity of the training image required to complete.
この学習用サーバにおいて、前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分との一致度に基づいて、前記ニューラルネットワークの機械学習の進捗度を算出し、この進捗度と、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定するようにしてもよい。 In this learning server, the lack learning image estimation unit is the neural based on the degree of coincidence between the region of interest extracted by the region of interest extraction unit and the feature portion stored in the feature portion storage unit. The progress of machine learning of the network is calculated, and the machine learning is performed based on the progress, the region of interest extracted by the region of interest extraction unit, and the feature portion stored in the feature portion storage unit. You may try to estimate the content and quantity of the learning image required to complete.
本発明の第2の態様による不足学習用画像収集支援システムは、情報処理端末と、前記情報処理端末にネットワークを介して接続された学習用サーバとを備え、前記情報処理端末は、学習用画像を含む入力画像を撮影する撮影部と、前記撮影部により撮影された入力画像における、特定の物体を判別するための特徴部分の指示入力操作を行うための操作部と、前記操作部を用いてユーザにより指示された前記特徴部分と、前記撮影部により撮影した、前記学習用画像を含む前記入力画像とを、前記学習用サーバに送信する端末側送信部と、前記学習用サーバから受信した不足学習用画像情報に基づいて、前記特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な、学習用画像の内容と数量をユーザに提示する必要学習用画像提示部とを備え、前記学習用サーバは、前記端末側送信部により送信された、前記学習用画像を含む前記入力画像を受信する画像受信部と、前記画像受信部により受信した前記学習用画像に基づいて、前記ニューラルネットワークの機械学習を行う機械学習部と、前記ニューラルネットワークが、前記特定の物体の認識において、現時点で着目している前記入力画像中の着目領域を抽出する着目領域抽出部と、前記端末側送信部により送信された前記特徴部分を記憶する特徴部分記憶部と、前記着目領域抽出部により抽出された前記着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定する不足学習用画像推定部と、前記不足学習用画像推定部により推定された、前記必要な学習用画像の内容と数量を、前記不足学習用画像情報として、前記情報処理端末に送信するサーバ側送信部とを備える。 The image collection support system for insufficient learning according to the second aspect of the present invention includes an information processing terminal and a learning server connected to the information processing terminal via a network, and the information processing terminal is a learning image. Using the photographing unit for capturing an input image including, an operation unit for performing an instruction input operation of a feature portion for discriminating a specific object in the input image captured by the photographing unit, and the operation unit. The terminal-side transmitting unit that transmits the feature portion instructed by the user and the input image including the learning image taken by the photographing unit to the learning server, and a shortage of receiving from the learning server. A learning image presentation unit that presents the content and quantity of the learning image to the user, which is necessary to complete the machine learning of the neural network for recognizing the specific object based on the learning image information. The learning server is based on an image receiving unit that receives the input image including the learning image transmitted by the terminal-side transmitting unit and the learning image received by the image receiving unit. A machine learning unit that performs machine learning of the neural network, a region of interest extraction unit that extracts the region of interest in the input image that the neural network is currently focusing on in recognizing the specific object, and the terminal. Based on the feature portion storage unit that stores the feature portion transmitted by the side transmission unit, the focus area extracted by the focus area extraction unit, and the feature portion stored in the feature portion storage unit. The content and quantity of the required learning image estimated by the under-learning image estimation unit that estimates the content and quantity of the learning image required to complete the machine learning, and the under-learning image estimation unit. Is provided as a server-side transmission unit that transmits the image information for insufficient learning to the information processing terminal.
この不足学習用画像収集支援システムにおいて、前記ニューラルネットワークは、前記入力画像がどのクラスに属するかを分類する画像分類器であり、前記画像分類器による分類先のクラスには、前記特定の物体に対応する特定クラスが含まれ、前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記特定クラスについての機械学習を完了するのに必要な学習用画像の内容と数量を推定するようにしてもよい。 In this under-learning image collection support system, the neural network is an image classifier that classifies which class the input image belongs to, and the class to be classified by the image classifier includes the specific object. The corresponding specific class is included, and the image estimation unit for lack learning is based on the region of interest extracted by the region of interest extraction unit and the feature portion stored in the feature portion storage unit. You may try to estimate the content and quantity of the learning image needed to complete the machine learning about.
この不足学習用画像収集支援システムにおいて、前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分との一致度に基づいて、前記ニューラルネットワークの機械学習の進捗度を算出し、この進捗度と、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定するようにしてもよい。 In this under-learning image collection support system, the under-learning image estimation unit is based on the degree of coincidence between the region of interest extracted by the region of interest extraction unit and the feature portion stored in the feature portion storage unit. Then, the progress of machine learning of the neural network is calculated, and based on this progress, the region of interest extracted by the region of interest extraction unit, and the feature portion stored in the feature portion storage unit, The content and quantity of the learning image required to complete the machine learning may be estimated.
本発明の第3の態様による不足学習用画像推定プログラムは、コンピュータを、学習用画像を含む入力画像を取得する画像取得部と、前記特定の物体を認識するためのニューラルネットワークが、前記特定の物体の認識において、現時点で着目している前記入力画像中の着目領域を抽出する着目領域抽出部と、前記入力画像における、前記特定の物体を判別するための特徴部分を記憶する特徴部分記憶部と、前記着目領域抽出部により抽出された前記着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な、学習用画像の内容と数量を推定する不足学習用画像推定部として機能させる。 In the image estimation program for insufficient learning according to the third aspect of the present invention, the computer has an image acquisition unit that acquires an input image including a learning image, and a neural network for recognizing the specific object. In the recognition of an object, a region of interest extraction unit that extracts a region of interest in the input image that is currently being focused on, and a feature portion storage unit that stores a feature portion of the input image for discriminating the specific object. And, based on the area of interest extracted by the area of interest extraction unit and the feature portion stored in the feature portion storage unit, machine learning of the neural network for recognizing the specific object is completed. It functions as an image estimation unit for insufficient learning that estimates the content and quantity of the image for learning, which is necessary for the learning.
この不足学習用画像推定プログラムにおいて、前記ニューラルネットワークは、前記入力画像がどのクラスに属するかを分類する画像分類器であり、前記画像分類器による分類先のクラスには、前記特定の物体に対応する特定クラスが含まれ、前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記特定クラスについての機械学習を完了するのに必要な学習用画像の内容と数量を推定するようにしてもよい。 In this under-learning image estimation program, the neural network is an image classifier that classifies which class the input image belongs to, and the class to be classified by the image classifier corresponds to the specific object. The specific class is included, and the image estimation unit for lack learning is about the specific class based on the region of interest extracted by the region of interest extraction unit and the feature portion stored in the feature portion storage unit. You may want to estimate the content and quantity of the training images needed to complete the machine learning.
この不足学習用画像推定プログラムにおいて、前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分との一致度に基づいて、前記ニューラルネットワークの機械学習の進捗度を算出し、この進捗度と、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定するようにしてもよい。 In this under-learning image estimation program, the under-learning image estimation unit is based on the degree of coincidence between the region of interest extracted by the region of interest extraction unit and the feature portion stored in the feature portion storage unit. , The progress of machine learning of the neural network is calculated, and the progress is based on the progress, the region of interest extracted by the region of interest extraction unit, and the feature portion stored in the feature portion storage unit. You may try to estimate the content and quantity of the learning image needed to complete the machine learning.
本発明の第1の態様による学習用サーバ、及び第3の態様による不足学習用画像推定プログラムによれば、特定の物体を判別するための特徴部分と、この特定の物体の認識において、ニューラルネットワークが現時点で着目している入力画像中の着目領域とに基づいて、この特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な学習用画像の内容と数量を推定することができる。これにより、上記の機械学習を完了するのに必要な学習用画像の内容と数量を、ユーザに知らせることが可能になるので、ディープラーニングに関する知識のないユーザでも、容易に、上記の機械学習を完了するのに必要な学習用画像を作成することが可能になる。従って、上記のニューラルネットワークの再学習を行う度に、ディープラーニングに関する知識のあるAI技術者が必要になるという状況を、回避することができる。 According to the learning server according to the first aspect of the present invention and the insufficient learning image estimation program according to the third aspect, the feature portion for discriminating a specific object and the neural network in recognizing the specific object. To estimate the content and quantity of the learning image required to complete the machine learning of the neural network to recognize this particular object, based on the region of interest in the input image that is currently being focused on. Can be done. This makes it possible to inform the user of the content and quantity of the learning image required to complete the above machine learning, so that even a user who has no knowledge of deep learning can easily perform the above machine learning. It will be possible to create the learning images needed to complete. Therefore, it is possible to avoid the situation where an AI engineer who has knowledge about deep learning is required every time the above neural network is relearned.
本発明の第2の態様による不足学習用画像収集支援システムによれば、学習用サーバが、ユーザにより指示された、特定の物体を判別するための特徴部分と、この特定の物体の認識において、ニューラルネットワークが現時点で着目している入力画像中の着目領域とに基づいて、この特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な学習用画像の内容と数量を推定して、推定した学習用画像の内容と数量を、不足学習用画像情報として情報処理端末に送信する。そして、情報処理端末が、学習用サーバから受信した不足学習用画像情報に基づいて、特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な、学習用画像の内容と数量を、ユーザに提示する(上記の機械学習を完了するのに必要な学習用画像の内容と数量を、情報処理端末を保持するユーザに知らせる)。これにより、ディープラーニングに関する知識のないユーザでも、上記の情報処理端末が提示した学習用画像の内容と数量に基づいて、容易に、上記の機械学習を完了するのに必要な学習用画像を作成することが可能になる。従って、上記のニューラルネットワークの再学習を行う度に、ディープラーニングに関する知識のあるAI技術者が必要になるという状況を、回避することができる。 According to the image collection support system for insufficient learning according to the second aspect of the present invention, the learning server has a feature portion for discriminating a specific object, which is instructed by the user, and recognition of the specific object. Estimate the content and quantity of the training image required to complete the machine learning of the neural network to recognize this particular object, based on the region of interest in the input image that the neural network is currently focusing on. Then, the content and quantity of the estimated learning image are transmitted to the information processing terminal as insufficient learning image information. Then, the content and quantity of the learning image required for the information processing terminal to complete the machine learning of the neural network for recognizing a specific object based on the insufficient learning image information received from the learning server. (Inform the user holding the information processing terminal of the content and quantity of the learning image required to complete the above machine learning). As a result, even a user who has no knowledge about deep learning can easily create a learning image necessary to complete the above machine learning based on the content and quantity of the learning image presented by the above information processing terminal. It will be possible to do. Therefore, it is possible to avoid the situation where an AI engineer who has knowledge about deep learning is required every time the above neural network is relearned.
以下、本発明を具体化した実施形態による学習用サーバ、不足学習用画像収集支援システム、及び不足学習用画像推定プログラムについて、図面を参照して説明する。図1は、本実施形態による不足学習用画像収集支援システム10を構成する、学習用サーバ1(請求項における「学習用サーバ」、及び「コンピュータ」)とスマートフォン2(請求項における「情報処理端末」)の概略の内部構成を示すブロック図である。図中の学習用サーバ1は、装置全体の制御と各種演算を行うCPU11(請求項における「機械学習部」、「着目領域抽出部」、及び「不足学習用画像推定部」)を備えている。また、学習用サーバ1は、通信部12(請求項における「画像取得部」、「画像受信部」、及び「サーバ側送信部」)を有しており、通信部12とネットワーク(例えば、インターネット)とを介して、スマートフォン2と接続されている。通信部12は、通信用ICを備えている。
Hereinafter, a learning server, an image collection support system for insufficient learning, and an image estimation program for insufficient learning according to an embodiment embodying the present invention will be described with reference to the drawings. FIG. 1 shows a learning server 1 (“learning server” and “computer” in the claim) and a smartphone 2 (“information processing terminal” in the claim) constituting the insufficient learning image
また、学習用サーバ1は、各種のプログラムやデータを記憶するハードディスク13と、各種のプログラムの実行時に、実行するプログラムやデータをロードするRAM14とを備えている。上記のハードディスク13には、物体検出エンジン16と、特徴部分DB18(請求項における「特徴部分記憶部」)と、不足学習用画像推定プログラム19とが格納されている。
Further, the learning
上記の物体検出エンジン16は、例えば、R-CNN(Regions with Convolutional Neural Network features)ベースの物体検出エンジンである。この物体検出エンジン16は、重みやバイアス等のパラメータデータ17を有している。なお、本明細書において、「エンジン」とは、情報処理装置を使用して様々な情報処理を行う、一種のプログラムを意味する。
The object detection engine 16 is, for example, an R-CNN (Regions with Convolutional Neural Network features) -based object detection engine. The object detection engine 16 has
また、上記の特徴部分DB18は、スマートフォン2側から送信された、特定の物体を判別するための(画像中の)特徴部分を記憶する。より詳細に言うと、特徴部分DB18には、物体検出エンジン16に含まれる画像分類器の分類先の各クラスについての、ユーザが考える(画像中の)特徴部分が記憶される。また、上記の不足学習用画像推定プログラム19は、上記物体検出エンジン16に含まれる画像分類器が、(上記の特定の物体に対応する)特定クラスについての機械学習を完了するのに必要な学習用画像の内容と数量を推定するためのプログラムである。
Further, the
一方、スマートフォン2は、装置全体の制御と各種演算を行うCPU21と、通信部22(請求項における「端末側送信部」)とを備えている。通信部22は、通信ICとアンテナを備えている。スマートフォン2は、通信部22とネットワークとを介して、学習用サーバ1と接続されている。
On the other hand, the
また、スマートフォン2は、各種のデータやプログラムを記憶するメモリ23を備えている。メモリ23に記憶されているプログラムには、必要学習用画像提示プログラム24が含まれている。この必要学習用画像提示プログラム24の詳細については、後述する。
Further, the
また、スマートフォン2は、カメラ27(請求項における「撮影部」)と、ディスプレイ28と、操作ボタン29と、マイクロフォン30と、スピーカ31と、二次電池32とを備えている。カメラ27は、物体検出エンジン16内の画像分類器の機械学習に用いられる学習用画像を含む、(物体検出エンジン16への)入力画像の撮影に用いられる。
Further, the
上記のディスプレイ28は、いわゆるタッチパネルタイプのディスプレイであり、ユーザが、上記の入力画像における、特定の物体を判別するための特徴部分を指示入力する際に用いられる。従って、ディスプレイ28は、請求項における「操作部」に相当する。また、ディスプレイ28は、後述する画像分類器の機械学習を完了するのに必要な、学習用画像の内容と数量の表示(提示)に用いられる。操作ボタン29は、ユーザによる電源オン/オフ等の指示入力に用いられる。なお、タッチパネルタイプのディスプレイ28の代わりに、操作ボタン29を、上記の特徴部分の指示入力に用いてもよいし、メモリ23に音声指示用のプログラムを格納して、この音声指示用のプログラムとマイクロフォン30とを用いて、ユーザによる音声指示により、上記の特徴部分の指示入力を行ってもよい。また、二次電池32は、リチウムイオン電池等の、充電により繰り返し使用することが可能な電池であり、スマートフォン2の各部に電力を供給する。
The
図2は、上記の学習用サーバ1側の機能ブロックと、スマートフォン2側の機能ブロックを示す。学習用サーバ1側のCPU11内の各ブロック(機械学習部43、着目領域抽出部44、不足学習用画像推定部45)の機能は、CPU11が不足学習用画像推定プログラム19を実行することにより実現される。また、スマートフォン2側のCPU21内の各ブロック(学習用画像取得部41、特徴部分登録部46、必要学習用画像提示部47)の機能は、CPU21が必要学習用画像提示プログラム24を実行することにより実現される。ただし、この構成に限られず、例えば、上記のCPU11及びCPU21における各ブロックの機能の少なくとも一つを、ASIC(Application Specific Integrated Circuit)等によって構成される個別のハードウェアによって実現してもよい。なお、図2中の画像受信部42は、請求項における「画像受信部」と「画像取得部」に相当する。
FIG. 2 shows the functional block on the
次に、上記図2に加えて、図3のフローチャートを参照して、不足学習用画像収集支援システム10において行われる不足学習用画像提示処理について説明する。図3は、学習用サーバ1が行う不足学習用画像推定処理のフローチャートである。
Next, in addition to FIG. 2, the image presentation process for insufficient learning performed in the image
ユーザが、図2に示すカメラ27を用いて、学習用画像等の入力画像を撮影すると、スマートフォン2の学習用画像取得部41は、カメラ27から学習用画像等の入力画像を取得して、この入力画像を、通信部22(図1参照)により学習用サーバ1に送信する。ここで、上記の入力画像には、学習用画像(訓練データ又は教師データ)と、特定の物体が写りこんだテスト用画像(テストデータ)とが含まれる。ただし、学習用画像のうちの1枚を、テスト用画像として用いてもよい。以下の説明では、学習用画像とテスト用画像とを分けた場合の例を説明する。
When the user captures an input image such as a learning image using the
学習用サーバ1の画像受信部42(通信部12に相当)は、上記のスマートフォン2側の通信部22により送信された入力画像を受信する(図3のS1)。受信した入力画像が学習用画像のときには(図3のS2でYES)、学習用サーバ1の機械学習部43は、受信した学習用画像に基づいて、画像分類器(図4参照)の(パラメータデータ17の)機械学習を行う(図3のS3)。
The image receiving unit 42 (corresponding to the communication unit 12) of the learning
これに対して、ユーザがカメラ27を用いて撮影した入力画像が、テスト用画像のときには、ユーザは、タッチパネルタイプのディスプレイ28を用いて、テスト用画像における、特定の物体を判別するための特徴部分の指示入力操作を行う。言い換えると、ユーザは、特定の物体の認識においてユーザが特徴部分と考える、テスト用画像中の部分(領域)を登録するための指示入力を行う。この指示入力に応じて、スマートフォン2の特徴部分登録部46は、ユーザにより指示された特徴部分を、学習用サーバ1側の特徴部分DB18に登録する。ユーザは、上記のディスプレイ28へのタッチ操作による、画像中の特徴部分の指示入力操作を行う代わりに、特徴部分DB18に登録される特徴部分を、デフォルトで画像中央の部分としておいて、自分が特徴部分と考える部分(領域)が、画像中央になるように画像を撮影することにより、画像中の特徴部分の指示入力操作を行うようにしてもよい。
On the other hand, when the input image taken by the user using the
学習用サーバ1のCPU11は、画像受信部42により受信した入力画像が、(特定の物体が写りこんだ)テスト用画像のときには(図3のS2でNO)、上記の機械学習部43による機械学習処理を行わず、着目領域抽出部44による処理を行う。この着目領域抽出部44は、Grad-CAM(Gradient-weighted Class Activation Mapping)等の技術を利用して、上記のテスト用画像について、画像分類器が、特定の物体の認識において(特定クラスの分類において)、現時点で着目しているテスト用画像中の着目領域を抽出する(図3のS4)。言い換えると、CNNベースの画像分類器が、ある特定クラスの分類において、テスト用画像の、どこ(どの部分)に着目しているかを判定する。
When the input image received by the image receiving unit 42 is a test image (NO in S2 of FIG. 3), the
そして、学習用サーバ1の不足学習用画像推定部45が、上記の着目領域抽出部44により抽出された着目領域と、特徴部分DB18に記憶(登録)された特徴部分とに基づいて、特定の物体を認識するための画像分類器の機械学習を完了するのに必要な学習用画像の内容と数量を推定する。より詳細に言うと、不足学習用画像推定部45は、着目領域抽出部44により抽出された(特定クラスについての)着目領域と、特徴部分DB18に記憶(登録)された(特定クラスの)特徴部分(の領域)との一致度に基づいて、画像分類器の特定クラスについての機械学習の進捗率(請求項における「進捗度」に相当)を算出し(図3のS5)、この進捗率と、着目領域抽出部44により抽出された着目領域と、特徴部分DB18に記憶された特徴部分とに基づいて、特定クラスについての機械学習を完了するのに必要な学習用画像の内容と数量(どのような学習用画像を、後どの程度集める必要があるか)を推定する(図3のS6)。学習用サーバ1の通信部12は、不足学習用画像推定部45により推定された、上記の必要な学習用画像の内容と数量を、不足学習用画像情報として、スマートフォン2に送信する(図3のS7)。
Then, the
スマートフォン2の必要学習用画像提示部47は、学習用サーバ1から受信した上記の不足学習用画像情報に基づいて、特定の物体を認識するための画像分類器の機械学習を完了するのに必要な(画像分類器の特定クラスについての機械学習を完了するのに必要な)、学習用画像の内容と数量を、ディスプレイ28等を用いて提示する。
The required learning
なお、学習用サーバ1の不足学習用画像推定部45は、着目領域抽出部44により抽出された着目領域と、特徴部分DB18に記憶された特徴部分とが重なる場合には、当該クラスについての学習用画像が必要でない旨の情報を、不足学習用画像情報として、スマートフォン2に送信する。そして、スマートフォン2の必要学習用画像提示部47が、当該クラスについての学習用画像が必要でない旨を、ディスプレイ28等を用いて提示する。
The lack learning
次に、図4を参照して、上記の物体検出エンジン16の概略構成と、着目領域抽出部44がGrad-CAMの技術を利用した場合の詳細処理の例について、説明する。R-CNNベースの物体検出エンジン16は、候補領域抽出部62と、CNN(Convolutional Neural Network)により構成された画像分類器63(請求項における「ニューラルネットワーク」)とを備えている。候補領域抽出部62は、入力画像61における、オブジェクトらしい領域を探し出す(抽出する)。また、画像分類器63は、候補領域抽出部62により抽出された領域に対してCNNを適用して、抽出された領域の画像が、どのクラスに属するかを分類する。画像分類器63は、特徴抽出部64と識別部65とを含んでいる。
Next, with reference to FIG. 4, a schematic configuration of the above-mentioned object detection engine 16 and an example of detailed processing when the region of interest extraction unit 44 uses the technology of Grad-CAM will be described. The R-CNN-based object detection engine 16 includes a candidate
上記の特徴抽出部64は、候補領域抽出部62により抽出された領域の画像に対して、CNN特徴の抽出処理を行う。特徴抽出部64は、Convolutionレイヤ64aと、ReLUレイヤ64bと、Poolingレイヤ64cとを含んでいる。なお、特徴抽出部64は、Convolutionレイヤ64aとReLUレイヤ64bのみから構成されていてもよい。また、図4には、簡略化した1組のConvolutionレイヤ64a、ReLUレイヤ64b、及びPoolingレイヤ64cのみを記載しているが、特徴抽出部64は、実際には、これらのレイヤを何組も(何層も)含んでいる。Convolutionレイヤ64aは、候補領域抽出部62により抽出された領域の画像に対して、畳み込み演算を行い、ReLUレイヤ64bは、上記の畳み込み演算結果に対する活性化処理を行い、Poolingレイヤ64cは、ReLUレイヤ64bからの活性化処理後の出力データに対して、縦・横方向の空間を小さくするための演算を行う。なお、上記のReLUレイヤ64bは、Convolutionレイヤ64aから出力された特徴マップにおける各データを、0以下の値のデータについては、0に置き換え、0を超える値のデータについては、そのまま出力する処理を行う。
The feature extraction unit 64 performs CNN feature extraction processing on the image of the region extracted by the candidate
また、上記の識別部65は、特徴抽出部64から出力されたCNN特徴量に基づき、候補領域抽出部62により抽出された領域の画像に対するクラス分類を行う。この識別部65は、全結合の多層ニューラルネットワークから構成され、少なくとも、Affineレイヤ65aと、Softmaxレイヤ65bとを含んでいる。識別部65は、候補領域抽出部62により抽出された各領域の画像に対して、画像分類器63による分類先の各クラスに分類される可能性の高さを表す確率スコアを算出し、この確率スコアが一番大きいクラスを、分類先のクラスとする。なお、Softmaxレイヤ65bは、直近のAffineレイヤ65aから出力された、各クラスに分類される可能性の高さを表すスコアを、確率スコアに変換する。また、識別部65は、上記の各クラスに分類される可能性の高さを表す確率スコアと、各学習用画像についての教師ラベル(クラスラベル)との誤差に基づく、教師あり学習も行う。
Further, the identification unit 65 classifies the image of the region extracted by the candidate
次に、図4の下段に示される、着目領域抽出部44がGrad-CAMの技術を利用した場合の詳細処理の例について、説明する。図中のycは、上記のSoftmaxレイヤ65bから出力された、クラスcの確率スコアを示す。ただし、ycは、上記のSoftmaxレイヤ65bにより確率スコアに変換される前の、クラスcのスコア(raw score)であってもよい。また、αc
kは、クラスcについてのk番目の(Convolutionレイヤ64aの)フィルタに関する重み(係数)である。そして、Akは、クラスcについてのk番目の特徴マップ(k番目のConvolutionレイヤ64aの後のPoolingレイヤ64cからの出力)を示す。
Next, an example of detailed processing when the region of interest extraction unit 44 using the technology of Grad-CAM, which is shown in the lower part of FIG. 4, will be described. In the figure, y c indicates the probability score of the class c output from the
CPU11の着目領域抽出部44は、下記の式(1)に基づいて、上記の重みαc
kを算出する。具体的には、着目領域抽出部44は、クラスcの確率スコアycを、クラスcについてのk番目の特徴マップAkのピクセル(i,j)における強度Ak
ijについて、偏微分して、勾配(gradient)(∂yc/∂Ak
ij)を求める処理を繰り返し、これらの処理によって得られた勾配を、k番目の特徴マップAkの全ピクセルについて平均することにより、重みαc
kを求める。上記の勾配(∂yc/∂Ak
ij)は、k番目の特徴マップのピクセル(i,j)が、クラスcの確率スコアycに及ぼす影響の大きさを示し、上記の重みαc
kは、k番目の特徴マップAk(全体)が、クラスcの確率スコアycに及ぼす影響の大きさを示す。
次に、着目領域抽出部44は、上記の式(1)で求めた各特徴マップAkの重みαc
kを用いて、下記の式(2)に基づき、n個の特徴マップAnについての加重平均値を各ピクセル毎に計算し、この各ピクセル毎の加重平均値を、活性化関数ReLU=max{x,0}のパラメタxとした場合の出力値を、Grad-CAMによるヒートマップ出力値Lc
Grad-CAMとする。
ここで、上記のように、活性化関数ReLUを用いた理由は、我々は、注目しているクラス(クラスc)に肯定的な影響を与える特徴(ピクセル)にだけ興味があるからであり、ヒートマップ出力に必用なピクセルは、そのピクセル(i,j)についての出力値が増加したときに、クラスcの確率スコアycが増加するピクセルのみだからである。そして、着目領域抽出部44は、上記の活性化関数ReLUからの各ピクセルについての出力値(Grad-CAMによるヒートマップ出力値)のうち、所定値以上の出力値を持つピクセルが集まった領域を、着目領域68として抽出する。 Here, as described above, the reason for using the activation function ReLU is that we are only interested in features (pixels) that have a positive effect on the class (class c) of interest. This is because the pixels required for heat map output are only the pixels in which the probability score y c of the class c increases when the output value for that pixel (i, j) increases. Then, the region of interest extraction unit 44 sets a region in which pixels having an output value equal to or higher than a predetermined value among the output values (heat map output value by Grad-CAM) for each pixel from the above activation function ReLU are gathered. , Extracted as the region of interest 68.
次に、上記の物体検出エンジン16を商品タグの検出に用いた場合における、物体検出エンジン16の再学習を例にして、この不足学習用画像収集支援システム10が行う、物体検出エンジン16の機械学習完了に必要な学習用画像の提示処理について、説明する。
Next, taking as an example the re-learning of the object detection engine 16 when the above-mentioned object detection engine 16 is used for detecting a product tag, the machine of the object detection engine 16 performed by the image
例えば、ある小売店の商品棚における商品タグが、今までは、図5に示すフォーマットの商品タグ71のみであったという状況において、新たに、図6に示す新しいフォーマットの商品タグ72が追加されたとする。そして、図5に示す今までの商品タグ71には、商品名71a、値段71b、及びバーコード71cが記載されており、図6に示す新しい商品タグ72には、商品名72a、値段72b、及びバーコード72cに加えて、大セール表示72dが記載されていたとする。この場合には、新しいフォーマットの商品タグ72も商品タグであると認識させるために、物体検出エンジン16の画像分類器63の再学習が必要になる場合がある。このケースにおいて、物体検出エンジン16の画像分類器63は、本来なら、今までの商品タグ71と新しい商品タグ72において画像的特徴が共通する、バーコード71c,72cの領域に着目すべきである(値段71bや72bに注目する場合もあるが、一般的にこれらは商品タグ毎に異なる数字となることが多く、「円」の部分を除き着目領域とならない場合が多い。一方でバーコードは、それぞれ意味する数字が異なっても、画像的特徴としては縦方向の直線が長方形状に分布するものであり、着目領域となりやすい)。しかしながら、この再学習の途中において、偶々、新しい商品タグ72における大セール表示72dの特徴が、(商品タグに相当するクラス以外の)他のクラスの特徴に似ていたために、物体検出エンジン16の画像分類器63が、(商品タグに相当する特定クラスの認識において)現時点で着目している領域が、新しい商品タグ72における大セール表示72dの領域であったとする。
For example, in a situation where the product tag on the product shelf of a retail store has been only the
上記の状況において、ユーザである店員が、物体検出エンジン16の(再)学習状況を確認するために、カメラ27を用いて、図6に示す新しいフォーマットの商品タグ72の画像を、テスト用画像として撮影した上で、このテスト用画像における、商品タグを判別するための特徴部分の指示入力操作を行ったとする。この指示入力操作は、具体的には、店員が、スマートフォン2のタッチパネルタイプのディスプレイ28へのタッチ操作で、図7に示す特徴部分指示枠81により、商品タグの認識において自分が特徴部分と考える、テスト用画像中の部分(領域)を囲むという操作である。この指示入力操作に応じて、スマートフォン2の特徴部分登録部46が、店員により指示された特徴部分(特徴部分指示枠81内の領域)を、学習用サーバ1側の特徴部分DB18に登録する。ここでは、店員が、商品タグ72におけるバーコード72cの領域を、商品タグを判別するための特徴部分として登録したものとする。
In the above situation, the store clerk who is the user uses the
上記の特徴部分の登録処理が完了すると、学習用サーバ1の着目領域抽出部44は、スマートフォン2から受信した上記のテスト用画像について、画像分類器63が、商品タグの認識において、現時点で着目しているテスト用画像中の着目領域を抽出する。ここでは、上記のように、画像分類器63が現時点で着目している領域(着目領域)が、大セール表示72dの領域であり、店員により指示された特徴部分(の領域)が、バーコード72cの領域であるので、上記図3のS5において算出される機械学習の進捗率は、低くなる。
When the registration process of the above feature portion is completed, the focus area extraction unit 44 of the learning
学習用サーバ1の不足学習用画像推定部45は、上記の機械学習の進捗率と、着目領域抽出部44により抽出された着目領域と、特徴部分DB18に記憶された特徴部分とに基づいて、物体検出エンジン16の画像分類器63の(商品タグの認識についての)再学習を完了するのに必要な学習用画像の内容と数量を推定する。具体的には、この例の場合は、新しい商品タグ72における大セール表示72dの特徴が、(商品タグに相当するクラス以外の)他のクラスの特徴に似ていたために、機械学習の進捗率が低くなっていると考えられる。このため、不足学習用画像推定部45は、商品タグに対応するクラスについての機械学習を完了するのに必要な学習用画像(の内容)が、大セール表示72dを含む商品タグ(新しい商品タグ72)が写り込んだ学習用画像であるという推定と、この種類の学習画像が、後どれ位必要であるかという推定を行う。学習用サーバ1の通信部12は、上記の必要な学習用画像の内容(種類)と数量を、不足学習用画像情報として、スマートフォン2に送信する
The shortage learning
不足学習用画像推定部45は、回帰モデルのニューラルネットワークにより実現することができる。当該ニューラルネットワークは、着目領域と特徴部分を入力とし、当該着目領域と特徴部分の状況において必要な学習用画像の数量を出力として、事前に学習させたものであり、充分な量の学習データ(入力と出力の組み合わせ)を用いて学習することで、ある未知の着目領域と特徴部分の組み合わせにおいて、必要な学習用画像の数量を回帰(予測(推定))することが可能となる。必要な学習用画像の内容については、着目領域とテスト画像のANDをとった画像が利用可能である。
The under-learning
スマートフォン2の必要学習用画像提示部47は、学習用サーバ1から受信した上記の不足学習用画像情報に基づいて、商品タグを認識するための画像分類器の機械学習(再学習)を完了するのに必要な、学習用画像の内容と数量を、ディスプレイ28を用いて表示(提示)する。この例では、スマートフォン2の必要学習用画像提示部47によってディスプレイ28に表示される学習用画像の内容と数量(ガイダンス)は、図8に示すようになる。店員は、図8に示すガイダンスに従って、大セール表示72dを含む学習用画像を、カメラ27で、50枚撮影(取得)することにより、商品タグを認識するための画像分類器の機械学習(再学習)を完了させることができる。これにより、店舗の現場において、ディープラーニングに関する知識のない店員が、スマートフォン2が提示した学習用画像の内容と数量(ガイダンス)に基づいて、容易に、機械学習を完了するのに必要な学習用画像を作成することができる。従って、上記のガイダンス(学習用画像の内容と数量)に基づいて、店員が、容易に、それまでの機械学習の軌道を修正することができる。
The required learning
上記のように、本実施形態の不足学習用画像推定プログラム19を実装した学習用サーバ1によれば、商品タグ等の特定の物体を判別するための特徴部分と、この特定の物体の認識において、画像分類器63(請求項における「ニューラルネットワーク」)が現時点で着目している入力画像(テスト用画像)中の着目領域とに基づいて、この特定の物体を認識するための画像分類器63の機械学習を完了するのに必要な学習用画像の内容と数量を推定することができる。これにより、上記の機械学習を完了するのに必要な学習用画像の内容と数量を、ユーザに知らせることが可能になるので、ディープラーニングに関する知識のないユーザでも、容易に、上記の機械学習を完了するのに必要な学習用画像を作成することが可能になる。従って、画像分類器63の再学習を行う度に、ディープラーニングに関する知識のあるAI技術者が必要になるという状況を、回避することができる。
As described above, according to the
また、本実施形態の不足学習用画像推定プログラム19を実装した学習用サーバ1によれば、CPU11の不足学習用画像推定部45が、着目領域抽出部44により抽出された着目領域と、特徴部分DB18に記憶された特徴部分との一致度に基づいて、画像分類器63の機械学習の進捗度を算出し、この進捗度と、着目領域抽出部44により抽出された着目領域と、特徴部分DB18に記憶された特徴部分とに基づいて、画像分類器63の機械学習を完了するのに必要な学習用画像の内容と数量を推定するようにした。ここで、上記のように、着目領域抽出部44により抽出された着目領域と、特徴部分DB18に記憶された特徴部分との一致度に基づいて、画像分類器63の機械学習の進捗度を算出することにより、画像分類器63の機械学習の進捗度を正確に算出することができるので、この正確な進捗度と、着目領域抽出部44により抽出された着目領域と、特徴部分DB18に記憶された特徴部分とを用いることにより、画像分類器63の機械学習を完了するのに必要な学習用画像の内容と数量を、正確に推定することが可能になる。
Further, according to the
また、本実施形態の不足学習用画像収集支援システム10によれば、学習用サーバ1が、ユーザにより指示された、(商品タグ等の)特定の物体を判別するための特徴部分と、この特定の物体の認識において、画像分類器63が現時点で着目している入力画像(テスト用画像)中の着目領域とに基づいて、この特定の物体を認識するための画像分類器63の機械学習を完了するのに必要な学習用画像の内容と数量を推定して、推定した学習用画像の内容と数量を、不足学習用画像情報としてスマートフォン2に送信する。そして、スマートフォン2が、学習用サーバ1から受信した不足学習用画像情報に基づいて、特定の物体を認識するための画像分類器63の機械学習を完了するのに必要な、学習用画像の内容と数量を、ユーザに提示する(上記の機械学習を完了するのに必要な学習用画像の内容と数量を、スマートフォン2を保持するユーザに知らせる)。これにより、ディープラーニングに関する知識のないユーザでも、上記のスマートフォン2が提示した学習用画像の内容と数量に基づいて、容易に、上記の機械学習を完了するのに必要な学習用画像を作成することが可能になる。従って、画像分類器63の再学習を行う度に、ディープラーニングに関する知識のあるAI技術者が必要になるという状況を、回避することができる。
Further, according to the insufficient learning image
変形例:
なお、本発明は、上記の各実施形態の構成に限られず、発明の趣旨を変更しない範囲で種々の変形が可能である。次に、本発明の変形例について説明する。
Modification example:
The present invention is not limited to the configuration of each of the above embodiments, and various modifications can be made without changing the gist of the invention. Next, a modification of the present invention will be described.
変形例1:
上記の実施形態では、スマートフォン2の必要学習用画像提示部47が、画像分類器の機械学習を完了するのに必要な、学習用画像の内容と数量を、ディスプレイ28に表示することにより、ユーザに提示したが、画像分類器の機械学習を完了するのに必要な、学習用画像の内容と数量を、スピーカを用いた音声ガイダンスによって、ユーザに提示してもよい。
Modification 1: Modification 1:
In the above embodiment, the required learning
変形例2:
また、上記の実施形態では、学習用サーバ1が、ユーザ(店員)がスマートフォン2のカメラ27で撮影した画像を、スマートフォン2から受信して、学習用画像及びテスト用画像として用いる場合の例を示したが、これに限られず、例えば、他のサーバから送信された画像を、学習用画像及びテスト用画像として用いてもよい。また、学習用サーバが、いわゆるUSBメモリ等のリムーバブルメディアから、学習用画像及びテスト用画像を読み取ることにより、これらの画像を取得するようにしてもよい。すなわち、請求項における画像取得部は、上記実施形態におけるスマートフォン2のような情報処理端末から、学習用画像等の入力画像を取得する通信装置(図1における通信部12に相当)に限られず、例えば、リムーバブルメディアから学習用画像等の入力画像を取得(入力)するための入力端子であってもよい。
Modification 2:
Further, in the above embodiment, an example in which the
変形例3:
上記の実施形態では、学習用サーバ1が、画像分類器63を含む物体検出エンジン16を用いる場合の例を示したが、学習用サーバ1が、物体の検出を行わず、物体(例えば、商品タグ)の認識だけを行う場合には、物体検出エンジンの代わりに、画像分類器を単独で用いればよい。
Modification 3:
In the above embodiment, an example is shown in which the
変形例4:
また、上記の実施形態では、R-CNNベースの物体検出エンジン16を用いる場合の例を示したが、Faster R-CNNベースの物体検出エンジンを用いてもよい。Faster R-CNNベースの物体検出エンジンを用いることにより、物体認識処理(図4中の画像分類器63が行う、画像のクラス分類処理に相当)だけではなく、画像における物体候補領域抽出処理(図4中の候補領域抽出部62が行う処理)も、一つのCNNで行うことができる。
Modification 4:
Further, in the above embodiment, the case where the R-CNN-based object detection engine 16 is used is shown, but the Faster R-CNN-based object detection engine may be used. By using the Faster R-CNN-based object detection engine, not only the object recognition process (corresponding to the image classification process performed by the image classifier 63 in FIG. 4) but also the object candidate region extraction process in the image (FIG. 4). The process performed by the candidate
変形例5:
上記の実施形態では、本発明の情報処理端末が、スマートフォン2である場合の例を示したが、本発明の情報処理端末は、これに限られず、例えば、カメラを備えたタブレット型コンピュータであってもよい。
Modification 5:
In the above embodiment, an example is shown in which the information processing terminal of the present invention is a
1 学習用サーバ(コンピュータ)
2 スマートフォン(情報処理端末)
12 通信部(画像取得部、画像受信部、サーバ側送信部)
18 特徴部分DB(特徴部分記憶部)
19 不足学習用画像推定プログラム
22 通信部(端末側送信部)
27 カメラ(撮影部)
28 (タッチパネルタイプの)ディスプレイ(操作部)
42 画像受信部(画像取得部、画像受信部)
43 機械学習部
44 着目領域抽出部
45 不足学習用画像推定部
47 必要学習用画像提示部
61 入力画像
63 画像分類器(ニューラルネットワーク)
68 着目領域
1 Learning server (computer)
2 Smartphone (information processing terminal)
12 Communication unit (image acquisition unit, image reception unit, server-side transmission unit)
18 Feature part DB (feature part storage part)
19 Image estimation program for insufficient learning 22 Communication unit (terminal side transmission unit)
27 Camera (shooting section)
28 (touch panel type) display (operation unit)
42 Image receiving unit (image acquisition unit, image receiving unit)
43 Machine learning unit 44 Focus
68 Area of interest
Claims (9)
前記画像取得部により取得した学習用画像に基づいて、特定の物体を認識するためのニューラルネットワークの機械学習を行う機械学習部と、
前記ニューラルネットワークが、前記特定の物体の認識において、現時点で着目している前記入力画像中の着目領域を抽出する着目領域抽出部と、
前記入力画像における、前記特定の物体を判別するための特徴部分を記憶する特徴部分記憶部と、
前記着目領域抽出部により抽出された前記着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定する不足学習用画像推定部と
を備える学習用サーバ。 An image acquisition unit that acquires an input image including a learning image,
A machine learning unit that performs machine learning of a neural network for recognizing a specific object based on a learning image acquired by the image acquisition unit.
In the recognition of the specific object, the neural network includes a region of interest extraction unit that extracts the region of interest in the input image that is currently being focused on.
A feature portion storage unit that stores a feature portion for discriminating the specific object in the input image, and a feature portion storage unit.
Based on the region of interest extracted by the region of interest extraction unit and the feature portion stored in the feature portion storage unit, the content and quantity of the learning image required to complete the machine learning are estimated. A learning server equipped with an image estimation unit for insufficient learning.
前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記特定クラスについての機械学習を完了するのに必要な学習用画像の内容と数量を推定することを特徴とする請求項1に記載の学習用サーバ。 The neural network is an image classifier that classifies which class the input image belongs to, and the class to be classified by the image classifier includes a specific class corresponding to the specific object.
The under-learning image estimation unit completes machine learning for the specific class based on the region of interest extracted by the region of interest extraction unit and the feature portion stored in the feature portion storage unit. The learning server according to claim 1, wherein the content and quantity of the learning images required for the above are estimated.
前記情報処理端末は、
学習用画像を含む入力画像を撮影する撮影部と、
前記撮影部により撮影された入力画像における、特定の物体を判別するための特徴部分の指示入力操作を行うための操作部と、
前記操作部を用いてユーザにより指示された前記特徴部分と、前記撮影部により撮影した、前記学習用画像を含む前記入力画像とを、前記学習用サーバに送信する端末側送信部と、
前記学習用サーバから受信した不足学習用画像情報に基づいて、前記特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な、学習用画像の内容と数量をユーザに提示する必要学習用画像提示部とを備え、
前記学習用サーバは、
前記端末側送信部により送信された、前記学習用画像を含む前記入力画像を受信する画像受信部と、
前記画像受信部により受信した前記学習用画像に基づいて、前記ニューラルネットワークの機械学習を行う機械学習部と、
前記ニューラルネットワークが、前記特定の物体の認識において、現時点で着目している前記入力画像中の着目領域を抽出する着目領域抽出部と、
前記端末側送信部により送信された前記特徴部分を記憶する特徴部分記憶部と、
前記着目領域抽出部により抽出された前記着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定する不足学習用画像推定部と、
前記不足学習用画像推定部により推定された、前記必要な学習用画像の内容と数量を、前記不足学習用画像情報として、前記情報処理端末に送信するサーバ側送信部と
を備える不足学習用画像収集支援システム。 It is equipped with an information processing terminal and a learning server connected to the information processing terminal via a network.
The information processing terminal is
A shooting unit that shoots input images including learning images,
An operation unit for performing an instruction input operation of a feature portion for discriminating a specific object in an input image captured by the photographing unit, and an operation unit.
A terminal-side transmission unit that transmits the feature portion instructed by the user using the operation unit and the input image including the learning image taken by the imaging unit to the learning server.
Based on the under-learning image information received from the learning server, the user is presented with the content and quantity of the learning image necessary to complete the machine learning of the neural network for recognizing the specific object. Equipped with a necessary learning image presentation unit
The learning server is
An image receiving unit that receives the input image including the learning image transmitted by the terminal-side transmitting unit, and an image receiving unit.
A machine learning unit that performs machine learning of the neural network based on the learning image received by the image receiving unit, and a machine learning unit.
In the recognition of the specific object, the neural network includes a region of interest extraction unit that extracts the region of interest in the input image that is currently being focused on.
A feature portion storage unit that stores the feature portion transmitted by the terminal-side transmission unit, and a feature portion storage unit.
Based on the region of interest extracted by the region of interest extraction unit and the feature portion stored in the feature portion storage unit, the content and quantity of the learning image required to complete the machine learning are estimated. Image estimation unit for insufficient learning and
An image for insufficient learning provided with a server-side transmission unit that transmits the content and quantity of the necessary learning image estimated by the image estimation unit for insufficient learning as the image information for insufficient learning to the information processing terminal. Collection support system.
前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記特定クラスについての機械学習を完了するのに必要な学習用画像の内容と数量を推定することを特徴とする請求項4に記載の不足学習用画像収集支援システム。 The neural network is an image classifier that classifies which class the input image belongs to, and the class to be classified by the image classifier includes a specific class corresponding to the specific object.
The under-learning image estimation unit completes machine learning for the specific class based on the region of interest extracted by the region of interest extraction unit and the feature portion stored in the feature portion storage unit. The insufficient learning image collection support system according to claim 4, wherein the content and quantity of the learning images required for the learning are estimated.
学習用画像を含む入力画像を取得する画像取得部と、
特定の物体を認識するためのニューラルネットワークが、前記特定の物体の認識において、現時点で着目している前記入力画像中の着目領域を抽出する着目領域抽出部と、
前記入力画像における、前記特定の物体を判別するための特徴部分を記憶する特徴部分記憶部と、
前記着目領域抽出部により抽出された前記着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な、学習用画像の内容と数量を推定する不足学習用画像推定部
として機能させるための、不足学習用画像推定プログラム。 Computer,
An image acquisition unit that acquires an input image including a learning image,
The neural network for recognizing a specific object includes a region of interest extraction unit that extracts the region of interest in the input image that is currently being focused on in recognizing the specific object.
A feature portion storage unit that stores a feature portion for discriminating the specific object in the input image, and a feature portion storage unit.
To complete the machine learning of the neural network for recognizing the specific object based on the feature region extracted by the focus region extraction unit and the feature portion stored in the feature portion storage unit. An image estimation program for under-learning to function as an image estimation unit for under-learning that estimates the content and quantity of necessary learning images.
前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記特定クラスについての機械学習を完了するのに必要な学習用画像の内容と数量を推定することを特徴とする請求項7に記載の不足学習用画像推定プログラム。 The neural network is an image classifier that classifies which class the input image belongs to, and the class to be classified by the image classifier includes a specific class corresponding to the specific object.
The under-learning image estimation unit completes machine learning for the specific class based on the region of interest extracted by the region of interest extraction unit and the feature portion stored in the feature portion storage unit. The insufficient learning image estimation program according to claim 7, wherein the content and quantity of the learning images required for the above are estimated.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018086457A JP7036401B2 (en) | 2018-04-27 | 2018-04-27 | Learning server, image collection support system for insufficient learning, and image estimation program for insufficient learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018086457A JP7036401B2 (en) | 2018-04-27 | 2018-04-27 | Learning server, image collection support system for insufficient learning, and image estimation program for insufficient learning |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019192082A JP2019192082A (en) | 2019-10-31 |
JP7036401B2 true JP7036401B2 (en) | 2022-03-15 |
Family
ID=68390261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018086457A Active JP7036401B2 (en) | 2018-04-27 | 2018-04-27 | Learning server, image collection support system for insufficient learning, and image estimation program for insufficient learning |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7036401B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7161948B2 (en) * | 2018-09-07 | 2022-10-27 | 株式会社フジクラ | Machine learning device, machine learning method, machine learning program, and inspection device |
CN111046939B (en) * | 2019-12-06 | 2023-08-04 | 中国人民解放军战略支援部队信息工程大学 | Attention-based CNN class activation graph generation method |
JP7357551B2 (en) | 2020-01-17 | 2023-10-06 | 株式会社日立ソリューションズ・クリエイト | Image judgment system |
JP7139369B2 (en) | 2020-03-10 | 2022-09-20 | 三菱電機インフォメーションシステムズ株式会社 | Detection result analysis device, detection result analysis method and detection result analysis program |
US20230237774A1 (en) * | 2020-07-07 | 2023-07-27 | Sony Group Corporation | Data collection system, sensor device, data collection device, and data collection method |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004213567A (en) | 2003-01-08 | 2004-07-29 | Ntt Docomo Inc | Image learning device and its learning method |
JP2011198349A (en) | 2010-02-25 | 2011-10-06 | Canon Inc | Method and apparatus for processing information |
-
2018
- 2018-04-27 JP JP2018086457A patent/JP7036401B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004213567A (en) | 2003-01-08 | 2004-07-29 | Ntt Docomo Inc | Image learning device and its learning method |
JP2011198349A (en) | 2010-02-25 | 2011-10-06 | Canon Inc | Method and apparatus for processing information |
Also Published As
Publication number | Publication date |
---|---|
JP2019192082A (en) | 2019-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7036401B2 (en) | Learning server, image collection support system for insufficient learning, and image estimation program for insufficient learning | |
CN109508694B (en) | Face recognition method and recognition device | |
JP6975848B2 (en) | Biometric detection methods and devices, electronic devices, and computer-readable storage media | |
JP6332937B2 (en) | Image processing apparatus, image processing method, and program | |
US20130251246A1 (en) | Method and a device for training a pose classifier and an object classifier, a method and a device for object detection | |
CN110427859A (en) | A kind of method for detecting human face, device, electronic equipment and storage medium | |
WO2019200735A1 (en) | Livestock feature vector acquisition method, apparatus, computer device and storage medium | |
JP2017033469A (en) | Image identification method, image identification device and program | |
TWI586160B (en) | Real time object scanning using a mobile phone and cloud-based visual search engine | |
CN110674680B (en) | Living body identification method, living body identification device and storage medium | |
CN110059666B (en) | Attention detection method and device | |
JP7167437B2 (en) | Article identification device | |
CN110688883A (en) | Vehicle and pedestrian detection method and device | |
CN111699478A (en) | Image retrieval device, image retrieval method, electronic apparatus, and control method thereof | |
CN104091173A (en) | Gender recognition method and device based on network camera | |
CN110309767A (en) | In vivo detection equipment, recognition methods, device and storage medium | |
CN113052295A (en) | Neural network training method, object detection method, device and equipment | |
JP2018084861A (en) | Information processing apparatus, information processing method and information processing program | |
CN113642639A (en) | Living body detection method, living body detection device, living body detection apparatus, and storage medium | |
JP7001150B2 (en) | Identification system, model re-learning method and program | |
CN114582012A (en) | Skeleton human behavior recognition method, device and equipment | |
JP2018049566A (en) | Image processing apparatus, image processing method, and program | |
CN110610173A (en) | Badminton motion analysis system and method based on Mobilenet | |
US20230306630A1 (en) | Image analysis server, object counting method using image analysis server, and object counting syste | |
JPWO2020049636A1 (en) | Identification system, model provision method and model provision program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7036401 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |