JP2019192082A

JP2019192082A - 学習用サーバ、不足学習用画像収集支援システム、及び不足学習用画像推定プログラム

Info

Publication number: JP2019192082A
Application number: JP2018086457A
Authority: JP
Inventors: 安紘土田; Yasuhiro Tsuchida
Original assignee: AWL Inc
Current assignee: AWL Inc
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2019-10-31
Anticipated expiration: 2038-04-27
Also published as: JP7036401B2

Abstract

【課題】学習用サーバにおいて、特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な学習用画像の内容と数量を、ユーザに知らせることを可能にする。【解決手段】不足学習用画像推定プログラムを実装した学習用サーバ１が、画像分類器（ニューラルネットワーク）が現時点で着目している入力画像中の着目領域を抽出する着目領域抽出部４４と、上記入力画像における、特定の物体を判別するための特徴部分を記憶する特徴部分ＤＢ１８と、上記着目領域と上記特徴部分とに基づいて、上記機械学習を完了するのに必要な学習用画像の内容と数量を推定する不足学習用画像推定部４５とを備えるようにした。これにより、上記機械学習を完了するのに必要な学習用画像の内容と数量を、ユーザに知らせることが可能になる。【選択図】図２

Description

本発明は、学習用サーバ、不足学習用画像収集支援システム、及び不足学習用画像推定プログラムに関し、より詳細には、特定の物体を認識するためのニューラルネットワークの機械学習に関する。

従来から、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）等のニューラルネットワークは、手書き数字の認識等の入力画像のクラス分類（物体認識）に利用されている。また、ＣＮＮ等のニューラルネットワークは、上記の物体認識の応用である物体検出にも利用されている。この物体検出は、画像中における物体の位置と種類（クラス）を特定する処理である。

上記の物体検出を行うプログラム（物体検出エンジン）として、Ｒ−ＣＮＮベースの物体検出エンジンが知られている（例えば、特許文献１の背景技術等参照）。このＲ−ＣＮＮベースの物体検出エンジンは、主に、オブジェクトらしい領域を抽出するための候補領域抽出部と、候補領域抽出部で抽出した各領域についてクラス分類（物体認識）を行うためのＣＮＮとから構成されている。このＲ−ＣＮＮベースの物体検出エンジンは、例えば、小売店の商品棚における商品タグの検出に用いることができる。

特開２０１８−２２４８４号公報

ところが、上記の物体認識（クラス分類）を行うニューラルネットワークには、現場のユーザが、ある物体を認識するための機械学習を完了するのに必要な学習用画像の内容や数量を知ることができないという問題がある。このため、上記の物体認識用のニューラルネットワークの再学習を行う度に、ディープラーニングに関する知識のあるＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）技術者が必要になる。

例えば、上記の例のように、Ｒ−ＣＮＮベースの物体検出エンジンを、小売店の商品棚における商品タグの検出に用いた場合には、小売店の店員（ユーザ）は、商品タグを認識するための（ニューラルネットワークのパラメータの）機械学習を完了するのに必要な学習用画像の内容や数量を知ることができなかった。ここで、小売店では、商品タグの入れ替え時に、商品タグ検出用の物体検出エンジン（中のニューラルネットワークにおけるパラメータ）の再学習が必要になる場合がある。そして、従来は、この物体検出エンジンの再学習を行う度に、ディープラーニングに関する知識のあるＡＩ技術者が必要であった。

本発明は、上記課題を解決するものであり、特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な学習用画像の内容と数量を、ユーザに知らせることができるようにして、ディープラーニングに関する知識のないユーザでも、容易に、上記の機械学習を完了するのに必要な学習用画像を作成することが可能な学習用サーバ、不足学習用画像収集支援システム、及び不足学習用画像推定プログラムを提供することを目的とする。

上記課題を解決するために、本発明の第1の態様による学習用サーバは、学習用画像を含む入力画像を取得する画像取得部と、前記画像取得部により取得した学習用画像に基づいて、特定の物体を認識するためのニューラルネットワークの機械学習を行う機械学習部と、前記ニューラルネットワークが、前記特定の物体の認識において、現時点で着目している前記入力画像中の着目領域を抽出する着目領域抽出部と、前記入力画像における、前記特定の物体を判別するための特徴部分を記憶する特徴部分記憶部と、前記着目領域抽出部により抽出された前記着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定する不足学習用画像推定部とを備える。

この学習用サーバにおいて、前記ニューラルネットワークは、前記入力画像がどのクラスに属するかを分類する画像分類器であり、前記画像分類器による分類先のクラスには、前記特定の物体に対応する特定クラスが含まれ、前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記特定クラスについての機械学習を完了するのに必要な学習用画像の内容と数量を推定するようにしてもよい。

この学習用サーバにおいて、前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分との一致度に基づいて、前記ニューラルネットワークの機械学習の進捗度を算出し、この進捗度と、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定するようにしてもよい。

本発明の第２の態様による不足学習用画像収集支援システムは、情報処理端末と、前記情報処理端末にネットワークを介して接続された学習用サーバとを備え、前記情報処理端末は、学習用画像を含む入力画像を撮影する撮影部と、前記撮影部により撮影された入力画像における、特定の物体を判別するための特徴部分の指示入力操作を行うための操作部と、前記操作部を用いてユーザにより指示された前記特徴部分と、前記撮影部により撮影した、前記学習用画像を含む前記入力画像とを、前記学習用サーバに送信する端末側送信部と、前記学習用サーバから受信した不足学習用画像情報に基づいて、前記特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な、学習用画像の内容と数量をユーザに提示する必要学習用画像提示部とを備え、前記学習用サーバは、前記端末側送信部により送信された、前記学習用画像を含む前記入力画像を受信する画像受信部と、前記画像受信部により受信した前記学習用画像に基づいて、前記ニューラルネットワークの機械学習を行う機械学習部と、前記ニューラルネットワークが、前記特定の物体の認識において、現時点で着目している前記入力画像中の着目領域を抽出する着目領域抽出部と、前記端末側送信部により送信された前記特徴部分を記憶する特徴部分記憶部と、前記着目領域抽出部により抽出された前記着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定する不足学習用画像推定部と、前記不足学習用画像推定部により推定された、前記必要な学習用画像の内容と数量を、前記不足学習用画像情報として、前記情報処理端末に送信するサーバ側送信部とを備える。

この不足学習用画像収集支援システムにおいて、前記ニューラルネットワークは、前記入力画像がどのクラスに属するかを分類する画像分類器であり、前記画像分類器による分類先のクラスには、前記特定の物体に対応する特定クラスが含まれ、前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記特定クラスについての機械学習を完了するのに必要な学習用画像の内容と数量を推定するようにしてもよい。

この不足学習用画像収集支援システムにおいて、前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分との一致度に基づいて、前記ニューラルネットワークの機械学習の進捗度を算出し、この進捗度と、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定するようにしてもよい。

本発明の第３の態様による不足学習用画像推定プログラムは、コンピュータを、学習用画像を含む入力画像を取得する画像取得部と、前記特定の物体を認識するためのニューラルネットワークが、前記特定の物体の認識において、現時点で着目している前記入力画像中の着目領域を抽出する着目領域抽出部と、前記入力画像における、前記特定の物体を判別するための特徴部分を記憶する特徴部分記憶部と、前記着目領域抽出部により抽出された前記着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な、学習用画像の内容と数量を推定する不足学習用画像推定部として機能させる。

この不足学習用画像推定プログラムにおいて、前記ニューラルネットワークは、前記入力画像がどのクラスに属するかを分類する画像分類器であり、前記画像分類器による分類先のクラスには、前記特定の物体に対応する特定クラスが含まれ、前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記特定クラスについての機械学習を完了するのに必要な学習用画像の内容と数量を推定するようにしてもよい。

この不足学習用画像推定プログラムにおいて、前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分との一致度に基づいて、前記ニューラルネットワークの機械学習の進捗度を算出し、この進捗度と、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定するようにしてもよい。

本発明の第１の態様による学習用サーバ、及び第３の態様による不足学習用画像推定プログラムによれば、特定の物体を判別するための特徴部分と、この特定の物体の認識において、ニューラルネットワークが現時点で着目している入力画像中の着目領域とに基づいて、この特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な学習用画像の内容と数量を推定することができる。これにより、上記の機械学習を完了するのに必要な学習用画像の内容と数量を、ユーザに知らせることが可能になるので、ディープラーニングに関する知識のないユーザでも、容易に、上記の機械学習を完了するのに必要な学習用画像を作成することが可能になる。従って、上記のニューラルネットワークの再学習を行う度に、ディープラーニングに関する知識のあるＡＩ技術者が必要になるという状況を、回避することができる。

本発明の第２の態様による不足学習用画像収集支援システムによれば、学習用サーバが、ユーザにより指示された、特定の物体を判別するための特徴部分と、この特定の物体の認識において、ニューラルネットワークが現時点で着目している入力画像中の着目領域とに基づいて、この特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な学習用画像の内容と数量を推定して、推定した学習用画像の内容と数量を、不足学習用画像情報として情報処理端末に送信する。そして、情報処理端末が、学習用サーバから受信した不足学習用画像情報に基づいて、特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な、学習用画像の内容と数量を、ユーザに提示する（上記の機械学習を完了するのに必要な学習用画像の内容と数量を、情報処理端末を保持するユーザに知らせる）。これにより、ディープラーニングに関する知識のないユーザでも、上記の情報処理端末が提示した学習用画像の内容と数量に基づいて、容易に、上記の機械学習を完了するのに必要な学習用画像を作成することが可能になる。従って、上記のニューラルネットワークの再学習を行う度に、ディープラーニングに関する知識のあるＡＩ技術者が必要になるという状況を、回避することができる。

本発明の一実施形態の不足学習用画像推定プログラムを実装した学習用サーバを含む、不足学習用画像収集支援システムの概略のブロック構成図。同学習用サーバとスマートフォンの機能ブロック構成図。同学習用サーバにおける不足学習用画像推定処理のフローチャート。同学習用サーバにおける、物体検出エンジンの概略構成と、着目領域抽出部の詳細処理の説明図。上記物体検出エンジンの画像分類器に商品タグの認識の再学習をさせた場合における、今までの商品タグの例の正面図。上記物体検出エンジンの画像分類器に商品タグの認識の再学習をさせた場合における、新しい商品タグの例の正面図。上記スマートフォンにおいて、ユーザが行う特徴部分の指示入力操作の例の説明図。上記スマートフォンのディスプレイに表示される、機械学習の完了に必要な学習用画像の内容と数量の例を示す図。

以下、本発明を具体化した実施形態による学習用サーバ、不足学習用画像収集支援システム、及び不足学習用画像推定プログラムについて、図面を参照して説明する。図１は、本実施形態による不足学習用画像収集支援システム１０を構成する、学習用サーバ１（請求項における「学習用サーバ」、及び「コンピュータ」）とスマートフォン２（請求項における「情報処理端末」）の概略の内部構成を示すブロック図である。図中の学習用サーバ１は、装置全体の制御と各種演算を行うＣＰＵ１１（請求項における「機械学習部」、「着目領域抽出部」、及び「不足学習用画像推定部」）を備えている。また、学習用サーバ１は、通信部１２（請求項における「画像取得部」、「画像受信部」、及び「サーバ側送信部」）を有しており、通信部１２とネットワーク（例えば、インターネット）とを介して、スマートフォン２と接続されている。通信部１２は、通信用ＩＣを備えている。

また、学習用サーバ１は、各種のプログラムやデータを記憶するハードディスク１３と、各種のプログラムの実行時に、実行するプログラムやデータをロードするＲＡＭ１４とを備えている。上記のハードディスク１３には、物体検出エンジン１６と、特徴部分ＤＢ１８（請求項における「特徴部分記憶部」）と、不足学習用画像推定プログラム１９とが格納されている。

上記の物体検出エンジン１６は、例えば、Ｒ−ＣＮＮ（ＲｅｇｉｏｎｓｗｉｔｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｆｅａｔｕｒｅｓ）ベースの物体検出エンジンである。この物体検出エンジン１６は、重みやバイアス等のパラメータデータ１７を有している。なお、本明細書において、「エンジン」とは、情報処理装置を使用して様々な情報処理を行う、一種のプログラムを意味する。

また、上記の特徴部分ＤＢ１８は、スマートフォン２側から送信された、特定の物体を判別するための（画像中の）特徴部分を記憶する。より詳細に言うと、特徴部分ＤＢ１８には、物体検出エンジン１６に含まれる画像分類器の分類先の各クラスについての、ユーザが考える（画像中の）特徴部分が記憶される。また、上記の不足学習用画像推定プログラム１９は、上記物体検出エンジン１６に含まれる画像分類器が、（上記の特定の物体に対応する）特定クラスについての機械学習を完了するのに必要な学習用画像の内容と数量を推定するためのプログラムである。

一方、スマートフォン２は、装置全体の制御と各種演算を行うＣＰＵ２１と、通信部２２（請求項における「端末側送信部」）とを備えている。通信部２２は、通信ＩＣとアンテナを備えている。スマートフォン２は、通信部２２とネットワークとを介して、学習用サーバ１と接続されている。

また、スマートフォン２は、各種のデータやプログラムを記憶するメモリ２３を備えている。メモリ２３に記憶されているプログラムには、必要学習用画像提示プログラム２４が含まれている。この必要学習用画像提示プログラム２４の詳細については、後述する。

また、スマートフォン２は、カメラ２７（請求項における「撮影部」）と、ディスプレイ２８と、操作ボタン２９と、マイクロフォン３０と、スピーカ３１と、二次電池３２とを備えている。カメラ２７は、物体検出エンジン１６内の画像分類器の機械学習に用いられる学習用画像を含む、（物体検出エンジン１６への）入力画像の撮影に用いられる。

上記のディスプレイ２８は、いわゆるタッチパネルタイプのディスプレイであり、ユーザが、上記の入力画像における、特定の物体を判別するための特徴部分を指示入力する際に用いられる。従って、ディスプレイ２８は、請求項における「操作部」に相当する。また、ディスプレイ２８は、後述する画像分類器の機械学習を完了するのに必要な、学習用画像の内容と数量の表示（提示）に用いられる。操作ボタン２９は、ユーザによる電源オン／オフ等の指示入力に用いられる。なお、タッチパネルタイプのディスプレイ２８の代わりに、操作ボタン２９を、上記の特徴部分の指示入力に用いてもよいし、メモリ２３に音声指示用のプログラムを格納して、この音声指示用のプログラムとマイクロフォン３０とを用いて、ユーザによる音声指示により、上記の特徴部分の指示入力を行ってもよい。また、二次電池３２は、リチウムイオン電池等の、充電により繰り返し使用することが可能な電池であり、スマートフォン２の各部に電力を供給する。

図２は、上記の学習用サーバ１側の機能ブロックと、スマートフォン２側の機能ブロックを示す。学習用サーバ１側のＣＰＵ１１内の各ブロック（機械学習部４３、着目領域抽出部４４、不足学習用画像推定部４５）の機能は、ＣＰＵ１１が不足学習用画像推定プログラム１９を実行することにより実現される。また、スマートフォン２側のＣＰＵ２１内の各ブロック（学習用画像取得部４１、特徴部分登録部４６、必要学習用画像提示部４７）の機能は、ＣＰＵ２１が必要学習用画像提示プログラム２４を実行することにより実現される。ただし、この構成に限られず、例えば、上記のＣＰＵ１１及びＣＰＵ２１における各ブロックの機能の少なくとも一つを、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等によって構成される個別のハードウェアによって実現してもよい。なお、図２中の画像受信部４２は、請求項における「画像受信部」と「画像取得部」に相当する。

次に、上記図２に加えて、図３のフローチャートを参照して、不足学習用画像収集支援システム１０において行われる不足学習用画像提示処理について説明する。図３は、学習用サーバ１が行う不足学習用画像推定処理のフローチャートである。

ユーザが、図２に示すカメラ２７を用いて、学習用画像等の入力画像を撮影すると、スマートフォン２の学習用画像取得部４１は、カメラ２７から学習用画像等の入力画像を取得して、この入力画像を、通信部２２（図１参照）により学習用サーバ１に送信する。ここで、上記の入力画像には、学習用画像（訓練データ又は教師データ）と、特定の物体が写りこんだテスト用画像（テストデータ）とが含まれる。ただし、学習用画像のうちの１枚を、テスト用画像として用いてもよい。以下の説明では、学習用画像とテスト用画像とを分けた場合の例を説明する。

学習用サーバ１の画像受信部４２（通信部１２に相当）は、上記のスマートフォン２側の通信部２２により送信された入力画像を受信する（図３のＳ１）。受信した入力画像が学習用画像のときには（図３のＳ２でＹＥＳ）、学習用サーバ１の機械学習部４３は、受信した学習用画像に基づいて、画像分類器（図４参照）の（パラメータデータ１７の）機械学習を行う（図３のＳ３）。

これに対して、ユーザがカメラ２７を用いて撮影した入力画像が、テスト用画像のときには、ユーザは、タッチパネルタイプのディスプレイ２８を用いて、テスト用画像における、特定の物体を判別するための特徴部分の指示入力操作を行う。言い換えると、ユーザは、特定の物体の認識においてユーザが特徴部分と考える、テスト用画像中の部分（領域）を登録するための指示入力を行う。この指示入力に応じて、スマートフォン２の特徴部分登録部４６は、ユーザにより指示された特徴部分を、学習用サーバ１側の特徴部分ＤＢ１８に登録する。ユーザは、上記のディスプレイ２８へのタッチ操作による、画像中の特徴部分の指示入力操作を行う代わりに、特徴部分ＤＢ１８に登録される特徴部分を、デフォルトで画像中央の部分としておいて、自分が特徴部分と考える部分（領域）が、画像中央になるように画像を撮影することにより、画像中の特徴部分の指示入力操作を行うようにしてもよい。

学習用サーバ１のＣＰＵ１１は、画像受信部４２により受信した入力画像が、（特定の物体が写りこんだ）テスト用画像のときには（図３のＳ２でＮＯ）、上記の機械学習部４３による機械学習処理を行わず、着目領域抽出部４４による処理を行う。この着目領域抽出部４４は、Ｇｒａｄ−ＣＡＭ（Ｇｒａｄｉｅｎｔ−ｗｅｉｇｈｔｅｄＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐｐｉｎｇ）等の技術を利用して、上記のテスト用画像について、画像分類器が、特定の物体の認識において（特定クラスの分類において）、現時点で着目しているテスト用画像中の着目領域を抽出する（図３のＳ４）。言い換えると、ＣＮＮベースの画像分類器が、ある特定クラスの分類において、テスト用画像の、どこ（どの部分）に着目しているかを判定する。

そして、学習用サーバ１の不足学習用画像推定部４５が、上記の着目領域抽出部４４により抽出された着目領域と、特徴部分ＤＢ１８に記憶（登録）された特徴部分とに基づいて、特定の物体を認識するための画像分類器の機械学習を完了するのに必要な学習用画像の内容と数量を推定する。より詳細に言うと、不足学習用画像推定部４５は、着目領域抽出部４４により抽出された（特定クラスについての）着目領域と、特徴部分ＤＢ１８に記憶（登録）された（特定クラスの）特徴部分（の領域）との一致度に基づいて、画像分類器の特定クラスについての機械学習の進捗率（請求項における「進捗度」に相当）を算出し（図３のＳ５）、この進捗率と、着目領域抽出部４４により抽出された着目領域と、特徴部分ＤＢ１８に記憶された特徴部分とに基づいて、特定クラスについての機械学習を完了するのに必要な学習用画像の内容と数量（どのような学習用画像を、後どの程度集める必要があるか）を推定する（図３のＳ６）。学習用サーバ１の通信部１２は、不足学習用画像推定部４５により推定された、上記の必要な学習用画像の内容と数量を、不足学習用画像情報として、スマートフォン２に送信する（図３のＳ７）。

スマートフォン２の必要学習用画像提示部４７は、学習用サーバ１から受信した上記の不足学習用画像情報に基づいて、特定の物体を認識するための画像分類器の機械学習を完了するのに必要な（画像分類器の特定クラスについての機械学習を完了するのに必要な）、学習用画像の内容と数量を、ディスプレイ２８等を用いて提示する。

なお、学習用サーバ１の不足学習用画像推定部４５は、着目領域抽出部４４により抽出された着目領域と、特徴部分ＤＢ１８に記憶された特徴部分とが重なる場合には、当該クラスについての学習用画像が必要でない旨の情報を、不足学習用画像情報として、スマートフォン２に送信する。そして、スマートフォン２の必要学習用画像提示部４７が、当該クラスについての学習用画像が必要でない旨を、ディスプレイ２８等を用いて提示する。

次に、図４を参照して、上記の物体検出エンジン１６の概略構成と、着目領域抽出部４４がＧｒａｄ−ＣＡＭの技術を利用した場合の詳細処理の例について、説明する。Ｒ−ＣＮＮベースの物体検出エンジン１６は、候補領域抽出部６２と、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）により構成された画像分類器６３（請求項における「ニューラルネットワーク」）とを備えている。候補領域抽出部６２は、入力画像６１における、オブジェクトらしい領域を探し出す（抽出する）。また、画像分類器６３は、候補領域抽出部６２により抽出された領域に対してＣＮＮを適用して、抽出された領域の画像が、どのクラスに属するかを分類する。画像分類器６３は、特徴抽出部６４と識別部６５とを含んでいる。

上記の特徴抽出部６４は、候補領域抽出部６２により抽出された領域の画像に対して、ＣＮＮ特徴の抽出処理を行う。特徴抽出部６４は、Ｃｏｎｖｏｌｕｔｉｏｎレイヤ６４ａと、ＲｅＬＵレイヤ６４ｂと、Ｐｏｏｌｉｎｇレイヤ６４ｃとを含んでいる。なお、特徴抽出部６４は、Ｃｏｎｖｏｌｕｔｉｏｎレイヤ６４ａとＲｅＬＵレイヤ６４ｂのみから構成されていてもよい。また、図４には、簡略化した１組のＣｏｎｖｏｌｕｔｉｏｎレイヤ６４ａ、ＲｅＬＵレイヤ６４ｂ、及びＰｏｏｌｉｎｇレイヤ６４ｃのみを記載しているが、特徴抽出部６４は、実際には、これらのレイヤを何組も（何層も）含んでいる。Ｃｏｎｖｏｌｕｔｉｏｎレイヤ６４ａは、候補領域抽出部６２により抽出された領域の画像に対して、畳み込み演算を行い、ＲｅＬＵレイヤ６４ｂは、上記の畳み込み演算結果に対する活性化処理を行い、Ｐｏｏｌｉｎｇレイヤ６４ｃは、ＲｅＬＵレイヤ６４ｂからの活性化処理後の出力データに対して、縦・横方向の空間を小さくするための演算を行う。なお、上記のＲｅＬＵレイヤ６４ｂは、Ｃｏｎｖｏｌｕｔｉｏｎレイヤ６４ａから出力された特徴マップにおける各データを、０以下の値のデータについては、０に置き換え、０を超える値のデータについては、そのまま出力する処理を行う。

また、上記の識別部６５は、特徴抽出部６４から出力されたＣＮＮ特徴量に基づき、候補領域抽出部６２により抽出された領域の画像に対するクラス分類を行う。この識別部６５は、全結合の多層ニューラルネットワークから構成され、少なくとも、Ａｆｆｉｎｅレイヤ６５ａと、Ｓｏｆｔｍａｘレイヤ６５ｂとを含んでいる。識別部６５は、候補領域抽出部６２により抽出された各領域の画像に対して、画像分類器６３による分類先の各クラスに分類される可能性の高さを表す確率スコアを算出し、この確率スコアが一番大きいクラスを、分類先のクラスとする。なお、Ｓｏｆｔｍａｘレイヤ６５ｂは、直近のＡｆｆｉｎｅレイヤ６５ａから出力された、各クラスに分類される可能性の高さを表すスコアを、確率スコアに変換する。また、識別部６５は、上記の各クラスに分類される可能性の高さを表す確率スコアと、各学習用画像についての教師ラベル（クラスラベル）との誤差に基づく、教師あり学習も行う。

次に、図４の下段に示される、着目領域抽出部４４がＧｒａｄ−ＣＡＭの技術を利用した場合の詳細処理の例について、説明する。図中のｙ^ｃは、上記のＳｏｆｔｍａｘレイヤ６５ｂから出力された、クラスｃの確率スコアを示す。ただし、ｙ^ｃは、上記のＳｏｆｔｍａｘレイヤ６５ｂにより確率スコアに変換される前の、クラスｃのスコア（ｒａｗｓｃｏｒｅ）であってもよい。また、α^ｃ _ｋは、クラスｃについてのｋ番目の（Ｃｏｎｖｏｌｕｔｉｏｎレイヤ６４ａの）フィルタに関する重み（係数）である。そして、Ａ^ｋは、クラスｃについてのｋ番目の特徴マップ（ｋ番目のＣｏｎｖｏｌｕｔｉｏｎレイヤ６４ａの後のＰｏｏｌｉｎｇレイヤ６４ｃからの出力）を示す。

ＣＰＵ１１の着目領域抽出部４４は、下記の式（１）に基づいて、上記の重みα^ｃ _ｋを算出する。具体的には、着目領域抽出部４４は、クラスｃの確率スコアｙ^ｃを、クラスｃについてのｋ番目の特徴マップＡ^ｋのピクセル（ｉ，ｊ）における強度Ａ^ｋ _ｉｊについて、偏微分して、勾配（ｇｒａｄｉｅｎｔ）（∂ｙ_ｃ／∂Ａ^ｋ _ｉｊ）を求める処理を繰り返し、これらの処理によって得られた勾配を、ｋ番目の特徴マップＡ^ｋの全ピクセルについて平均することにより、重みα^ｃ _ｋを求める。上記の勾配（∂ｙ_ｃ／∂Ａ^ｋ _ｉｊ）は、ｋ番目の特徴マップのピクセル（ｉ，ｊ）が、クラスｃの確率スコアｙ^ｃに及ぼす影響の大きさを示し、上記の重みα^ｃ _ｋは、ｋ番目の特徴マップＡ^ｋ（全体）が、クラスｃの確率スコアｙ^ｃに及ぼす影響の大きさを示す。

次に、着目領域抽出部４４は、上記の式（１）で求めた各特徴マップＡ^ｋの重みα^ｃ _ｋを用いて、下記の式（２）に基づき、ｎ個の特徴マップＡ^ｎについての加重平均値を各ピクセル毎に計算し、この各ピクセル毎の加重平均値を、活性化関数ＲｅＬＵ＝ｍａｘ｛ｘ，０｝のパラメタｘとした場合の出力値を、Ｇｒａｄ−ＣＡＭによるヒートマップ出力値Ｌ^ｃ _{Ｇｒａｄ−ＣＡＭ}とする。

ここで、上記のように、活性化関数ＲｅＬＵを用いた理由は、我々は、注目しているクラス（クラスｃ）に肯定的な影響を与える特徴（ピクセル）にだけ興味があるからであり、ヒートマップ出力に必用なピクセルは、そのピクセル（ｉ，ｊ）についての出力値が増加したときに、クラスｃの確率スコアｙ^ｃが増加するピクセルのみだからである。そして、着目領域抽出部４４は、上記の活性化関数ＲｅＬＵからの各ピクセルについての出力値（Ｇｒａｄ−ＣＡＭによるヒートマップ出力値）のうち、所定値以上の出力値を持つピクセルが集まった領域を、着目領域６８として抽出する。

次に、上記の物体検出エンジン１６を商品タグの検出に用いた場合における、物体検出エンジン１６の再学習を例にして、この不足学習用画像収集支援システム１０が行う、物体検出エンジン１６の機械学習完了に必要な学習用画像の提示処理について、説明する。

例えば、ある小売店の商品棚における商品タグが、今までは、図５に示すフォーマットの商品タグ７１のみであったという状況において、新たに、図６に示す新しいフォーマットの商品タグ７２が追加されたとする。そして、図５に示す今までの商品タグ７１には、商品名７１ａ、値段７１ｂ、及びバーコード７１ｃが記載されており、図６に示す新しい商品タグ７２には、商品名７２ａ、値段７２ｂ、及びバーコード７２ｃに加えて、大セール表示７２ｄが記載されていたとする。この場合には、新しいフォーマットの商品タグ７２も商品タグであると認識させるために、物体検出エンジン１６の画像分類器６３の再学習が必要になる場合がある。このケースにおいて、物体検出エンジン１６の画像分類器６３は、本来なら、今までの商品タグ７１と新しい商品タグ７２において画像的特徴が共通する、バーコード７１ｃ，７２ｃの領域に着目すべきである（値段７１ｂや７２ｂに注目する場合もあるが、一般的にこれらは商品タグ毎に異なる数字となることが多く、「円」の部分を除き着目領域とならない場合が多い。一方でバーコードは、それぞれ意味する数字が異なっても、画像的特徴としては縦方向の直線が長方形状に分布するものであり、着目領域となりやすい）。しかしながら、この再学習の途中において、偶々、新しい商品タグ７２における大セール表示７２ｄの特徴が、（商品タグに相当するクラス以外の）他のクラスの特徴に似ていたために、物体検出エンジン１６の画像分類器６３が、（商品タグに相当する特定クラスの認識において）現時点で着目している領域が、新しい商品タグ７２における大セール表示７２ｄの領域であったとする。

上記の状況において、ユーザである店員が、物体検出エンジン１６の（再）学習状況を確認するために、カメラ２７を用いて、図６に示す新しいフォーマットの商品タグ７２の画像を、テスト用画像として撮影した上で、このテスト用画像における、商品タグを判別するための特徴部分の指示入力操作を行ったとする。この指示入力操作は、具体的には、店員が、スマートフォン２のタッチパネルタイプのディスプレイ２８へのタッチ操作で、図７に示す特徴部分指示枠８１により、商品タグの認識において自分が特徴部分と考える、テスト用画像中の部分（領域）を囲むという操作である。この指示入力操作に応じて、スマートフォン２の特徴部分登録部４６が、店員により指示された特徴部分（特徴部分指示枠８１内の領域）を、学習用サーバ１側の特徴部分ＤＢ１８に登録する。ここでは、店員が、商品タグ７２におけるバーコード７２ｃの領域を、商品タグを判別するための特徴部分として登録したものとする。

上記の特徴部分の登録処理が完了すると、学習用サーバ１の着目領域抽出部４４は、スマートフォン２から受信した上記のテスト用画像について、画像分類器６３が、商品タグの認識において、現時点で着目しているテスト用画像中の着目領域を抽出する。ここでは、上記のように、画像分類器６３が現時点で着目している領域（着目領域）が、大セール表示７２ｄの領域であり、店員により指示された特徴部分（の領域）が、バーコード７２ｃの領域であるので、上記図３のＳ５において算出される機械学習の進捗率は、低くなる。

学習用サーバ１の不足学習用画像推定部４５は、上記の機械学習の進捗率と、着目領域抽出部４４により抽出された着目領域と、特徴部分ＤＢ１８に記憶された特徴部分とに基づいて、物体検出エンジン１６の画像分類器６３の（商品タグの認識についての）再学習を完了するのに必要な学習用画像の内容と数量を推定する。具体的には、この例の場合は、新しい商品タグ７２における大セール表示７２ｄの特徴が、（商品タグに相当するクラス以外の）他のクラスの特徴に似ていたために、機械学習の進捗率が低くなっていると考えられる。このため、不足学習用画像推定部４５は、商品タグに対応するクラスについての機械学習を完了するのに必要な学習用画像（の内容）が、大セール表示７２ｄを含む商品タグ（新しい商品タグ７２）が写り込んだ学習用画像であるという推定と、この種類の学習画像が、後どれ位必要であるかという推定を行う。学習用サーバ１の通信部１２は、上記の必要な学習用画像の内容（種類）と数量を、不足学習用画像情報として、スマートフォン２に送信する

不足学習用画像推定部４５は、回帰モデルのニューラルネットワークにより実現することができる。当該ニューラルネットワークは、着目領域と特徴部分を入力とし、当該着目領域と特徴部分の状況において必要な学習用画像の数量を出力として、事前に学習させたものであり、充分な量の学習データ（入力と出力の組み合わせ）を用いて学習することで、ある未知の着目領域と特徴部分の組み合わせにおいて、必要な学習用画像の数量を回帰（予測（推定））することが可能となる。必要な学習用画像の内容については、着目領域とテスト画像のＡＮＤをとった画像が利用可能である。

スマートフォン２の必要学習用画像提示部４７は、学習用サーバ１から受信した上記の不足学習用画像情報に基づいて、商品タグを認識するための画像分類器の機械学習（再学習）を完了するのに必要な、学習用画像の内容と数量を、ディスプレイ２８を用いて表示（提示）する。この例では、スマートフォン２の必要学習用画像提示部４７によってディスプレイ２８に表示される学習用画像の内容と数量（ガイダンス）は、図８に示すようになる。店員は、図８に示すガイダンスに従って、大セール表示７２ｄを含む学習用画像を、カメラ２７で、５０枚撮影（取得）することにより、商品タグを認識するための画像分類器の機械学習（再学習）を完了させることができる。これにより、店舗の現場において、ディープラーニングに関する知識のない店員が、スマートフォン２が提示した学習用画像の内容と数量（ガイダンス）に基づいて、容易に、機械学習を完了するのに必要な学習用画像を作成することができる。従って、上記のガイダンス（学習用画像の内容と数量）に基づいて、店員が、容易に、それまでの機械学習の軌道を修正することができる。

上記のように、本実施形態の不足学習用画像推定プログラム１９を実装した学習用サーバ１によれば、商品タグ等の特定の物体を判別するための特徴部分と、この特定の物体の認識において、画像分類器６３（請求項における「ニューラルネットワーク」）が現時点で着目している入力画像（テスト用画像）中の着目領域とに基づいて、この特定の物体を認識するための画像分類器６３の機械学習を完了するのに必要な学習用画像の内容と数量を推定することができる。これにより、上記の機械学習を完了するのに必要な学習用画像の内容と数量を、ユーザに知らせることが可能になるので、ディープラーニングに関する知識のないユーザでも、容易に、上記の機械学習を完了するのに必要な学習用画像を作成することが可能になる。従って、画像分類器６３の再学習を行う度に、ディープラーニングに関する知識のあるＡＩ技術者が必要になるという状況を、回避することができる。

また、本実施形態の不足学習用画像推定プログラム１９を実装した学習用サーバ１によれば、ＣＰＵ１１の不足学習用画像推定部４５が、着目領域抽出部４４により抽出された着目領域と、特徴部分ＤＢ１８に記憶された特徴部分との一致度に基づいて、画像分類器６３の機械学習の進捗度を算出し、この進捗度と、着目領域抽出部４４により抽出された着目領域と、特徴部分ＤＢ１８に記憶された特徴部分とに基づいて、画像分類器６３の機械学習を完了するのに必要な学習用画像の内容と数量を推定するようにした。ここで、上記のように、着目領域抽出部４４により抽出された着目領域と、特徴部分ＤＢ１８に記憶された特徴部分との一致度に基づいて、画像分類器６３の機械学習の進捗度を算出することにより、画像分類器６３の機械学習の進捗度を正確に算出することができるので、この正確な進捗度と、着目領域抽出部４４により抽出された着目領域と、特徴部分ＤＢ１８に記憶された特徴部分とを用いることにより、画像分類器６３の機械学習を完了するのに必要な学習用画像の内容と数量を、正確に推定することが可能になる。

また、本実施形態の不足学習用画像収集支援システム１０によれば、学習用サーバ１が、ユーザにより指示された、（商品タグ等の）特定の物体を判別するための特徴部分と、この特定の物体の認識において、画像分類器６３が現時点で着目している入力画像（テスト用画像）中の着目領域とに基づいて、この特定の物体を認識するための画像分類器６３の機械学習を完了するのに必要な学習用画像の内容と数量を推定して、推定した学習用画像の内容と数量を、不足学習用画像情報としてスマートフォン２に送信する。そして、スマートフォン２が、学習用サーバ１から受信した不足学習用画像情報に基づいて、特定の物体を認識するための画像分類器６３の機械学習を完了するのに必要な、学習用画像の内容と数量を、ユーザに提示する（上記の機械学習を完了するのに必要な学習用画像の内容と数量を、スマートフォン２を保持するユーザに知らせる）。これにより、ディープラーニングに関する知識のないユーザでも、上記のスマートフォン２が提示した学習用画像の内容と数量に基づいて、容易に、上記の機械学習を完了するのに必要な学習用画像を作成することが可能になる。従って、画像分類器６３の再学習を行う度に、ディープラーニングに関する知識のあるＡＩ技術者が必要になるという状況を、回避することができる。

変形例：
なお、本発明は、上記の各実施形態の構成に限られず、発明の趣旨を変更しない範囲で種々の変形が可能である。次に、本発明の変形例について説明する。

変形例１：
上記の実施形態では、スマートフォン２の必要学習用画像提示部４７が、画像分類器の機械学習を完了するのに必要な、学習用画像の内容と数量を、ディスプレイ２８に表示することにより、ユーザに提示したが、画像分類器の機械学習を完了するのに必要な、学習用画像の内容と数量を、スピーカを用いた音声ガイダンスによって、ユーザに提示してもよい。

変形例２：
また、上記の実施形態では、学習用サーバ１が、ユーザ（店員）がスマートフォン２のカメラ２７で撮影した画像を、スマートフォン２から受信して、学習用画像及びテスト用画像として用いる場合の例を示したが、これに限られず、例えば、他のサーバから送信された画像を、学習用画像及びテスト用画像として用いてもよい。また、学習用サーバが、いわゆるＵＳＢメモリ等のリムーバブルメディアから、学習用画像及びテスト用画像を読み取ることにより、これらの画像を取得するようにしてもよい。すなわち、請求項における画像取得部は、上記実施形態におけるスマートフォン２のような情報処理端末から、学習用画像等の入力画像を取得する通信装置（図１における通信部１２に相当）に限られず、例えば、リムーバブルメディアから学習用画像等の入力画像を取得（入力）するための入力端子であってもよい。

変形例３：
上記の実施形態では、学習用サーバ１が、画像分類器６３を含む物体検出エンジン１６を用いる場合の例を示したが、学習用サーバ１が、物体の検出を行わず、物体（例えば、商品タグ）の認識だけを行う場合には、物体検出エンジンの代わりに、画像分類器を単独で用いればよい。

変形例４：
また、上記の実施形態では、Ｒ−ＣＮＮベースの物体検出エンジン１６を用いる場合の例を示したが、ＦａｓｔｅｒＲ−ＣＮＮベースの物体検出エンジンを用いてもよい。ＦａｓｔｅｒＲ−ＣＮＮベースの物体検出エンジンを用いることにより、物体認識処理（図４中の画像分類器６３が行う、画像のクラス分類処理に相当）だけではなく、画像における物体候補領域抽出処理（図４中の候補領域抽出部６２が行う処理）も、一つのＣＮＮで行うことができる。

変形例５：
上記の実施形態では、本発明の情報処理端末が、スマートフォン２である場合の例を示したが、本発明の情報処理端末は、これに限られず、例えば、カメラを備えたタブレット型コンピュータであってもよい。

１学習用サーバ（コンピュータ）
２スマートフォン（情報処理端末）
１２通信部（画像取得部、画像受信部、サーバ側送信部）
１８特徴部分ＤＢ（特徴部分記憶部）
１９不足学習用画像推定プログラム
２２通信部（端末側送信部）
２７カメラ（撮影部）
２８（タッチパネルタイプの）ディスプレイ（操作部）
４２画像受信部（画像取得部、画像受信部）
４３機械学習部
４４着目領域抽出部
４５不足学習用画像推定部
４７必要学習用画像提示部
６１入力画像
６３画像分類器（ニューラルネットワーク）
６８着目領域

Claims

学習用画像を含む入力画像を取得する画像取得部と、
前記画像取得部により取得した学習用画像に基づいて、特定の物体を認識するためのニューラルネットワークの機械学習を行う機械学習部と、
前記ニューラルネットワークが、前記特定の物体の認識において、現時点で着目している前記入力画像中の着目領域を抽出する着目領域抽出部と、
前記入力画像における、前記特定の物体を判別するための特徴部分を記憶する特徴部分記憶部と、
前記着目領域抽出部により抽出された前記着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定する不足学習用画像推定部と
を備える学習用サーバ。
前記ニューラルネットワークは、前記入力画像がどのクラスに属するかを分類する画像分類器であり、前記画像分類器による分類先のクラスには、前記特定の物体に対応する特定クラスが含まれ、
前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記特定クラスについての機械学習を完了するのに必要な学習用画像の内容と数量を推定することを特徴とする請求項１に記載の学習用サーバ。
前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分との一致度に基づいて、前記ニューラルネットワークの機械学習の進捗度を算出し、この進捗度と、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定することを特徴とする請求項１又は請求項２に記載の学習用サーバ。
情報処理端末と、前記情報処理端末にネットワークを介して接続された学習用サーバとを備え、
前記情報処理端末は、
学習用画像を含む入力画像を撮影する撮影部と、
前記撮影部により撮影された入力画像における、特定の物体を判別するための特徴部分の指示入力操作を行うための操作部と、
前記操作部を用いてユーザにより指示された前記特徴部分と、前記撮影部により撮影した、前記学習用画像を含む前記入力画像とを、前記学習用サーバに送信する端末側送信部と、
前記学習用サーバから受信した不足学習用画像情報に基づいて、前記特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な、学習用画像の内容と数量をユーザに提示する必要学習用画像提示部とを備え、
前記学習用サーバは、
前記端末側送信部により送信された、前記学習用画像を含む前記入力画像を受信する画像受信部と、
前記画像受信部により受信した前記学習用画像に基づいて、前記ニューラルネットワークの機械学習を行う機械学習部と、
前記ニューラルネットワークが、前記特定の物体の認識において、現時点で着目している前記入力画像中の着目領域を抽出する着目領域抽出部と、
前記端末側送信部により送信された前記特徴部分を記憶する特徴部分記憶部と、
前記着目領域抽出部により抽出された前記着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定する不足学習用画像推定部と、
前記不足学習用画像推定部により推定された、前記必要な学習用画像の内容と数量を、前記不足学習用画像情報として、前記情報処理端末に送信するサーバ側送信部と
を備える不足学習用画像収集支援システム。
前記ニューラルネットワークは、前記入力画像がどのクラスに属するかを分類する画像分類器であり、前記画像分類器による分類先のクラスには、前記特定の物体に対応する特定クラスが含まれ、
前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記特定クラスについての機械学習を完了するのに必要な学習用画像の内容と数量を推定することを特徴とする請求項４に記載の不足学習用画像収集支援システム。
前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分との一致度に基づいて、前記ニューラルネットワークの機械学習の進捗度を算出し、この進捗度と、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定することを特徴とする請求項４又は請求項５に記載の不足学習用画像収集支援システム。
コンピュータを、
学習用画像を含む入力画像を取得する画像取得部と、
特定の物体を認識するためのニューラルネットワークが、前記特定の物体の認識において、現時点で着目している前記入力画像中の着目領域を抽出する着目領域抽出部と、
前記入力画像における、前記特定の物体を判別するための特徴部分を記憶する特徴部分記憶部と、
前記着目領域抽出部により抽出された前記着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記特定の物体を認識するためのニューラルネットワークの機械学習を完了するのに必要な、学習用画像の内容と数量を推定する不足学習用画像推定部
として機能させるための、不足学習用画像推定プログラム。
前記ニューラルネットワークは、前記入力画像がどのクラスに属するかを分類する画像分類器であり、前記画像分類器による分類先のクラスには、前記特定の物体に対応する特定クラスが含まれ、
前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記特定クラスについての機械学習を完了するのに必要な学習用画像の内容と数量を推定することを特徴とする請求項７に記載の不足学習用画像推定プログラム。
前記不足学習用画像推定部は、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分との一致度に基づいて、前記ニューラルネットワークの機械学習の進捗度を算出し、この進捗度と、前記着目領域抽出部により抽出された着目領域と、前記特徴部分記憶部に記憶された前記特徴部分とに基づいて、前記機械学習を完了するのに必要な学習用画像の内容と数量を推定することを特徴とする請求項７又は請求項８に記載の不足学習用画像推定プログラム。