JP7467157B2

JP7467157B2 - 学習装置、画像認識装置、学習方法、画像認識装置の制御方法およびプログラム

Info

Publication number: JP7467157B2
Application number: JP2020026507A
Authority: JP
Inventors: 隆一石栗
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2024-04-15
Anticipated expiration: 2040-02-19
Also published as: US20210256382A1; JP2021131716A

Description

本発明は、学習装置、画像認識装置、学習方法、画像認識装置の制御方法およびプログラムに関する。

近年、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）モデルに基づく深層学習が、画像認識に応用されるようになっている。ＣＮＮモデルは、多くの学習データを用いて機械学習されることで、画像認識の精度が向上する。関連する技術として特許文献１の技術が提案されている。特許文献１の技術は、ニューラルネットワークの各ニューロンの出力値を定義するシグモイド関数のデータテーブルの上限および下限を、データテーブルの分解能に応じて決めるように構成している。

特開平０６－０３０４２５号公報

画像認識の精度が高いＣＮＮモデルは、一般にデータサイズが大きく、画像認識の推論処理を行うための高い性能がプロセッサに求められる。一方、眼鏡型ウェアラブルデバイスのようなエッジデバイス（画像認識装置）は、ハードウェア資源が乏しいため、精度が高いＣＮＮモデルを用いた画像認識を行うことが難しい。以上の問題は、ＣＮＮモデルだけでなく、任意の学習モデルにも生じ得るものである。

本発明は、画像認識装置の性能に応じた学習済みモデルを画像認識装置に搭載させることを目的とする。

上記目的を達成するために、本発明の学習装置は、画像認識装置から該画像認識装置の処理能力の情報および認識対象の情報を受信する受信手段と、前記処理能力を満たすように、前記認識対象の画像認識に適用される学習モデルの構成を調整する調整手段と、調整された前記学習モデルを機械学習して、前記認識対象を認識可能な第１の学習済みモデルを生成する学習手段と、前記第１の学習済みモデルを前記画像認識装置に送信する送信手段と、を備え、前記送信手段は、前記第１の学習済みモデルを前記画像認識装置に送信する前に、前記第１の学習済みモデルよりも精度が低く、且つ前記処理能力を満たし前記認識対象の画像認識が可能な第２の学習済みモデルを前記画像認識装置に送信することを特徴とする。

本発明によれば、画像認識装置の性能に応じた学習済みモデルを画像認識装置に搭載させることができる。

本実施形態のシステムの一例を示す図である。システム全体の処理の流れを示すシーケンス図である。学習サーバの処理の流れを示すフローチャートである。物体認識グラスの処理の流れを示すフローチャートである。

以下、本発明の各実施の形態について図面を参照しながら詳細に説明する。しかしながら、以下の実施形態に記載されている構成はあくまで例示に過ぎず、本発明の範囲は各実施の形態に記載されている構成によって限定されることはない。

以下、図面を参照して、本実施形態について説明する。図１は、本実施形態のシステムの一例を示す図である。本実施形態のシステムは、学習サーバＡ１００および物体認識グラスＢ１００を有する。学習サーバＡ１００と物体認識グラスＢ１００とは、インターネットＣ１００を介して、相互に通信可能である。学習サーバＡ１００は、物体認識グラスＢ１００に搭載される学習済みモデルを、機械学習を行うことにより生成し、生成された学習済みモデルを物体認識グラスＢ１００に送信する学習装置である。学習サーバＡ１００は、例えば、クラウドサーバ等であってもよい。

物体認識グラスＢ１００は、眼鏡型ウェアラブルデバイスであり、エッジデバイスとしての画像認識装置である。画像認識装置は、携帯型のパーソナルコンピュータやスマートフォン、タブレット端末、メディアプレーヤ、撮像装置等の任意のデバイスであってよい。本実施形態では、画像認識装置のハードウェア資源は、学習サーバＡ１００のハードウェア資源よりも乏しいものとする。

まず、学習サーバＡ１００について説明する。制御部Ａ１０１は、学習サーバＡ１００の全体を統括的にコントロールする。制御部Ａ１０１は、例えば、ＣＰＵにより実現される。制御部Ａ１０１は、制御手段に対応する。学習サーバＡ１００の全体のコントロールは、制御部Ａ１０１により行われてもよいし、複数のハードウェアが処理を分担することにより行われてもよい。不揮発性メモリＡ１０２は、電気的に消去および記録をすることが可能な不揮発性のメモリであり、制御部Ａ１０１で実行されるプログラム等が格納される。作業用メモリＡ１０３は、学習処理に使用されるバッファメモリや、表示部Ａ１０５の画像表示用メモリ、制御部Ａ１０１の作業領域等として使用される。作業用メモリＡ１０３に展開されたプログラムをＣＰＵが実行することにより、制御部Ａ１０１の機能が実現されてもよい。

操作部Ａ１０４は、学習サーバＡ１００に対するユーザからの指示を受け付けるために用いられる。操作部Ａ１０４は、例えば、学習サーバＡ１００の電源ボタンやキーボード、マウス等を含む。表示部Ａ１０５は、所定の情報を表示する。例えば、表示部Ａ１０５は、学習データの表示や対話的な操作のためのＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等の表示を行う。表示部Ａ１０５は、学習サーバＡ１００の外部の表示装置であってもよい。この場合、学習サーバＡ１００と表示装置とが接続される。そして、学習サーバＡ１００の制御により、表示装置の表示内容が制御される。

学習部Ａ１０６は、学習モデルの機械学習を行う学習手段である。学習モデルは、例えば、記録媒体Ａ１１０に記録される。本実施形態では、学習部Ａ１０６は、畳み込みニューラルネットワーク（ＣＮＮ）に基づく機械学習（深層学習）を行い、物体認識に適した学習済みモデルを生成する。学習部Ａ１０６は、例えば、決定木やサポートベクターマシン、ロジスティクス回帰等の任意の機械学習アルゴリズムを適用して、学習処理を行ってもよい。学習部Ａ１０６は、例えば、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）により実現されてもよいし、ＣＰＵとＧＰＵとが協働して動作することで、実現されてもよい。

機械学習された学習済みのＣＮＮモデルは、入力値から出力値を推論する推論処理に用いられる。学習部Ａ１０６は、ＣＮＮモデルの機械学習を行う際、画像データを入力とし、入力された画像データに含まれる物体のタグ情報を教師データとした教師あり学習を行う。タグ情報は、例えば、「自動車」や「樹木」、「人」、「犬」等である。以下、入力値となる画像データおよび教師データとなるタグ情報を、学習セットと称する。学習部Ａ１０６は、多くの学習セットを用いて、ＣＮＮモデルの機械学習を行う。学習部Ａ１０６は、例えば、誤差逆伝搬法等を用いて、ＣＮＮモデルの機械学習を行う。

記録媒体Ａ１１０は、多くの学習セットを記録する。記録媒体Ａ１１０は、記録部に対応する。記録媒体Ａ１１０は、学習サーバＡ１００に着脱可能なように構成されていてもよいし、学習サーバＡ１００に内蔵されていてもよい。学習サーバＡ１００は、記録媒体Ａ１１０にアクセスすることが可能である。なお、学習セットは、記録媒体Ａ１１０ではなく、異なる記録部（例えば、不揮発性メモリＡ１０２等）に記録されていてもよい。

通信部Ａ１２０は、インターネットＣ１００を介して、物体認識グラスＢ１００と通信を行う。通信部Ａ１２０は、受信手段および送信手段に対応する。通信部Ａ１２０は、例えばＩＥＥＥ８０２．１１規格に準拠した無線ＬＡＮ通信を行うインターフェースである。無線ＬＡＮ通信によって、アクセスポイントと無線による通信を行うことができる。また、ＴＣＰ／ＩＰ等の上位のプロトコルによって、アクセスポイントを介して、クラウドネットワークに接続されている機器との間でデータの送受信もできる。なお、通信部Ａ１２０の通信方式は、上記の例には限定されない。

次に、物体認識グラスＢ１００について説明する。制御部Ｂ１０１は、物体認識グラスＢ１００の全体を統括的にコントロールする。制御部Ｂ１０１は、例えば、ＣＰＵにより実現される。物体認識グラスＢ１００の全体のコントロールは、制御部Ｂ１０１により行われてもよいし、複数のハードウェアが処理を分担することにより行われてもよい。不揮発性メモリＢ１０２は、電気的に消去および記録をすることが可能な不揮発性のメモリであり、制御部Ｂ１０１で実行されるプログラム等が格納される。作業用メモリＢ１０３は、学習モデルを一時的に展開するバッファメモリや、表示部Ｂ１０５の画像表示用メモリ、制御部Ｂ１０１の作業領域等として使用される。例えば、作業用メモリＢ１０３に展開されたプログラムをＣＰＵが実行することにより、制御部Ｂ１０１の機能が実現されてもよい。

操作部Ｂ１０４は、物体認識グラスＢ１００に対するユーザからの指示を受け付けるために用いられる。操作部Ｂ１０４は、例えば、物体認識グラスＢ１００の電源ボタンや、操作ボタンを含む。表示部Ｂ１０５は、所定の情報を表示する。例えば、表示部Ｂ１０５は、学習データの表示や対話的な操作のためのＧＵＩ等の表示を行う。画像認識装置が、物体認識グラスＢ１００でない場合、表示部Ｂ１０５は、画像認識装置と接続可能な外部の表示装置として設けられてもよい。

画像認識部Ｂ１０６は、画像撮像部Ｂ１０７が撮像した画像データの画像認識を推論により行う画像認識手段である。画像認識部Ｂ１０６は、学習サーバＡ１００から送信された学習済みモデルを用いて認識処理を行う。画像認識部１０６は、ＧＰＵにより実現されてもよいし、ＣＰＵとＧＰＵとが協働して動作することで、実現されてもよい。画像撮像部Ｂ１０７は、撮像を行い、画像データを生成する。本実施形態では、画像撮像部Ｂ１０７は、グラスの正面方向に設けられ、ユーザが見ているものと同じ画角の画像を撮像する。画像撮像部Ｂ１０７は、撮像により生成される画像データを、画像認識部Ｂ１０６に渡す。

記録媒体Ｂ１１０は、学習サーバＡ１００から取得した学習済みモデルを記録する。上述したように、本実施形態では、学習済みモデルは、学習済みのＣＮＮモデルである。記録媒体Ｂ１１０は、物体認識グラスＢ１００に着脱可能なように構成されていてもよいし、物体認識グラスＢ１００に内蔵されていてもよい。物体認識グラスＢ１００は、記録媒体Ａ１１０にアクセスすることが可能である。なお、学習済みモデルは、記録媒体Ｂ１１０ではなく、異なる記録部（例えば、不揮発性メモリＢ１０２等）に記録されていてもよい。

通信部Ｂ１２０は、インターネットＣ１００を介して、学習サーバＡ１００と通信を行う。通信部Ｂ１２０は、送信手段および受信手段に対応する。通信部Ｂ１２０は、例えばＩＥＥＥ８０２．１１規格に準拠した無線ＬＡＮ通信を行うインターフェースである。無線ＬＡＮ通信によって、アクセスポイントと無線による通信を行うことができる。また、ＴＣＰ／ＩＰ等の上位のプロトコルによって、アクセスポイントを介して、クラウドネットワークに接続されている機器との間でデータの送受信もできる。なお、通信部Ｂ１２０の通信方式は、上記の例には限定されない。

次に、本実施形態のシステム全体の処理の流れについて説明する。図２は、システム全体の処理の流れを示すシーケンス図である。Ｓ２０１で、物体認識グラスＢ１００の制御部Ｂ１０１は、処理能力情報を送信するように、通信部Ｂ１２０を制御する。これにより、物体認識グラスＢ１００から学習サーバＡ１００に処理能力情報が送信される。処理能力情報は、例えば、画像認識部Ｂ１０６の動作に用いられる制御部Ｂ１０１の動作周波数等に関する情報であってもよいし、不揮発性メモリＢ１０２や作業用メモリＢ１０３のメモリサイズの情報であってもよい。処理能力情報は、画像認識部Ｂ１０６が画像認識の推論処理を行う際の処理能力を示す指標でもある。

Ｓ２０２で、制御部Ｂ１０１は、希望認識対象の情報を学習サーバＡ１００に送信する制御を行う。以下、希望認識対象（認識対象）は複数であるものとして説明するが、希望認識対象は１つであってもよい。これにより、希望認識対象が、物体認識グラスＢ１００から学習サーバＡ１００に送信される。希望認識対象の情報は、画像認識部Ｂ１０６による認識対象が優先度順に登録されたリストである。本実施形態では、最も高い優先度（優先度１）が「自動車」であり、次に高い優先度（優先度２）が「人」であり、最も低い優先度（優先度３）が「犬」であるとする。認識対象の数は３つ以外であってもよい。また、認識対象は、上記の例には限定されない。

Ｓ２０３で、制御部Ａ１０１は、Ｓ２０１で受信した処理能力情報とＳ２０２で受信した希望認識対象とを満たす低精度の学習済みモデルを選択する。ここで、本実施形態では、記録媒体Ａ１１０等に、複数の処理能力ごと且つ複数の認識対象ごとに学習済みモデルが予め記録されているものとする。制御部Ａ１０１は、物体認識グラスＢ１００から受信した処理能力情報と希望認識対象の情報とに基づいて、物体認識グラスＢ１００の処理能力で希望認識対象を認識可能な低精度の学習済みモデルを選択する。低精度の学習済みモデルは、第２の学習済みモデルに対応する。

Ｓ２０４で、制御部Ａ１０１は、低精度の学習済みモデルを送信する準備が完了した旨の通知（低精度モデル準備完了通知）を、物体認識グラスＢ１００に送信する制御を行う。これにより、学習サーバＡ１００から物体認識グラスＢ１００に、低精度モデル準備完了通知が送信される。Ｓ２０５で、物体認識グラスＢ１００の制御部Ｂ１０１は、受信した低精度モデル準備完了通知に応じて、低精度の学習済みモデルを取得する要求を、学習サーバＡ１００に送信する制御を行う。これにより、物体認識グラスＢ１００から学習サーバＡ１００に低精度の学習済みモデルを取得する要求（低精度モデル取得要求）が送信される。

Ｓ２０６で、学習サーバＡ１００の制御部Ａ１０１は、低精度モデル取得要求に応じて、低精度の学習済みモデル（低精度モデル）を送信する制御を行う。これにより、低精度の学習済みモデルが、学習サーバＡ１００から物体認識グラスＢ１００に送信される。Ｓ２０７で、物体認識グラスＢ１００の制御部Ｂ１０１は、学習サーバＡ１００から受信した低精度の学習済みモデルを記録媒体Ｂ１１０に記録する。これにより、物体認識グラスＢ１００は、後述する高精度の学習済みモデルを取得するまでの間、低精度の学習済みモデルを用いて、物体認識を行うことができる。

Ｓ２０８で、学習サーバＡ１００の制御部Ａ１０１は、高精度の学習モデルを調整する。高精度の学習モデルは、例えば、記録媒体Ａ１１０等に記録されていている。制御部Ａ１０１は、Ｓ２０１で受信した処理能力とＳ２０２で受信した希望認識対象の情報とを最大限満たすように学習モデルを調整する。つまり、制御部Ａ１０１は、物体認識グラスＢ１００の処理能力を満たし、複数の希望認識対象のうち少なくとも１つを認識可能なように、学習モデルを調整する。制御部Ａ１０１は、高精度の学習モデルのデータサイズと演算量とが、物体認識グラスＢ１００の処理能力以下となるように、高精度の学習モデルの調整を行ってもよい。

例えば、制御部Ａ１０１は、ＣＮＮを構成するシナプス数やレイヤー数、各シナプスの発火関数の出力値の粒度等の構成やパラメータを調整する。これにより、学習モデルの構成やパラメータが調整される。例えば、制御部Ａ１０１は、ＣＮＮを構成するシナプス数やレイヤー数を少なくすることで、高精度の学習モデルを物体認識グラスＢ１００の処理能力以下とすることができる。また、制御部Ａ１０１は、ＣＮＮを構成する各シナプスの発火関数の出力値の粒度を粗くすることで、高精度の学習モデルを物体認識グラスＢ１００の処理能力以下とすることができる。

Ｓ２０９で、制御部Ａ１０１は、学習部Ａ１０６に、調整された高精度の学習モデルの機械学習を行わせる。Ｓ２０９の処理は、学習処理である。学習部Ａ１０６は、例えば、上述したように、画像データを入力とし、入力された画像データに含まれる物体のタグ情報を教師データとした教師あり学習を行う。学習部Ａ１０６は、例えば、誤差逆伝搬法等を用いて、学習モデルの機械学習を行ってもよい。これにより、高精度の学習モデルが機械学習されて、高精度の学習済みモデルが生成される。高精度の学習済みモデルは、第１の学習済みモデルに対応する。

Ｓ２１０で制御部Ａ１０１は、学習が収束するかを判定し、収束しない場合には、認識対象を削減する。学習の収束については、後述する。制御部Ａ１０１は、学習が収束しないと判定した場合、処理をＳ２０８に戻し、高精度の学習モデルを再調整する。このとき、制御部Ａ１０１は、物体認識グラスＢ１００から受信した希望対象情報の情報が示す複数の希望認識対象のうち、優先度が最も低いから順に希望認識対象を削減する。上述した例の場合、制御部Ａ１０１は、優先度が最も低い優先度３である「犬」を認識対象から除外する。そして、制御部Ａ１０１は、Ｓ２０９の学習処理を行い、Ｓ２１０で学習が収束するかを再度判定する。制御部Ａ１０１は、Ｓ２１０で学習が収束すると判定するまで、Ｓ２０８からＳ２１０までの処理を繰り返す。

Ｓ２１１で、制御部Ａ１０１は、Ｓ２０８からＳ２１０の各処理により生成された高精度の学習済みモデルの規模を削減する。Ｓ２１２で、制御部Ａ１０１は、物体認識グラスＢ１００に、高精度の学習済みモデルを送信する準備が完了したことを示す高精度モデル準備完了通知を送信する制御を行う。これにより、高精度モデル準備完了通知が、学習サーバＡ１００から物体認識グラスＢ１００に送信される。Ｓ２１３で、物体認識グラスＢ１００の制御部Ｂ１０１は、学習サーバＡ１００に、高精度の学習済みモデルを取得する要求である高精度モデル取得要求を送信する制御を行う。これにより、高精度のモデル取得要求通知が、学習サーバＡ１００から物体認識グラスＢ１００に送信される。Ｓ２１４で、学習サーバＡ１００の制御部Ａ１０１は、物体認識グラスＢ１００に、高精度の学習済みモデル（高精度モデル）を送信する制御を行う。これにより、高精度の学習済みモデルが、学習サーバＡ１００から物体認識グラスＢ１００に送信される。Ｓ２１５で、物体認識グラスＢ１００の制御部Ｂ１０１は、学習サーバＡ１００から受信した高精度の学習済みモデルを記録媒体Ｂ１１０に記録する。

次に、学習サーバＡ１００の詳細な処理について説明する。図３は、学習サーバＡ１００の処理の流れを示すフローチャートである。Ｓ３０１で、制御部Ａ１０１は、通信部Ａ１２０を介して、物体認識グラスＢ１００から処理能力情報を受信したかを判定する。制御部Ａ１０１は、Ｓ３０１でＮｏと判定した場合、つまり処理能力情報を受信していない場合、処理をＳ３０１に戻し、処理能力情報を受信するまで待機する。一方、制御部Ａ１０１は、Ｓ３０１でＹｅｓと判定した場合、つまり処理能力情報を受信した場合、処理をＳ３０２に進める。

Ｓ３０２で、制御部Ａ１０１は、物体認識グラスＢ１００から受信した処理能力情報を記録媒体Ａ１１０に記録する。そして、Ｓ３０３で、制御部Ａ１０１は、通信部Ａ１２０を介して、物体認識グラスＢ１００から希望認識対象の情報を受信したかを判定する。制御部Ａ１０１は、Ｓ３０３でＮｏと判定した場合、つまり希望認識対象の情報を受信していない場合、処理をＳ３０３に戻す。一方、制御部Ａ１０１は、Ｓ３０３でＹｅｓと判定した場合、つまり希望認識対象の情報を受信した場合、処理をＳ３０４に進める。Ｓ３０４で、制御部Ａ１０１は、物体認識グラスＢ１００から受信した希望認識対象の情報を記録媒体Ａ１１０に記録する。

Ｓ３０５で、制御部Ａ１０１は、記録媒体Ａ１１０に記録されている複数の低精度の学習済みモデルから、物体認識グラスＢ１００の処理能力と希望認識対象とを満たす学習済みモデルを選択する。上述したように、記録媒体Ａ１１０には、処理能力ごと且つ認識対象ごとに予め機械学習された低精度の学習済みモデルが記録されている。記録媒体Ａ１１０には、計算量とデータサイズと認識対象とがそれぞれ異なる組み合わせの学習セットで予め機械学習された低精度の学習済みモデルが記録されていてもよい。制御部Ａ１０１は、記録媒体Ａ１１０に記録されている複数の低精度の学習済みモデルから、物体認識グラスＢ１００の処理能力と希望認識対象とを満たす学習済みモデルを選択する。

Ｓ３０５で、制御部Ａ１０１は、予め用意された複数の低精度の学習済みモデルから、条件を満たす低精度の学習済みモデルを選択するのではなく、学習部Ａ１０６に学習処理を行わせてもよい。この場合、学習部Ａ１０６は、物体認識グラスＢ１００から受信した希望認識対象の情報の条件を満たす低精度の学習済みモデルを生成する学習処理を行う。ここで、学習済みモデルの認識精度よりも、学習済みモデルの生成時間を優先するため、学習部Ａ１０６は、制御部Ａ１０１の処理速度に対して十分に小規模な学習済みモデルを生成する。つまり、学習部Ａ１０６は、制御部Ａ１０１（ＣＰＵ）が所定の処理を行うために要する時間の間に、生成可能な程度の小規模な学習済みモデルを生成する。

Ｓ３０６で、制御部Ａ１０１は、通信部Ａ１２０を介して、物体認識グラスＢ１００に対して低精度モデル準備完了通知を送信する制御を行う。Ｓ３０７で、制御部Ａ１０１は、通信部Ａ１２０を介して、物体認識グラスＢ１００から低精度モデル取得要求を受信したかを判定する。制御部Ａ１０１は、Ｓ３０７でＮｏと判定した場合、つまり低精度モデル取得要求を受信していない場合、処理をＳ３０７に戻す。制御部Ａ１０１は、Ｓ３０７でＹｅｓと判定した場合、つまり低精度モデル取得要求を受信した場合、処理をＳ３０８に進める。Ｓ３０８で、制御部Ａ１０１は、通信部Ａ１２０を介して、物体認識グラスＢ１００に低精度モデルを送信する制御を行う。これにより、低精度の学習済みモデルが、学習サーバＡ１００から物体認識グラスＢ１００に送信される。

Ｓ３０９で、制御部Ａ１０１は、高精度の学習モデルを調整する。このとき、上述したように、制御部Ａ１０１は、物体認識グラスＢ１００から受信した処理能力と希望認識対象とを最大限満たすように学習モデルを調整する。そして、Ｓ３１０で、制御部Ａ１０１は、学習部Ａ１０６に高精度の学習モデルの機械学習を行わせる。これにより、希望認識対象を認識可能な高精度の学習済みモデルが生成される。複数の希望認識対象のうち優先度が低い希望認識対象が削減されている場合には、削減されていない希望認識対象を認識可能な高精度の学習済みモデルが生成される。Ｓ３１１で、制御部Ａ１０１は、Ｓ３１０の学習が収束したかを判定する。制御部Ａ１０１は、Ｓ３１１でＮｏと判定した場合、つまり学習が収束していない場合、処理をＳ３１３に進める。一方、制御部Ａ１０１は、Ｓ３１１でＹｅｓと判定した場合、つまり学習が収束した場合、処理をＳ３１４に進める。

学習の収束について説明する。上述したように、学習部Ａ１０６は、機械学習を行う際、画像データを入力とし、入力された画像データに含まれる物体のタグ情報を教師データとした教師あり学習を行う。この場合、学習モデルに入力された画像データに対して、学習モデルが教師データを出力するようになった場合に、学習は収束する。入力された画像データに対する学習モデルの出力値と教師データとの誤差が一定値以下となったときに、学習は収束してもよい。一方、学習モデルに入力された画像データに対して、学習モデルが教師データを出力しない場合、或いは出力値と教師データとの誤差が一定値以下にならない場合、学習は収束しない。

Ｓ３１２で、制御部Ａ１０１は、高精度の学習済みモデルの規模を削減する処理を行う。例えば、制御部Ａ１０１は、シグモイド関数等の分解能を低下させることにより、高精度の学習済みモデルの規模を削減してもよい。これにより、学習済みモデルの性能の低下を抑制するとともに、学習済みモデルの規模が削減される。また、制御部Ａ１０１は、重要度の低いニューロンを削減する「枝刈り」と称される手法等を採用して、推論精度に支障がでない程度に、学習済みモデルの規模を削減してもよい。

一方、Ｓ３１３で、制御部Ａ１０１は、学習モデルの認識対象数を削減する処理を行う。学習済みモデルの出力値の種類（タグ情報の種類）が増えるに応じて演算量が増大する。その結果、学習済みモデルのデータサイズも増大するため、制御部Ａ１０１は、学習モデルの認識対象数を削減する。そして、制御部Ａ１０１は、処理Ｓ３１０に戻し、再度、学習処理を学習部Ａ１０６に行わせる。これにより、学習モデルの認識対象数が削減されるため、学習が収束する可能性が高くなる。上述したように、制御部Ａ１０１は、学習モデルの認識対象数を削減する際に、優先度の低い認識対象から削減を行う。

Ｓ３１４で、制御部Ａ１０１は、Ｓ３１３で削減処理が行われた高精度の学習済みモデルが、物体認識グラスＢ１００から受信した処理能力情報が示す処理能力を満たすかを判定する。この判定処理は、削減処理が行われた学習済みモデルを用いて、物体認識グラスＢ１００で推論処理が可能かを判定する処理でもある。制御部Ａ１０１は、Ｓ３１４でＮｏと判定した場合、処理をＳ３０９に戻す。一方、制御部Ａ１０１は、Ｓ３１４でＹｅｓと判定した場合、制御部Ａ１０１は、学習済みモデルを記録媒体Ａ１１０（画像認識モデル記憶手段）に記録して、処理をＳ３１５に進める。

Ｓ３１５で、制御部Ａ１０１は、通信部Ａ１２０を介して、物体認識グラスＢ１００に高精度モデル準備完了通知を送信する制御を行う。Ｓ３１６で、制御部Ａ１０１は、通信部Ａ１２０を介して、物体認識グラスＢ１００から高精度の学習済みモデルを取得する要求である高精度モデル取得要求を受信したかを判定する。制御部Ａ１０１は、Ｓ３１６でＹｅｓと判定した場合、つまり高精度モデル取得要求を受信した場合、処理をＳ３１７に進める。一方、制御部Ａ１０１は、Ｓ３１６でＮｏと判定した場合、つまり高精度モデル取得要求を受信していない場合、処理をＳ３１６に戻し、高精度モデル取得要求を受信するまで待機する。ここで、制御部Ａ１０１は、所定期間（例えば、１日や１時間）、高精度モデル取得要求を物体認識グラスＢ１００から受信しない場合、記録媒体Ａ１１０に記録されている学習済みモデルを削除する制御を行ってもよい。Ｓ３１７で、制御部Ａ１０１は、通信部Ａ１２０を介して、物体認識グラスＢ１００に高精度の学習済みモデルを送信する制御を行う。

次に、物体認識グラスＢ１００の処理の流れについて説明する。図４は、物体認識グラスＢ１００の処理の流れを示すフローチャートである。Ｓ４０１で、制御部Ｂ１０１は、通信部Ｂ１２０を介して、学習サーバＡ１００に処理能力情報を送信する制御を行う。Ｓ４０２で、制御部Ｂ１０１は、通信部Ｂ１２０を介して、学習サーバＡ１００に希望認識対象の情報を送信する。Ｓ４０３で、制御部Ｂ１０１は、通信部Ｂ１２０を介して、学習サーバＡ１００から低精度モデル準備完了通知を受信したかを判定する。制御部Ｂ１０１は、Ｓ４０３でＮｏと判定した場合、つまり低精度モデル準備完了通知を受信していない場合、処理をＳ４０３に戻し、低精度モデル準備完了通知を受信するまで待機する。一方、制御部Ｂ１０１は、Ｓ４０３でＹｅｓと判定した場合、つまり低精度モデル準備完了通知を受信した場合、処理をＳ４０４に進める。

Ｓ４０４で、制御部Ｂ１０１は、操作部Ｂ１０４を介して、ユーザ等から低精度モデル取得要求を受け付けたかを判定する。制御部Ｂ１０１は、Ｓ４０４でＮｏと判定した場合、つまり低精度モデル取得要求を受け付けていない場合、処理をＳ４０４に戻し、低精度モデル取得要求を受け付けるまで待機する。一方、制御部Ｂ１０１は、Ｓ４０４でＹｅｓと判定した場合、つまり低精度モデル取得要求を受け付けた場合、処理をＳ４０５に進める。Ｓ４０５で、制御部Ｂ１０１は、通信部Ｂ１２０を介して、学習サーバＡ１００に低精度モデル取得要求通知を送信する。

Ｓ４０６で、制御部Ｂ１０１は、通信部Ｂ１２０を介して、学習サーバＡ１００から低精度の学習済みモデル（低精度モデル）を受信したかを判定する。制御部Ｂ１０１は、Ｓ４０６でＮｏと判定した場合、つまり低精度の学習済みモデルを受信していない場合、処理をＳ４０６に戻し、低精度の学習済みモデルを受信するまで待機する。一方、制御部Ｂ１０１は、Ｓ４０６でＹｅｓと判定した場合、つまり低精度の学習済みモデルを受信した場合、処理をＳ４０７に進める。

Ｓ４０７で、制御部Ｂ１０１は、Ｓ４０６で受信した低精度の学習済みモデルを記録媒体Ｂ１１０に記録する。これにより、物体認識グラスＢ１００に、低精度の学習済みモデルが搭載される。制御部Ｂ１０１は、画像認識部Ｂ１０６に、低精度の学習済みモデルを用いた推論処理により、画像認識を行わせることができる。Ｓ４０８で、制御部Ｂ１０１は、通信部Ｂ１２０を介して、学習サーバＡ１００から高精度の学習済みモデルを送信する準備が完了したことを示す高精度モデル準備完了通知を受信したかを判定する。制御部Ｂ１０１は、Ｓ４０８でＮｏと判定した場合、つまり高精度モデル準備完了通知を受信していない場合、処理をＳ４０８に戻し、高精度モデル準備完了通知を受信するまで待機する。一方、制御部Ｂ１０１は、Ｓ４０８でＹｅｓと判定した場合、つまり高精度モデル準備完了通知を受信した場合、処理をＳ４０９に進める。

Ｓ４０９で、制御部Ｂ１０１は、操作部Ｂ１０４を介して、ユーザ等から高精度の学習済みモデルを取得する要求である高精度モデル取得操作を受け付けたかを判定する。制御部Ｂ１０１は、Ｓ４０９でＮｏと判定した場合、つまり高精度モデル取得操作を受け付けていない場合、処理をＳ４０８に戻す。一方、制御部Ｂ１０１は、Ｓ４０９でＹｅｓと判定した場合、つまり高精度モデル取得操作を受け付けた場合、処理をＳ４１０に進める。

Ｓ４１０で、制御部Ｂ１０１は、通信部Ｂ１２０を介して、学習サーバＡ１００に高精度モデル取得要求を送信する。Ｓ４１１で、制御部Ｂ１０１は、通信部Ｂ１２０を介して、学習サーバＡ１００から高精度の学習済みモデル（高精度モデル）を受信したかを判定する。制御部Ｂ１０１は、Ｓ４１１でＮｏと判定した場合、つまり高精度の学習済みモデルを受信していない場合、処理をＳ４１１に戻し、高精度の学習済みモデルを受信するまで待機する。一方、制御部Ｂ１０１は、Ｓ４１１でＹｅｓと判定した場合、処理をＳ４１２に進める。

Ｓ４１２で、制御部Ｂ１０１は、Ｓ４１１で受信した高精度の学習済みモデルを記録媒体Ｂ１１０に記録する。これにより、制御部１０１は、画像認識部Ｂ１０６に高精度の学習済みモデルを適用した推論処理を行わせることができる。この際、画像認識部Ｂ１０６は、適用する学習済みモデルを、低精度の学習済みモデルから高精度の学習済みモデルに切り替える。これにより、画像認識部Ｂ１０６は、高精度な画像認識を行うことができる。画像認識部Ｂ１０６は、画像撮像部Ｂ１０７が撮像した画像データを高精度の学習済みモデルに入力することで、画像認識を行う。画像認識部Ｂ１０６は、画像認識の結果として、例えば、「自動車」等のタグ情報を制御部Ｂ１０１に出力することができる。

以上のように、学習サーバＡ１００は、物体認識グラスＢ１００から受信した処理能力情報と希望認識対象の情報とに応じた高精度の学習済みモデルを生成する。生成された高精度の学習済みモデルは、ユーザが所有する物体認識グラスＢ１００の処理能力に最適化されているため、物体認識グラスＢ１００の性能に応じた学習済みモデルを物体認識グラスＢ１００に搭載させることができる。

さらに、学習サーバＡ１００は、物体認識グラスＢ１００から処理能力情報と希望認識対象とを受信したことに応じて、予め用意された低精度の学習済みモデルの中から最適な学習済みモデルを選択して、物体認識グラスＢ１００に送信する。これにより、高精度な学習モデルの学習処理に時間がかかる場合でも、ユーザを待たせることなく、ユーザが希望する物体を認識する機能を物体認識グラスＢ１００に搭載させることができる。

上述した実施形態において、希望認識対象は、画像認識部Ｂ１０６による認識対象が優先度順に登録される。認識対象の優先度は、ユーザ等により設定されてもよい。例えば、制御部Ｂ１０１は、表示部Ｂ１０５に、複数の認識対象のそれぞれについての優先度の指定を促す画面を表示する。そして、ユーザ等が、表示部Ｂ１０５に表示されている画面に基づいて、操作部Ｂ１０４を操作することで、複数の認識対象のそれぞれの優先度が指定される。制御部Ｂ１０１は、指定された優先度に応じて、希望認識対象のリストを生成してもよい。

以上、本発明の好ましい実施の形態について説明したが、本発明は上述した各実施の形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。本発明は、上述の各実施の形態の１以上の機能を実現するプログラムを、ネットワークや記憶媒体を介してシステムや装置に供給し、そのシステム又は装置のコンピュータの１つ以上のプロセッサがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Ａ１００学習サーバ
Ａ１０１制御部
Ａ１０６学習部
Ａ１１０記録媒体
Ａ１２０通信部
Ｂ１００物体認識グラス
Ｂ１０１制御部
Ｂ１０６画像認識部
Ｂ１１０記録媒体
Ｂ１２０通信部

Claims

画像認識装置から該画像認識装置の処理能力の情報および認識対象の情報を受信する受信手段と、
前記処理能力を満たすように、前記認識対象の画像認識に適用される学習モデルの構成を調整する調整手段と、
調整された前記学習モデルを機械学習して、前記認識対象を認識可能な第１の学習済みモデルを生成する学習手段と、
前記第１の学習済みモデルを前記画像認識装置に送信する送信手段と、
を備え、
前記送信手段は、前記第１の学習済みモデルを前記画像認識装置に送信する前に、前記第１の学習済みモデルよりも精度が低く、且つ前記処理能力を満たし前記認識対象の画像認識が可能な第２の学習済みモデルを前記画像認識装置に送信することを特徴とする学習装置。
前記調整手段は、前記学習モデルのデータサイズと演算量とが前記処理能力を満たすように前記学習モデルの構成を調整することを特徴とする請求項１に記載の学習装置。
前記調整手段は、複数の処理能力ごと且つ複数の認識対象ごとに学習モデルを記録する記録部から、調整を行う学習モデルを選択することを特徴とする請求項１または２に記載の学習装置。
前記調整手段は、前記機械学習が収束しない場合、複数の前記認識対象のうち優先度が最も低い認識対象から順に除外する調整を行い、
前記学習手段は、調整された前記学習モデルを機械学習して、前記第１の学習済みモデルを生成することを特徴とする請求項１乃至３のうち何れか１項に記載の学習装置。
前記調整手段は、前記機械学習が収束するまで前記除外する調整を行うことを特徴とする請求項４に記載の学習装置。
前記優先度は、複数の前記認識対象のそれぞれについての優先度の指定を促す画面から指定されることを特徴とする請求項４または５に記載の学習装置。
前記調整手段は、前記第１の学習済みモデルの規模を削減する処理を行い、
前記送信手段は、前記規模が削減された前記第１の学習済みモデルが前記処理能力を満たす場合に、前記第１の学習済みモデルを前記画像認識装置に送信することを特徴とする請求項１乃至６のうち何れか１項に記載の学習装置。
前記第１の学習済みモデルを取得する要求を所定期間、前記画像認識装置から受信しない場合、前記第１の学習済みモデルは削除されることを特徴とする請求項１乃至７のうち何れか１項に記載の学習装置。
前記学習モデルは、畳み込みニューラルネットワークのモデルであることを特徴とする請求項１乃至８のうち何れか１項に記載の学習装置。
前記調整手段は、前記畳み込みニューラルネットワークのモデルのシナプス数とレイヤー数と発火関数の出力値の粒度とのうち少なくとも１つを調整することを特徴とする請求項９に記載の学習装置。
画像認識装置であって、
学習装置に対して前記画像認識装置の処理能力の情報および認識対象の情報を送信する送信手段と、
前記処理能力を満たすように、前記認識対象の画像認識に適用される学習モデルの構成を調整し、調整された前記学習モデルを機械学習して生成される、前記認識対象を認識可能な第１の学習済みモデルを受信する受信手段と、
前記第１の学習済みモデルを用いて画像認識を行う画像認識手段と、
を備え、
前記受信手段は、前記第１の学習済みモデルを受信する前に、前記第１の学習済みモデルよりも精度が低く、且つ前記処理能力を満たし前記認識対象の画像認識が可能な第２の学習済みモデルを受信することを特徴とする画像認識装置。
画像認識装置から該画像認識装置の処理能力の情報および認識対象の情報を受信する工程と、
前記処理能力を満たすように、前記認識対象の画像認識に適用される学習モデルの構成を調整する工程と、
調整された前記学習モデルを機械学習して、前記認識対象を認識可能な第１の学習済みモデルを生成する工程と、
前記第１の学習済みモデルを前記画像認識装置に送信する工程と、
を備え、
前記学習済みモデルを前記画像認識装置に送信する工程では、前記第１の学習済みモデルを前記画像認識装置に送信する前に、前記第１の学習済みモデルよりも精度が低く、且つ前記処理能力を満たし前記認識対象の画像認識が可能な第２の学習済みモデルを前記画像認識装置に送信することを特徴とする学習方法。
画像認識装置の制御方法であって、
学習装置に対して前記画像認識装置の処理能力の情報および認識対象の情報を送信する工程と、
前記処理能力を満たすように、前記認識対象の画像認識に適用される学習モデルの構成を調整し、調整された前記学習モデルを機械学習して生成される、前記認識対象を認識可能な第１の学習済みモデルを受信する工程と、
前記第１の学習済みモデルを用いて画像認識を行う工程と、
を備え、
前記第１の学習済みモデルを受信する工程では、前記第１の学習済みモデルを受信する前に、前記第１の学習済みモデルよりも精度が低く、且つ前記処理能力を満たし前記認識対象の画像認識が可能な第２の学習済みモデルを受信することを特徴とする画像認識装置の制御方法。
請求項１乃至１０のうち何れか１項に記載の学習装置の各手段をコンピュータに実行させるためのプログラム。
請求項１１に記載の画像認識装置の各手段をコンピュータに実行させるためのプログラム。