JP7475150B2

JP7475150B2 - 推論装置、推論方法、及びプログラム

Info

Publication number: JP7475150B2
Application number: JP2020016491A
Authority: JP
Inventors: 信行堀江
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-02-03
Filing date: 2020-02-03
Publication date: 2024-04-26
Anticipated expiration: 2040-02-03
Also published as: US20210241105A1; JP2021124832A

Description

本発明は、推論装置、推論方法、及びプログラムに関する。

従来、ニューラルネットワークによる推論を行う推論処理装置が知られている。特に画像認識を行う推論処理装置については、いわゆる畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)がよく用いられている。

畳み込みニューラルネットワークによれば、入力される画像データに対して中間層の処理及び全結合層の処理が順次施されることにより、画像に含まれる対象物が認識された最終的な推論結果が得られる。中間層では、複数の特徴量抽出処理層が階層的に接続されており、各処理層において、前階層から入力される入力データに対して畳み込み演算処理、活性化処理、プーリング処理を実行する。中間層は、このように各処理層における処理を繰り返すことで入力画像データに含まれる特徴量を高次元で抽出する。全結合層では、中間層の演算結果データを結合し、最終的な推論結果が得られる。特徴量を高次元で抽出するためには、中間層の層数が最終的な推論結果の精度に対しては重要となる。

しかしながら、中間層の層数を増やしていくと、例えば撮像装置のような比較的低い演算処理能力ではニューラルネットワークによる推論処理に多大な演算負荷がかかり、処理時間が長くなってしまう。そこで、この問題の解決方法の１つとして、比較的高い演算処理能力を有するサーバに入力画像を送信し、サーバにおいてニューラルネットワークの推論を行うということが考えられる。

例えば、特許文献１では、ニューラルネットワークにおける学習をサーバにて行う際に、プライバシーに関する情報の秘匿性のため、撮像装置側で一部の中間層の処理を行ってからサーバに送信する、という技術が開示されている。

国際公開第２０１８／０１１８４２号

しかしながら、特許文献１に開示された技術を利用して推論処理を行う場合、撮像装置からサーバへ送信するデータのサイズによっては通信に長い時間がかかる。そのため、演算処理に要する時間は短縮されても、最終的な推論結果が得られるまでに要する時間はあまり短縮されない可能性がある。

本発明はこのような状況に鑑みてなされたものであり、２つの推論装置間の通信に要する時間を短縮するように、２つの推論装置間で推論処理を分担する技術を提供することを目的とする。

上記課題を解決するために、本発明は、入力層と、複数の中間層と、出力層とを有する第１のニューラルネットワークを用いる推論処理を外部の推論装置と分担して行う推論装置であって、前記入力層に入力された入力データについて、前記第１のニューラルネットワークの第１の部分の演算処理を行うように制御する制御手段であって、前記第１のニューラルネットワークの前記第１の部分は、前記入力層から前記複数の中間層のうちの前記入力層よりもノード数が少ない特定の中間層までの部分である、制御手段と、前記特定の中間層の出力データを前記外部の推論装置へ送信する送信手段であって、前記外部の推論装置は、前記特定の中間層の前記出力データについて前記第１のニューラルネットワークの第２の部分の演算処理を行うことにより第１の推論結果を取得するように構成され、前記第１のニューラルネットワークの前記第２の部分は、前記第１のニューラルネットワークから前記第１の部分を除いた残りの部分である、送信手段と、前記外部の推論装置から前記第１の推論結果を受信する受信手段と、を備え、前記制御手段は、前記第１のニューラルネットワークの前記第１の部分の前記演算処理を実行する前に、前記外部の推論装置に通信要求を送信し、該通信要求に対する前記外部の推論装置からの応答を待つことなく前記第１のニューラルネットワークの前記第１の部分の前記演算処理を開始し、前記送信手段は、前記通信要求に対する前記応答を前記外部の推論装置から受信した後に、前記出力データを前記外部の推論装置に送信することを特徴とする推論装置を提供する。

本発明によれば、２つの推論装置間の通信に要する時間を短縮するように、２つの推論装置間で推論処理を分担することが可能となる。

なお、本発明のその他の特徴及び利点は、添付図面及び以下の発明を実施するための形態における記載によって更に明らかになるものである。

ニューラルネットワークを用いる推論システム１００の全体構成例を示す図。推論システム１００のハードウェア構成例を示す図。推論処理の分担の概念図。第１の実施形態に係る学習フェーズの概念図。第１の実施形態に係る推論処理のフローチャート。第１の実施形態に係る学習フェーズの他の例を示す概念図。第２の実施形態に係る学習フェーズの概念図。第２の実施形態に係る学習フェーズの他の例を示す概念図。第２の実施形態に係る推論処理のフローチャート。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
図１は、ニューラルネットワークを用いる推論システム１００の全体構成例を示す図である。推論システム１００は、入力層と、前階層から入力されるデータに含まれる特徴量を抽出する複数の中間層と、出力層とが階層的に接続された演算を実行する。図１に示すように、推論システム１００は、撮像装置１０１（例えばデジタルカメラ）、サーバ１０３、及び通信ネットワーク１０２（例えばインターネット）を含む。撮像装置１０１とサーバ１０３とは、通信ネットワーク１０２を介して、各種の情報を通信する。

なお、本実施形態において、撮像装置１０１及びサーバ１０３は、推論処理を分担する２つの推論装置の例に過ぎない。例えば、分担を依頼する側の推論装置として、撮像装置１０１の代わりに、携帯電話又はタブレット端末などを用いてもよい。分担を引き受ける側の推論装置であるサーバ１０３の演算処理能力が分担を依頼する側の推論装置である撮像装置１０１の演算処理能力よりも高い場合、（通信速度にもよるが）推論処理に要する時間が短縮される。ここでいう演算処理能力とは、ニューラルネットワークの推論（行列演算等）をどれだけ高速に処理できるかに関する能力である。しかしながら、２つの推論装置間の演算処理能力の優劣は特に限定されない。サーバ１０３の演算処理能力が撮像装置１０１の演算処理能力よりも低い場合であっても、推論処理の分担により、例えば撮像装置１０１の電力消費量が低下するなどの何らかの効果を得ることができる。

図２は、推論システム１００のハードウェア構成例を示す図である。図２に示すように、撮像装置１０１とサーバ１０３とが通信ネットワーク１０２を介して相互に接続されている。

撮像装置１０１はシステムバス２１１を備え、システムバス２１１に対してＣＰＵ２１２、ＲＯＭ２１３、メモリ２１４、撮像部２１５、通信部２１６、入力部２１７、及び表示部２１８が接続される。システムバス２１１に接続される各部は、システムバス２１１を介して互いにデータのやりとりを行うことができるように構成されている。

ＲＯＭ２１３は、ＣＰＵ２１２が動作するための各種プログラムなどが格納されている。なお、ＣＰＵ２１２が動作するための各種プログラムの格納先は、ＲＯＭ２１３に限るものではなく、例えばハードディスク等であってもよい。

メモリ２１４は、例えばＲＡＭから構成されているものである。ＣＰＵ２１２は、ＲＯＭ２１３に格納されるプログラムを実行する際に、ワークメモリとしてメモリ２１４を用いる。

入力部２１７は、ユーザ操作を受け付け、操作に応じた制御信号を生成し、ＣＰＵ２１２に供給する。例えば、入力部２１７は、ユーザ操作を受け付ける入力デバイスとして、物理的な操作ボタンやタッチパネルなどを有する。なお、タッチパネルは、例えば平面的に構成された入力部に対して接触された位置に応じた座標情報が出力されるように構成された入力デバイスである。

ＣＰＵ２１２は、入力部２１７に対してなされたユーザ操作に応じて供給される制御信号に基づき、プログラムに従い表示部２１８、撮像部２１５、及び通信部２１６を制御する。これにより、表示部２１８、撮像部２１５、及び通信部２１６に対し、ユーザ操作に応じた動作を行わせることができる。

表示部２１８は、例えばディスプレイであり、ディスプレイに対して画像を表示させるための表示信号を出力する機構を含む。なお、入力部２１７としてタッチパネルを用いる場合、入力部２１７とディスプレイとを一体的に構成することができる。例えば、タッチパネルを光の透過率がディスプレイの表示を妨げないように構成し、ディスプレイの表示面の上層に取り付ける。そして、タッチパネルにおける入力座標と、ディスプレイ上の表示座標とを対応付けることで、タッチパネルとディスプレイとを一体的に構成することができる。

撮像部２１５は、レンズ、絞り機能を備えるシャッター、光学像を電気信号に変換するＣＣＤやＣＭＯＳ素子等で構成される撮像素子、撮像素子の信号に基づき露光制御及び測距制御などのための各種画像処理を行う画像処理部、などを含み、一連の撮影処理を行う機構である。ＣＰＵ２１２の制御に基づき、入力部２１７のユーザ操作に応じた撮影が可能である。

通信部２１６は、ＣＰＵ２１２の制御に基づき、ＬＡＮやインターネットといった通信ネットワーク１０２を介して、サーバ１０３（外部の推論装置）に対する通信を行う。

サーバ１０３はシステムバス２０１を備え、システムバス２０１に対してＣＰＵ２０２、メモリ２０４、通信部２０６、及びＧＰＵ２０９が接続される。システムバス２０１に接続される各部は、システムバス２０１を介して互いにデータのやりとりを行うことができるように構成されている。

メモリ２０４は、例えばＲＡＭからなり、ＣＰＵ２０２及びＧＰＵ２０９のワークメモリとして用いられる。ＣＰＵ２１２が動作するためのプログラムは、図示されないハードディスクやＲＯＭ等に格納されている。

通信部２０６は、ＣＰＵ２０２の制御に基づき、ＬＡＮやインターネットといった通信ネットワーク１０２を介して、撮像装置１０１（外部の推論装置）に対する通信を行う。本実施形態においては、サーバ１０３のＣＰＵ２０２は、撮像装置１０１からの通信要求を受け付け、通信要求に応じた制御信号を生成し、ＧＰＵ２０９を動作させる。撮像装置１０１とサーバ１０３との間の具体的な通信に関しては後述する。

ＧＰＵ２０９は、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略で、コンピュータグラフィックの演算に特化した処理を行うことが可能な演算器である。加えて、ＧＰＵ２０９は一般的に、行列演算等の、ニューラルネットワークに必要な演算においてＣＰＵ２０２より短時間に処理が可能である。本実施形態においてはサーバ１０３がＣＰＵ２０２及びＧＰＵ２０９を備えるものとするが、この構成に限るものでない。また、ＧＰＵ２０９は１つである必要はなく、サーバ１０３は複数のＧＰＵを備えていてもよい。

図３は、推論処理の分担の概念図である。本実施形態では、撮像装置１０１において、入力層４０１、中間層１－４０２、中間層２－４０３の処理を実行する。これらの処理は、撮像装置１０１のＣＰＵ２１２によってプログラムを実行することによって実現される。

撮像装置１０１は、通信ネットワーク１０２を介して、中間層２－４０３のデータをサーバ１０３の入力層４０４に入力する。サーバ１０３は、入力層４０４、中間層３－４０５から中間層Ｎ－４０６までの中間層処理、及び出力層４０７の処理を実行する。これらの処理は、サーバ１０３のＣＰＵ２０２とＧＰＵ２０９とがプログラムを実行することによって実現される。

本実施形態では、ニューラルネットワークの学習時において、複数の中間層の中に、データ量が小さくなる特定の中間層（図３の例では中間層２－４０３）を意図的に用意しておく。そして、推定時において、撮像装置１０１は、中間層２－４０３までの処理を行い、以降の処理をサーバ１０３に実施させる。このような推論モデルを作成するための学習の詳細に関しては、図４を用いて説明する。

図４は、第１の実施形態に係る学習フェーズの概念図である。本実施形態において、学習は高性能なＰＣ等により事前に行われているものとする。図４に示すように、本実施形態においては、学習時においてノード数の少ない特定の中間層（図４の例では中間層２－４０３）を意図的に作成する。以下の説明において、意図的に作成したノード数の少ない中間層を、「少ノード中間層」と呼ぶ。少ノード中間層は、入力層よりもノード数が少ない中間層であり、例えば、ニューラルネットワークが有する複数の中間層のうちの最もノード数の少ない中間層である。

なお、図４の例では、少ノード中間層の位置は２番目の中間層（中間層２－４０３）の位置である。しかしながら、少ノード中間層の位置は特に限定されず、例えば、撮像装置１０１のＣＰＵ２１２の演算処理能力に基づき、所定の時間内に推論処理が完了するような範囲で任意に決定することができる（但し、後述の通り推論精度も考慮する場合がある）。

このように推論モデルを構成してニューラルネットワークの学習をさせることで、中間層２－４０３から出力されるデータ量を小さくすることができる。少ノード中間層の位置及びノード数は、推論精度の低下を抑制するように決定してもよい。例えば、少ノード中間層を作らず学習させた推論モデルと、少ノード中間層を有する推論モデルとで事前に推論精度の比較を行い、精度低下が閾値以下となるように少ノード中間層の位置及びノード数を決定することが可能である。

図４の構成に従って学習させた推論モデルを、図３に示すように少ノード中間層（中間層２－４０３）の位置で分割し、撮像装置１０１からサーバ１０３へ中間層２－４０３の結果を受け渡すことにより、推論処理の分担が可能になる。このように構成することで、通信ネットワーク１０２の通信量を抑制しつつ、多層の高精度の推論を行うことが可能な推論システムを実現することが可能である。

図５は、第１の実施形態に係る推論処理のフローチャートである。図５において、Ｓ５０１～Ｓ５０５は撮像装置１０１が実行する処理のステップであり、Ｓ５１１～Ｓ５１６はサーバ１０３が実行する処理のステップである。

最初に、撮像装置１０１が実行する処理について説明する。Ｓ５０１で、撮像装置１０１のＣＰＵ２１２は、通信部２１６を介してサーバ１０３への通信要求を送信する。Ｓ５０２で、撮像装置１０１のＣＰＵ２１２は、撮像部２１５で撮影された画像に対して、図３に示す入力層４０１から中間層２－４０３までのニューラルネットワークの演算処理を開始する。即ち、撮像装置１０１は、ニューラルネットワークのうちの入力層４０１から中間層２－４０３（特定の中間層）までの部分（ニューラルネットワークの第１の部分）の演算処理を担う。この演算処理は、次のＳ５０３の処理と並行して実施することができる。

なお、入力層４０１に対する入力データ（即ち、推論対象データ）は、画像データに限定されない。ニューラルネットワークを用いる推論処理の対象とすることが可能な形式のデータであれば、任意のデータを入力データとして用いることができる。

Ｓ５０３で、撮像装置１０１のＣＰＵ２１２は、サーバ１０３からの通信可能応答を受信するまで待つ。撮像装置１０１のＣＰＵ２１２は、通信可能応答を受信したらサーバ１０３との通信が可能であると判断し、処理をＳ５０３へと進める。なお、図５には通信可能応答を受信するまで待ち続けるように記載されているが、実際には通信が確立しなかった際の例外処理が必要となる。例えば、一定時間待っても通信可能応答を受信しない場合、撮像装置１０１のＣＰＵ２１２は、通信要求を再度送信する。通信の確立に関しては、任意の公知の手法を利用することができる。

Ｓ５０４で、撮像装置１０１のＣＰＵ２１２は、図３に示す中間層２－４０３の出力データを、通信部２１６を介してサーバ１０３へ送信する。前述したように、この中間層２－４０３は、学習時において意図的にデータ量が小さくなる層として用意されているものである。

Ｓ５０５で、撮像装置１０１のＣＰＵ２１２は、サーバ１０３からの出力層４０７の出力データに基づく推論結果（例えば、画像の分類結果）を受信するまで待つ。推論結果が受信されると、本フローチャートにおける撮像装置１０１の処理は終了する。

その後、撮像装置１０１のＣＰＵ２１２は、推論結果を任意の方法で利用することができる。例えば、撮像装置１０１のＣＰＵ２１２は、推論結果に基づいて撮像部２１５のフォーカス設定を制御してもよいし、撮影画像に対してタグとして推論結果を付与してもよい。

次に、サーバ１０３が実行する処理について説明する。Ｓ５１１で、サーバ１０３のＣＰＵ２０２は、撮像装置１０１からの通信要求を受信するまで待つ。サーバ１０３のＣＰＵ２０２は、通信要求を受信したら、処理をＳ５１２へ進める。Ｓ５１２で、サーバ１０３のＣＰＵ２０２は、通信可能応答を撮像装置１０１へ送信する。

Ｓ５１３で、サーバ１０３のＣＰＵ２０２は、撮像装置１０１からの中間層２－４０３の出力データを受信するまで待つ。サーバ１０３のＣＰＵ２０２は、出力データを受信したら、処理をＳ５１４へと進める。

Ｓ５１４で、サーバ１０３のＧＰＵ２０９は、ＣＰＵ２０２からの命令に従い、中間層２－４０３の出力データを入力層４０４への入力データとして、中間層Ｎ－４０６までのニューラルネットワークの演算処理を実行する。即ち、サーバ１０３は、ニューラルネットワークから撮像装置１０１が担う部分（ニューラルネットワークの第１の部分）を除いた残りの部分（ニューラルネットワークの第２の部分）の演算処理を担う。

Ｓ５１５で、サーバ１０３のＧＰＵ２０９は、出力層４０７のニューラルネットワークの演算処理を実行する。これにより、撮影画像に対する推論処理が完了し、推論結果（例えば、画像の分類結果）が得られる。Ｓ５１６で、サーバ１０３のＣＰＵ２０２は、通信部２０６を介して撮像装置１０１へ推論結果を送信する。

以上の処理により、推論処理の分担が実現する。

なお、本実施形態の推論モデルは図４に示す構成に限定されず、例えば図６に示すような構成であってもよい。

図６は、第１の実施形態に係る学習フェーズの他の例を示す概念図である。本実施形態において、学習は高性能なＰＣ等により事前に行われているものとする。図６に示すように、推論モデルは、入力層４０１、中間層１－４０２、中間層２－６０１、中間層３－６０２、中間層４－６０３、中間層５－６０４、中間層Ｎ－６０５、及び出力層６０６で構成される。入力層４０１及び中間層１－４０２は、図４に示すものと同様である。中間層３－６０２～中間層Ｎ－６０５及び出力層６０６は、図４の中間層３－４０５～中間層Ｎ－４０６及び出力層４０７とは全く異なるノード及びパラメータの推論器である。図６に示すように、学習時において複数の少ノード中間層（図６の例では中間層２－６０１及び中間層４－６０３）を用意しておくところが図４と異なる点である。このように学習を行うことにより、推論フェーズにおいて、どの少ノード中間層に基づいて撮像装置１０１とサーバ１０３とで推論処理を分担するかを任意に変更することが可能である。

例えば、通信ネットワーク１０２の通信状況に応じて分担に用いる少ノード中間層を切り替えることができる。通信ネットワーク１０２が高速通信可能である場合（通信速度が第１の閾値以上の場合）、撮像装置１０１のＣＰＵ２１２は、中間層２－６０１までの処理を行い、残りの処理をサーバ１０３に依頼する。一方、通信ネットワーク１０２が低速通信のみ可能である場合（通信速度が第１の閾値未満の場合）、撮像装置１０１のＣＰＵ２１２は、中間層４－６０３までの処理を行い、残りの処理をサーバ１０３に依頼する。このように分担に用いる少ノード中間層を任意に変更可能とすることで、通信ネットワーク１０２の通信状態を加味して、最短で推論が完了するように、推論システムを構築することが可能である。

他の例として、撮像装置１０１の電池残量に応じて分担に用いる少ノード中間層を切り替えてもよい。撮像装置１０１の電池残量が少ない場合（電池残量が第２の閾値未満の場合）、撮像装置１０１のＣＰＵ２１２は、中間層２－６０１までの処理を行い、残りの処理をサーバ１０３に依頼する。一方、撮像装置１０１の電池残量が十分な場合（電池残量が第２の閾値以上の場合）、撮像装置１０１のＣＰＵ２１２は、中間層４－６０３までの処理を行い、残りの処理をサーバ１０３に依頼する。このように、演算に要する時間と撮像装置１０１の電力消費との間に優先順位をつけ、推論処理を切り替えてもよい。

ここで、中間層２－６０１（第１の中間層）は、入力層４０１よりもノード数が少ない中間層である。また、中間層４－６０３（第２の中間層）は、中間層２－６０１（第１の中間層）よりも後に配置され中間層２－６０１（第１の中間層）よりもノード数が少ない中間層である。例えば、中間層４－６０３（第２の中間層）は、ニューラルネットワークが有する複数の中間層のうちの最もノード数の少ない中間層であり、中間層２－６０１（第１の中間層）は、中間層４－６０３（第２の中間層）を除いて最もノード数の少ない中間層である。

なお、撮像装置１０１が中間層２－６０１及び中間層４－６０３のいずれの出力データをサーバ１０３へ送信するかに応じて、サーバ１０３が受信する少ノード中間層の出力データのデータ構造は異なる。そのため、サーバ１０３は、データ構造に基づいて、出力データに対応する少ノード中間層（特定の中間層）が中間層２－６０１及び中間層４－６０３のいずれであるかを識別することができる。

以上説明したように、第１の実施形態によれば、撮像装置１０１は、入力層４０１に入力された入力データについて、ニューラルネットワークの入力層４０１から少ノード中間層（中間層２－４０３）までの部分（第１の部分）の演算処理を行う。そして、撮像装置１０１は、少ノード中間層の出力データを外部の推論装置（サーバ１０３）へ送信する。サーバ１０３は、少ノード中間層の出力データについて、ニューラルネットワークから第１の部分を除いた残りの部分（第２の部分）の演算処理を行うことにより推論結果を取得する。そして、サーバ１０３は、推論結果を撮像装置１０１へ送信する。

このように、第１の実施形態によれば、撮像装置１０１からサーバ１０３へ送信される出力データに対応する中間層は、少ノード中間層（入力層よりもノード数が少ない特定の中間層）である。そのため、本実施形態によれば、２つの推論装置間の通信に要する時間を短縮するように、２つの推論装置間で推論処理を分担することが可能となる。

［第２の実施形態］
第２の実施形態では、撮像装置１０１とサーバ１０３との間の通信に用いる通信ネットワーク１０２が遮断されている場合（例えば通信ネットワーク１０２が無線ネットワークであって電波状況が悪い場合）の処理について説明する。本実施形態において、推論システム１００、撮像装置１０１、及びサーバ１０３の基本的な構成は第１の実施形態と同様である（図１及び図２参照）。以下、主に第１の実施形態と異なる点について説明する。

図７Ａは、第２の実施形態に係る学習フェーズの概念図である。本実施形態において、学習は高性能なＰＣ等により事前に行われているものとする。入力層４０１、中間層１－４０２、及び中間層２－４０３のパラメータは、図４で学習したパラメータと同様の構成を持つ。即ち、本実施形態では、まず図７Ａに示す構成において学習を行い、入力層４０１、中間層１－４０２、及び中間層２－４０３のパラメータを作成する。次に、図４において入力層４０１、中間層１－４０２、及び中間層２－４０３のパラメータは凍結した状態で、中間層３－４０５～出力層４０７の学習を行う。本実施形態においては、図７Ａの層数を２層として説明するが、これに限るものではない。より多くの中間層を設定する学習フェーズに関しては図７Ｂを用いて後述する。

このように学習させたニューラルネットワークの演算においては、入力層４０１、中間層１－４０２、及び中間層２－４０３を図４（第１のニューラルネットワーク）と図７Ａ（第２のニューラルネットワーク）とで共通にすることができる。入力層４０１から中間層２－４０３までの部分については、図４（第１のニューラルネットワーク）と図７Ａ（第２のニューラルネットワーク）とで共通の学習済みパラメータを有する。その上で、図４においては、中間層１－４０２～中間層Ｎ－４０６のＮ層のニューラルネットワークの推論システム、図７Ａにおいては、中間層１－４０１～中間層２－４０２の２層のニューラルネットワークの推論システムを用意することができる。このように、２つのニューラルネットワークの推論システムにおいて、近い認識結果を出すように事前に学習をさせる。図４のニューラルネットワークの推論システムは、図７Ａのニューラルネットワークの推論システムよりも推論精度がよいものとなる。

図７Ｂは、第２の実施形態に係る学習フェーズの他の例を示す概念図である。本実施形態において、学習は高性能なＰＣ等により事前に行われているものとする。図７Ｂに示す構成において、入力層４０１、中間層１－４０２、及び中間層２－４０３のパラメータは、図４で学習したパラメータと同様の構成を持つ。そして、中間層３－７０１～出力層７０３の学習が行われる。即ち、学習は中間層３－７０１～出力層７０３だけに行い、入力層４０１～中間層２－４０３のパラメータは図４で学習したパラメータを凍結して使用する。本実施形態においては、図７Ｂの中間層の数を４層として説明するがこれに限るものではなく、図４の層数より少ない任意の層数で設定してよい。但し、この層数とノード数は、撮像装置１０１の演算処理能力において期待される時間以内にニューラルネットワークの演算が完了可能な範囲で設定される必要がある。

このように学習させたニューラルネットワークの演算においては、入力層４０１、中間層１－４０２、中間層２－４０３までは図４と図７Ｂとで共通にすることができる。また学習の順番として、図４の学習をさせた後の入力層４０１～中間層２－４０３のパラメータを使用して中間層３－７０１～出力層７０３を学習させる例を述べたが、図７Ｂの学習を先に行ってもよい。重要なのは、学習結果である中間層１－４０２及び中間層２－４０３を共通化させる点である。

その上で、図４においては、中間層１－４０１～中間層Ｎ－４０６のＮ層のニューラルネットワークの推論システム、図７Ｂにおいては、中間層１－４０１～中間層４－７０２の４層のニューラルネットワークの推論システムを用意することができる。図７Ａの中間層３－４０５と図７Ｂの中間層３－７０１とは全く異なるノード及びパラメータを持つ。また、図７Ａの出力層４０７と図７Ｂの出力層７０３も全く異なるノード及びパラメータを持つ。

以下の説明において、図７Ａ又は図７Ｂのニューラルネットワークの推論システムを推論システムＢと呼ぶ。また、図４のニューラルネットワークの推論システムを推論システムＡと呼ぶ。推論システムＢとして図７Ａ又は図７Ｂのどちらを用いるかは、事前に決められているものとする。

図８は、第２の実施形態に係る推論処理のフローチャートである。図８において、Ｓ５０１、Ｓ５０２、Ｓ５０４、Ｓ５０５、及びＳ８０１～Ｓ８０３は撮像装置１０１が実行する処理のステップであり、Ｓ５１１～Ｓ５１６はサーバ１０３が実行する処理のステップである。Ｓ５０１、Ｓ５０２、Ｓ５０４、Ｓ５０５、及びＳ５１１～Ｓ５１６の処理は、図４（第１の実施形態）と同様である。

Ｓ８０１～Ｓ８０３において実行される撮像装置１０１の処理について説明する。Ｓ８０１で、撮像装置１０１のＣＰＵ２１２は、サーバ１０３からの通信可能応答を受信するまで待つ。撮像装置１０１のＣＰＵ２１２は、通信可能応答を受信したら処理をＳ８０２へと進める。また、撮像装置１０１のＣＰＵ２１２は、通信可能応答を受信しない場合であっても、所定の時間が経過した場合（即ち、タイムアウトが発生した場合）には、処理をＳ８０２へと進める。

Ｓ８０２で、撮像装置１０１のＣＰＵ２１２は、サーバ１０３との通信が可能であるか否かを判定する。Ｓ８０１において通信可能応答が受信されていた場合、撮像装置１０１のＣＰＵ２１２は、サーバ１０３との通信が可能であると判定し、処理をＳ５０４に進める。Ｓ８０１においてタイムアウトが発生していた場合、撮像装置１０１のＣＰＵ２１２は、サーバ１０３との通信が可能でないと判定し、処理をＳ８０３に進める。

Ｓ８０３で、撮像装置１０１のＣＰＵ２１２は、図７Ａの出力層７０３（又は図７Ｂの中間層３－７０１～出力層７０３）の処理（第２のニューラルネットワークの第２の部分の演算処理）を実行する。このように、撮像装置１０１がサーバ１０３と通信できない場合、推論システムＢによる推論処理が行われる（即ち、推論処理の分担は行われない）。

一方、Ｓ５０４以降の処理は第１の実施形態と同様であるため、撮像装置１０１がサーバ１０３と通信可能な場合には、推論システムＡ（図４）による推論処理が行われる。

以上説明したように、第２の実施形態によれば、撮像装置１０１は、サーバ１０３との通信が不可能な場合、推論処理の分担を行わずに、撮像装置１０１だけで推論結果を取得する。この場合、撮像装置１０１は、サーバ１０３との通信が可能な場合に用いるニューラルネットワークよりも中間層の数が少ないニューラルネットワークを用いる。また、これら２つのニューラルネットワークは、入力層から少ノード中間層までの部分（第１の部分）については共通のノード構成及び学習済みパラメータを有する。従って、第２の実施形態によれば、撮像装置１０１は、サーバ１０３との通信が不可能な場合であっても、少ノード中間層までの演算結果を有効利用しつつ、単独で推論結果を取得することが可能となる。

なお、撮像装置１０１が推論処理の分担を行わない条件は、サーバ１０３との通信が不可能である場合に限定されない。一般化すると、撮像装置１０１は、所定の条件が満たされる場合に、推論処理の分担を行わない。

［その他の実施形態］
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１００…推論システム、１０１…撮像装置、１０２…通信ネットワーク、１０３…サーバ、２０２…ＣＰＵ、２０４…メモリ、２０６…通信部、２０９…ＧＰＵ、２１２…ＣＰＵ、２１３…ＲＯＭ、２１４…メモリ、２１６…通信部

Claims

入力層と、複数の中間層と、出力層とを有する第１のニューラルネットワークを用いる推論処理を外部の推論装置と分担して行う推論装置であって、
前記入力層に入力された入力データについて、前記第１のニューラルネットワークの第１の部分の演算処理を行うように制御する制御手段であって、前記第１のニューラルネットワークの前記第１の部分は、前記入力層から前記複数の中間層のうちの前記入力層よりもノード数が少ない特定の中間層までの部分である、制御手段と、
前記特定の中間層の出力データを前記外部の推論装置へ送信する送信手段であって、前記外部の推論装置は、前記特定の中間層の前記出力データについて前記第１のニューラルネットワークの第２の部分の演算処理を行うことにより第１の推論結果を取得するように構成され、前記第１のニューラルネットワークの前記第２の部分は、前記第１のニューラルネットワークから前記第１の部分を除いた残りの部分である、送信手段と、
前記外部の推論装置から前記第１の推論結果を受信する受信手段と、
を備え、
前記制御手段は、前記第１のニューラルネットワークの前記第１の部分の前記演算処理を実行する前に、前記外部の推論装置に通信要求を送信し、該通信要求に対する前記外部の推論装置からの応答を待つことなく前記第１のニューラルネットワークの前記第１の部分の前記演算処理を開始し、
前記送信手段は、前記通信要求に対する前記応答を前記外部の推論装置から受信した後に、前記出力データを前記外部の推論装置に送信することを特徴とする推論装置。
前記特定の中間層は、前記複数の中間層のうちの最もノード数の少ない中間層である
ことを特徴とする請求項１に記載の推論装置。
前記複数の中間層は、前記入力層よりもノード数が少ない第１の中間層と、前記第１の中間層よりも後に配置され前記第１の中間層よりもノード数が少ない第２の中間層とを含み、
前記制御手段は、前記第１の中間層又は前記第２の中間層を前記特定の中間層として用いるように制御する
ことを特徴とする請求項１に記載の推論装置。
前記第２の中間層は、前記複数の中間層のうちの最もノード数の少ない中間層であり、
前記第１の中間層は、前記複数の中間層のうちの、前記第２の中間層を除いて最もノード数の少ない中間層である
ことを特徴とする請求項３に記載の推論装置。
前記制御手段は、前記外部の推論装置との通信速度が第１の閾値以上の場合、前記第１の中間層を前記特定の中間層として用い、前記通信速度が前記第１の閾値未満の場合、前記第２の中間層を前記特定の中間層として用いるように制御する
ことを特徴とする請求項３又は４に記載の推論装置。
前記制御手段は、前記推論装置の電池残量が第２の閾値未満の場合、前記第１の中間層を前記特定の中間層として用い、前記電池残量が前記第２の閾値以上の場合、前記第２の中間層を前記特定の中間層として用いるように制御する
ことを特徴とする請求項３又は４に記載の推論装置。
所定の条件が満たされる場合、前記制御手段は、前記特定の中間層の前記出力データについて、入力層を含む第１の部分と出力層を含む第２の部分とから構成される第２のニューラルネットワークの前記第２の部分の演算処理を行うことにより、第２の推論結果を取得するように制御し、
前記第２のニューラルネットワークの中間層の数は、前記第１のニューラルネットワークの中間層の数よりも少なく、
前記第２のニューラルネットワークの前記第１の部分は、前記第１のニューラルネットワークの前記第１の部分と共通であり、
前記第１のニューラルネットワークの前記第１の部分と前記第２のニューラルネットワークの前記第１の部分とは、共通の学習済みパラメータを有する
ことを特徴とする請求項１又は２に記載の推論装置。
前記外部の推論装置との通信が不可能な場合に、前記所定の条件が満たされる
ことを特徴とする請求項７に記載の推論装置。
入力層と、複数の中間層と、出力層とを有する第１のニューラルネットワークを用いる推論処理を外部の推論装置と分担して行うための、推論装置が実行する推論方法であって、
前記入力層に入力された入力データについて、前記第１のニューラルネットワークの第１の部分の演算処理を行うように制御する制御工程であって、前記第１のニューラルネットワークの前記第１の部分は、前記入力層から前記複数の中間層のうちの前記入力層よりもノード数が少ない特定の中間層までの部分である、制御工程と、
前記特定の中間層の出力データを前記外部の推論装置へ送信する送信工程であって、前記外部の推論装置は、前記特定の中間層の前記出力データについて前記第１のニューラルネットワークの第２の部分の演算処理を行うことにより第１の推論結果を取得するように構成され、前記第１のニューラルネットワークの前記第２の部分は、前記第１のニューラルネットワークから前記第１の部分を除いた残りの部分である、送信工程と、
前記外部の推論装置から前記第１の推論結果を受信する受信工程と、
を備え、
前記制御工程は、前記第１のニューラルネットワークの前記第１の部分の前記演算処理を実行する前に、前記外部の推論装置に通信要求を送信し、該通信要求に対する前記外部の推論装置からの応答を待つことなく前記第１のニューラルネットワークの前記第１の部分の前記演算処理を開始し、
前記送信工程は、前記通信要求に対する前記応答を前記外部の推論装置から受信した後に、前記出力データを前記外部の推論装置に送信することを特徴とする推論方法。
コンピュータを、請求項１乃至８のいずれか１項に記載の推論装置の各手段として機能させるためのプログラム。