JP7291389B2

JP7291389B2 - 対象識別方法、情報処理装置、情報処理プログラム、および照明装置

Info

Publication number: JP7291389B2
Application number: JP2019135696A
Authority: JP
Inventors: 徹栗原
Original assignee: Kochi Prefectural University Corp
Current assignee: Kochi Prefectural University Corp
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2023-06-15
Anticipated expiration: 2039-07-23
Also published as: JP2021018754A

Description

本開示は、対象識別方法、情報処理装置、情報処理プログラム、および照明装置に関する。

従来から、ＲＧＢカメラによる果実などの対象の撮像結果と当該対象の識別結果との関係を機械学習により学習することで重みなどが最適化されたニューラルネットワークを利用して、ＲＧＢカメラによる対象の撮像結果の入力に応じて当該対象の識別結果の出力を取得する技術について検討されている。

特開２００６－２３９６０２号公報

しかしながら、上記のような従来の技術において、学習時および識別時にニューラルネットワークに入力されるデータは、ＲＧＢカメラによる対象の撮像結果であり、当該撮像結果は、ＲＧＢ空間の三原色である赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の３つの波長に対応した高々３つの色チャネルの画像データを根拠としているに過ぎない。したがって、上記のような従来の技術は、対象の識別の精度をより向上させる余地があると考えられる。

そこで、本開示の課題の一つは、対象の識別の精度をより向上させることが可能な対象識別方法、情報処理装置、情報処理プログラム、および照明装置を提供することである。

本開示の一例としての対象識別方法は、光を複数の第１の波長に分光して撮像する第１の撮像装置により取得される第１の波長に対応した複数の第１の色チャネルの第１の画像データの入力に応じて、１以上の第２の波長に対応し前記第１の色チャネルの数よりも少ない１以上の第２の色チャネルの第２の画像データを出力する第１のニューラルネットワークと、第２の画像データの入力に応じて、当該第２の画像データにおいて撮像された対象の識別結果を出力する第２のニューラルネットワークと、を備えたニューラルネットワークであって、第１のニューラルネットワークが、第１の画像データの入力を受け付ける入力層と、第２の画像データを出力する入力層よりも低次元の出力層と、色チャネルごとに設定される第１の重みにより入力層と関連付けられるとともに第１の波長と第２の波長との関係性に基づいて予め決められた第２の重みにより出力層と関連付けられる入力層と同次元の中間層と、を有するニューラルネットワークに基づいて、第１の画像データの入力に応じて当該第１の画像データにおいて撮像された対象の識別結果が得られるように、第１の重みおよび第２のニューラルネットワークの構成を調整するための機械学習を実行する学習ステップと、光を第２の波長に分光して撮像することで第２の画像データを取得する第２の撮像装置に取り付ける光学フィルタの光学特性、または、第２の撮像装置の撮像時に照明装置によって対象に照射する光の照射特性を、学習ステップの機械学習による調整を経た第１の重みに応じて決定する決定ステップと、決定ステップにおいて決定された光学特性を有するように設計された光学フィルタが第２の撮像装置に取り付けられているという環境下、または、決定ステップにおいて決定された照射特性を有するように調整された光が照明装置によって対象に照射されているという環境下で第２の撮像装置により取得される第２の画像データを取得する取得ステップと、取得ステップにおいて取得された第２の画像データを第２のニューラルネットワークに入力し、対象の識別結果の出力を取得する識別ステップと、を備える。

図１は、実施形態にかかる対象識別システムの構成を示した例示的かつ模式的な図である。図２は、実施形態において実行される機械学習の概要を示した例示的かつ模式的な図である。図３は、実施形態にかかる光学フィルタの光学特性の一例を示した例示的かつ模式的なブロック図である。図４は、実施形態にかかる対象識別方法を実現するためにコンピュータ端末が実行する一連の処理を示した例示的かつ模式的なフローチャートである。図５は、実施形態にかかる対象識別方法を実現するためにコンピュータ端末が図４に示される一連の処理の後に実行する一連の処理を示した例示的かつ模式的なフローチャートである。図６は、実施形態にかかる対象識別方法を実現するために携帯端末が実行する一連の処理を示した例示的かつ模式的なフローチャートである。図７は、実施形態にかかる対象識別方法の効果を確認するための実験結果を示した例示的かつ模式的な図である。図８は、変形例において実行されうる機械学習の概要を示した例示的かつ模式的な図である。図９は、図９は、変形例にかかる数式モデルにおいて利用されうる画像データの特性を示した例示的かつ模式的な図である。図１０は、変形例にかかる数式モデルにおいて利用されうる第２の重みの特性を示した例示的かつ模式的な図である。図１１は、変形例にかかる数式モデルに基づいて特定された第１の重みに応じて決定された光学フィルタの光学特性の一例を示した例示的かつ模式的な図である。

以下、本開示の実施形態および変形例を図面に基づいて説明する。以下に説明される実施形態および変形例の構成ならびに当該構成によってもたらされる作用および効果は、あくまで一例であって、以下の記載内容に限られるものではない。

＜実施形態＞
図１は、実施形態にかかる対象識別システムの構成を示した例示的かつ模式的な図である。

図１に示されるように、対象識別システムは、コンピュータ端末１００と、携帯端末２００と、を備えている。コンピュータ端末１００は、たとえばＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）として構成され、携帯端末２００は、たとえばスマートフォンとして構成される。コンピュータ端末１００および携帯端末２００は、共に、「情報処理装置」の一例である。

コンピュータ端末１００は、プロセッサやメモリ、入出力インターフェースなどといった、通常のコンピュータと同様のハードウェア構成（回路）を有している。コンピュータ端末１００は、プロセッサがメモリに記憶された情報処理プログラムを実行した結果として、学習部１１０および特性決定部１２０（いずれも詳細は後述する）を機能的に実現する。

また、携帯端末２００は、コンピュータ端末１００と同様に、プロセッサやメモリ、入出力インターフェースなどといった、通常のコンピュータと同様のハードウェア構成（回路）を有している。携帯端末２００は、プロセッサがメモリに記憶された情報処理プログラムを実行した結果として、画像データ取得部２１０および識別部２２０（いずれも詳細は後述する）を機能的に実現する。

また、携帯端末２００は、光学フィルタ３００（詳細は後述する）を取り付け可能な撮像装置２０１を備えている。撮像装置２０１は、一般的なデジタルカラーカメラ、すなわち、光学系を介して入射する光をＲＧＢ空間の三原色である赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の３つの波長に分光して撮像するＲＧＢカメラとして構成される。実施形態において、撮像装置２０１は、携帯端末２００に予め搭載された内蔵デバイスとして構成されていてもよいし、携帯端末２００に付加的に取り付けられる外部デバイスとして構成されていてもよい。

なお、以下では、一例として、撮像装置２０１により撮像される対象が、照明装置４００により光が照射された植物体Ｘであるものとする。また、以下では、植物体Ｘが、果実Ｘ１と、当該果実Ｘ１以外の他の部位Ｘ２と、を有しており、果実Ｘ１および他の部位Ｘ２は、互いに類似の色を有しているものとする。このような条件を満たす植物体Ｘは、たとえばピーマンである。

ここで、対象が植物体Ｘである場合、収穫の対象となる果実Ｘ１を他の部位Ｘ２と区別して認識することが望まれる。

これに対して、従来から、上記の撮像装置２０１のようなＲＧＢカメラによる対象の撮像結果と当該対象の識別結果との関係を機械学習により学習することで重みなどが調整されたニューラルネットワークを利用して、ＲＧＢカメラによる対象の撮像結果の入力に応じて当該対象の識別結果の出力を取得する技術について検討されている。

特に、実施形態のように、互いに類似の色を有した果実Ｘ１と他の部位Ｘ２との判別が望まれている場合、赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の３つの波長に対応した高々３つの色チャネルの画像データを根拠としたデータのみに基づいて学習および識別を実行する上記のような従来の技術では、精度の良い識別が困難である。

そこで、実施形態は、コンピュータ端末１００の学習部１１０および特性決定部１２０と、携帯端末２００の画像データ取得部２１０および識別部２２０とを以下に説明するように機能させることで、対象の識別の精度をより向上させることが可能な対象識別方法を提供する。

より具体的に、実施形態において、コンピュータ端末１００の学習部１１０は、第１のニューラルネットワーク１１１ａおよび第２のニューラルネットワーク１１１ｂを含むニューラルネットワーク１１１に基づいて、次の図２に示されるような機械学習を実行する。そして、携帯端末２００の画像データ取得部２１０は、コンピュータ端末１００での機械学習による調整を経た第１のニューラルネットワーク１１１ａに基づいて設計された光学フィルタ３００が取り付けられた撮像装置２０１から画像データを取得し、携帯端末２００の識別部２２０は、コンピュータ端末１００での機械学習による調整を経た第２のニューラルネットワーク１１１ｂを利用して、画像データ取得部２１０により取得された画像データの入力に応じて当該画像データにおいて撮像された対象の識別結果の出力を取得する。

図２は、実施形態において実行される機械学習の概要を示した例示的かつ模式的な図である。なお、実施形態では、機械学習のスキームとして、教師あり学習、教師なし学習、および強化学習の単独または２以上の任意の組み合わせが用いられる。

図２に示されるように、実施形態において、ニューラルネットワーク１１１は、入力層としての第１の層Ｌ１と、中間層としての第２の層Ｌ２、第３の層Ｌ３、および第４の層Ｌ４と、出力層としての第５の層Ｌ５と、により構成されている。第１の層Ｌ１と第２の層Ｌ２とは、第１の重みＷ１によって関連付けられており、第２の層Ｌ２と第３の層Ｌ３とは、第２の重みＷ２によって関連付けられている。また、第３の層Ｌ３と第４の層Ｌ４とは、第３の重みＷ３によって関連付けられており、第４の層Ｌ４と第５の層Ｌ５とは、第４の重みＷ４によって関連付けられている。

また、実施形態において、第１のニューラルネットワーク１１１ａは、ニューラルネットワーク１１１の前段部分として構成されており、第２のニューラルネットワーク１１１ｂは、ニューラルネットワーク１１１の後段部分として構成されている。より具体的に、第１のニューラルネットワーク１１１ａは、第１の層Ｌ１を入力層として有し、第１の層Ｌ１と同次元の第２の層Ｌ２を中間層として有し、第１の層Ｌ１よりも低次元の第３の層Ｌ３を出力層として有するニューラルネットワークとして構成されており、第２のニューラルネットワーク１１１ｂは、第３の層Ｌ３を入力層として有し、第４の層Ｌ４を中間層として有し、第５の層Ｌ５を出力層として有するニューラルネットワークとして構成されている。

ここで、前述したように、第２のニューラルネットワーク１１１ｂは、画像データ取得部２１０により取得される画像データの入力に応じて当該画像データにおいて撮像された対象の識別結果の出力を得ることを目的として携帯端末２００の識別部２２０により利用される。これを踏まえると、第２のニューラルネットワーク１１１ｂは、携帯端末２００の撮像装置２０１の撮像結果である画像データＤ２０を構成する赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の３つの波長に対応した３つの色チャネルの画像データＤ２１～Ｄ２３と同等の画像データの入力を受け付け、当該入力に応じて、対象の識別結果、すなわち果実Ｘ１と他の部位Ｘ２との判別結果の出力を実行するように設定されるべきである。

したがって、実施形態では、第２のニューラルネットワーク１１１ｂの入力層である第３の層Ｌ３が有するノードの数が、赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の３つの波長に対応した３つの色チャネルと同数の３つに設定され、第２のニューラルネットワーク１１１ｂの出力層である第５の層Ｌ５が有するノードの数が、果実Ｘ１と他の部位Ｘ２との判別結果をデジタル的に出力可能な１つに設定される。そして、実施形態では、第３の層Ｌ３のノードと第５の層Ｌ５のノードとが適切に関連付けられるように、第３の層Ｌ３と第５の層Ｌ５との間に第４の層Ｌ４が設けられ、第４の層Ｌ４と第３の層Ｌ３とを関連付ける第３の重みＷ３と、第４の層Ｌ４と第５の層Ｌ５とを関連付ける第４の重みＷ４とが、機械学習による調整の対象である変数として設定される。

なお、実施形態において、第５の層Ｌ５が有するノードの数は、２つ以上に設定されてもよく、第４の層Ｌ４は、任意の数のノードを有する単一の層として構成されていてもよいし、任意の数のノードを有する２以上の層の結合として構成されていてもよい。また、実施形態において、画像データの入力に応じた識別結果の出力は、ピクセルワイズ、すなわち入力である画像データの画素ごとに実行される。

ところで、第２のニューラルネットワーク１１１ｂは、上記のように、高々３つの色チャネルのデータを入力とするモデルである。したがって、第２のニューラルネットワーク１１１ｂのみを利用して学習および識別を実行しても、前述した従来の技術と同様の結果しか得られない。

そこで、実施形態は、以下に説明するような第１のニューラルネットワーク１１１ａに第２のニューラルネットワーク１１１ｂと併せてトレーニングを施し、その結果を反映して設計される光学フィルタ３００（図１参照）および第２のニューラルネットワーク１１１ｂを携帯端末２００での識別に利用することで、前述した従来の技術よりもより良い結果を得る。

実施形態において、第１のニューラルネットワーク１１１ａは、光を撮像装置２０１よりも多くの複数の波長に分光して撮像する多波長分光カメラにより取得される画像データとしてのデータキューブＤ１０の入力に応じて、第２のニューラルネットワーク１１１ｂへの入力と同等の３つの画像データを出力するモデルである。

より具体的に、実施形態において、第１のニューラルネットワーク１１１ａの入力層である第１の層Ｌ１は、上記の多波長分光カメラの一例であるハイパースペクトルカメラとして構成された撮像装置５００により取得されるデータキューブＤ１０を構成する波長ごとの（つまり色チャネルごとの）画像データＤ１１、Ｄ１２、Ｄ１３、…の入力を受け付けるように設定される。したがって、実施形態では、第１の層Ｌ１が有するノード（入力ノードと表現しうる）の個数が、画像データＤ１１、Ｄ１２、Ｄ１３、…の色チャネルの数、すなわち撮像装置５００が分光可能な波長の数と同数に設定される。

なお、実施形態において、第１のニューラルネットワーク１１１ａの出力層である第３の層Ｌ３は、第２のニューラルネットワーク１１１ｂの入力層でもある。したがって、第３の層Ｌ３が有するノード（出力ノードと表現しうる）の個数は、前述したように、３つに設定される。

ここで、実施形態において、第１のニューラルネットワーク１１１ａは、入力層である第１の層Ｌ１と出力層である第３の層Ｌ３との間の中間層として、第１の層Ｌ１のノードと同数のノード（中間ノードと表現しうる）を有する第２の層Ｌ２を有している。第２の層Ｌ２は、複数の色チャネルの画像データＤ１１、Ｄ１２、Ｄ１３、…を第１の重みＷ１に基づいて重み付けすることで取得される複数の色チャネルの画像データＤ１１、Ｄ１２、Ｄ１３、…と同次元のデータを、第２の重みＷ２に基づいて重み付けし、３つの色チャネルの画像データＤ２１～Ｄ２３に対応した３次元のデータとして縮退する。

上記を踏まえると、第１の層Ｌ１と第３の層Ｌ３との間に第２の層Ｌ２を設けることは、携帯端末２００に設けられるＲＧＢカメラとしての撮像装置２０１による撮像の前処理として、当該撮像装置２０１の光学系に入力される光のうちハイパースペクトルカメラとしての撮像装置５００が撮像可能な複数の波長の成分に対して、波長ごとに何らかの光学的な処理を実行することに相当すると解釈できる。

そこで、実施形態において、コンピュータ端末１００の学習部１１０は、撮像装置５００による対象の撮像結果の入力に応じて当該対象の識別結果の出力が得られるように、第１のニューラルネットワーク１１１ａと第２のニューラルネットワーク１１１ｂとを含むニューラルネットワーク１１１の全体に機械学習によるトレーニングを施す。

たとえば、実施形態では、前述したように、果実Ｘ１を他の部位Ｘ２と区別して認識することが望まれているため、学習部１１０は、果実Ｘ１の撮像結果の入力に応じて出力される識別結果と、他の部位Ｘ２の撮像結果の入力に応じて出力される識別結果と、の差異を最大化するように、ニューラルネットワーク１１１の全体に機械学習によるトレーニングを施す。

すなわち、実施形態において、学習部１１０は、上記のような機械学習に基づいて、第１のニューラルネットワーク１１１ａで用いられる第１の重みＷ１と、第２のニューラルネットワーク１１１ｂで用いられる第３の重みＷ３および第４の重みＷ４と、を調整する。

ここで、第１のニューラルネットワーク１１１ａで用いられる第２の重みＷ２は、ハイパースペクトルカメラとしての撮像装置５００による撮像結果と同次元のデータをＲＧＢカメラとしての撮像装置２０１による撮像結果に対応した３次元のデータとして縮退するためのものであるので、撮像装置５００が撮像可能な複数の波長と、撮像装置２０１が撮像可能な３つの波長と、の関係性に応じて予め決められる定数である。

したがって、携帯端末２００に設けられる撮像装置２０１による撮像の前処理として波長ごとに実行すべき光学的な処理の内容は、機械学習による調整を経た第１の重みＷ１に応じて決定される。また、当該光学的な処理を経た撮像装置２０１による対象の撮像結果を入力として当該対象の識別結果を得る処理は、機械学習による調整を経た第３の重みＷ３および第４の重みＷ４によって調整された第２のニューラルネットワーク１１１ｂによって実現される。

上記を踏まえて、実施形態において、コンピュータ端末１００の特性決定部１２０は、機械学習による調整を経た第１の重みＷ１に基づいて、たとえば次の図３に示されるような形で、携帯端末２００に設けられる撮像装置２０１による撮像の前処理として波長ごとに実行すべき光学的な処理を実現するために携帯端末２００の撮像装置２０１に取り付ける光学フィルタ３００の光学特性を決定する。

図３は、実施形態にかかる光学フィルタ３００の光学特性の一例を示した例示的かつ模式的なブロック図である。

図３に示されるように、実施形態に係る光学フィルタ３００は、波長ごとに実線Ｌ３００で示されるような透過率が設定されているという光学特性を有する波長フィルタである。コンピュータ端末１００の特性決定部１２０は、光学フィルタ３００の波長ごとの透過率を、機械学習による調整を経た第１の重みＷ１に応じて決定する。

そして、携帯端末２００の画像データ取得部２１０は、図３に示されるような光学フィルタ３００が取り付けられた撮像装置２０１から画像データを取得する。そして、携帯端末２００の識別部２２０は、コンピュータ端末１００での機械学習による調整を経た第２のニューラルネットワーク１１１ｂを利用して、画像データ取得部２１０により取得された画像データの入力に応じて当該画像データにおいて撮像された対象の識別結果の出力を取得する。

なお、実施形態では、技術的な制約などにより、実際に物理的に設計された光学フィルタ３００の光学特性が、機械学習による調整を経た第１の重みＷ１に応じて決定された光学特性と完全には一致しない場合も想定される。

したがって、実施形態において、コンピュータ端末１００の学習部１１０は、実際に物理的に設計された光学フィルタ３００の実際の光学特性に応じた固定の重みが第１の重みＷ１として設定されたニューラルネットワーク１１１に基づいて、撮像装置５００による対象の撮像結果の入力に応じて当該対象の識別結果の出力が得られるように、第２のニューラルネットワーク１１１ｂの構成をさらに調整するための再度の機械学習を実行しうる。

そして、携帯端末２００の識別部２２０は、上記の再度の機械学習による調整を経た第２のニューラルネットワーク１１１ｂのコンピュータ端末１００からの移管を受け、当該第２のニューラルネットワーク１１１ｂを利用して、画像データ取得部２１０により取得された画像データの入力に応じて当該画像データにおいて撮像された対象の識別結果の出力を取得しうる。

以上の構成に基づき、実施形態にかかるコンピュータ端末１００および携帯端末２００は、対象の識別の精度を従来に比べてより向上させることが可能な対象識別方法を提供するために、以下の図４および図５に示されるような一連の処理を実行する。

図４は、実施形態にかかる対象識別方法を実現するためにコンピュータ端末１００が実行する一連の処理を示した例示的かつ模式的なフローチャートである。

図４に示されるように、実施形態では、まず、ステップＳ４０１において、コンピュータ端末１００の学習部１１０は、第１のニューラルネットワーク１１１ａと第２のニューラルネットワーク１１１ｂとを含むニューラルネットワーク１１１に基づく上述したような機械学習を実行する。すなわち、学習部１１０は、ハイパースペクトルカメラとして構成された撮像装置５００により取得される画像データの入力に応じて当該画像データにおいて撮像された対象の識別結果の出力が得られるように、ニューラルネットワーク１１１で用いられる各種の変数を調整する。

そして、ステップＳ４０２において、コンピュータ端末１００の特性決定部１２０は、Ｓ４０１における機械学習の結果、より具体的には、機械学習による調整を経た、第１のニューラルネットワーク１１１ａで用いられる第１の重みＷ１に応じて、携帯端末２００の撮像装置２０１に取り付けるべき光学フィルタ３００の光学特性を決定する。そして、処理が終了する。

図５は、実施形態にかかる対象識別方法を実現するためにコンピュータ端末１００が図４に示される一連の処理の後に実行する一連の処理を示した例示的かつ模式的なフローチャートである。

図５に示されるように、実施形態では、まず、ステップＳ５０１において、コンピュータ端末１００の学習部１１０は、図４のステップＳ４０２において決定された光学特性を有するように実際に物理的に設計された光学フィルタ３００の実際の光学特性を取得し、当該実際の光学特性に応じた固定の重みを第１の重みＷ１として設定する。

そして、ステップＳ５０２において、コンピュータ端末１００の学習部１１０は、上記の固定の重みが第１の重みＷ１として設定されたニューラルネットワーク１１１に基づいて、撮像装置５００による対象の撮像結果の入力に応じて当該対象の識別結果の出力が得られるように、第２のニューラルネットワーク１１１ｂの構成をさらに調整するための再度の機械学習を実行する。なお、再度の機械学習による調整を経た第２のニューラルネットワーク１１１ｂは、携帯端末２００の識別部２２０に移管される。そして、処理が終了する。

図６は、実施形態にかかる対象識別方法を実現するために携帯端末２００が実行する一連の処理を示した例示的かつ模式的なフローチャートである。

図６に示されるように、実施形態では、まず、ステップＳ６０１において、携帯端末２００の画像データ取得部２１０は、コンピュータ端末１００により実行される上述した処理において決定された光学特性を有する光学フィルタ３００が取り付けられたＲＧＢカメラとしての撮像装置２０１から、赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の３つの波長に対応した画像データを取得する。

そして、ステップＳ６０２において、携帯端末２００の識別部２２０は、ステップＳ６０１で取得された画像データに対して、第２のニューラルネットワーク１１１ｂによる識別を実行する。すなわち、識別部２２０は、コンピュータ端末１００により実行される上述した処理による調整を経て移管された第２のニューラルネットワーク１１１ｂにステップＳ６０１で取得された画像データを入力し、当該画像データにおいて撮像された対象の識別結果を取得する。

そして、ステップＳ６０３において、携帯端末２００の識別部２２０は、ステップＳ６０２で取得される識別結果を出力する。たとえば、識別部２２０は、対象としての植物体Ｘを示す画像を、果実Ｘ１と他の部位Ｘ２との差異が視覚的に認識できるような態様で、携帯端末２００のディスプレイ（不図示）に表示する。そして、処理が終了する。

以上説明したように、実施形態にかかる対象識別方法は、学習ステップと、決定ステップと、取得ステップと、識別ステップと、を含んでいる。

より具体的に、コンピュータ端末１００の学習部１１０は、学習ステップとして、第１のニューラルネットワーク１１１ａと第２のニューラルネットワーク１１１ｂとを備えたニューラルネットワーク１１１に基づいて機械学習を実行する処理（図４のステップＳ４０１参照）を実行する。第１のニューラルネットワーク１１１ａは、光を多数の波長に分光して撮像するハイパースペクトルカメラとして構成された第１の撮像装置としての撮像装置５００により取得される複数の波長（第１の波長）に対応した複数の色チャネル（第１の色チャネル）の画像データ（第１の画像データ）の入力に応じて、赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の３つの波長（第２の波長）に対応した３つの色チャネル（第２の色チャネル）の画像データ（第２の画像データ）を出力するモデルである。また、第２のニューラルネットワーク１１１ｂは、赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の３つの波長に対応した３つの色チャネルの画像データの入力に応じて、当該画像データにおいて撮像された対象の識別結果を出力するモデルである。なお、対象とは、たとえば果実Ｘ１と当該果実Ｘ１以外の他の部位Ｘ２とを有する植物体Ｘであり、第２のニューラルネットワーク１１１ｂにより出力される識別結果とは、たとえば果実Ｘ１と他の部位Ｘ２との判別結果を含んでいる。ここで言及されている画像データとは、単一の画素についての画素値である。

ここで、第１のニューラルネットワーク１１１ａは、撮像装置５００が撮像可能な複数の波長に対応した複数の色チャネルの画像データの入力を受け付ける当該複数の色チャネルと同数の複数の入力ノードを有する入力層（第１の層Ｌ１）と、携帯端末２００の撮像装置２０１が撮像可能な３つの波長に対応した３つの色チャネルの画像データを出力する当該３つの色チャネルと同数の３つの出力ノードを有する出力層（第３の層Ｌ３）と、第１の重みＷ１により入力ノードと関連付けられるとともに、撮像装置５００が撮像可能な複数の波長と撮像装置２０１が撮像可能な３つの波長との関係性に基づいて予め決められた第２の重みＷ２により出力ノードと関連付けられる入力ノードと同数の中間ノードを有する中間層（第２の層Ｌ２）と、により構成されている。そして、コンピュータ端末１００の学習部１１０は、ニューラルネットワーク１１１に基づく機械学習において、撮像装置５００による撮像結果としての複数の色チャネルの画像データの入力に応じて当該複数の画像データにおいて撮像された対象の識別結果が得られるように、第１の重みＷ１および第２のニューラルネットワーク１１１ｂの構成を調整する。

そして、コンピュータ端末１００の特性決定部１２０は、決定ステップとして、光を赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の３つの波長に分光して撮像するＲＧＢカメラとして構成された第２の撮像装置として携帯端末２００に設けられる撮像装置２０１に取り付ける光学フィルタ３００の光学特性を、上記の機械学習による調整を経た第１の重みＷ１に応じて決定する処理（図４のステップＳ４０２参照）を実行する。なお、光学フィルタ３００とは、波長ごとに第１の重みＷ１に応じた透過率が設定された波長フィルタである（図３参照）。

そして、携帯端末２００の画像データ取得部２１０は、取得ステップとして、コンピュータ端末１００の特性決定部１２０により決定された光学特性を有する光学フィルタ３００が撮像装置２０１に取り付けられているという環境下で撮像装置２０１により取得される赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の３つの波長に対応した３つの色チャネルの画像データを取得する処理（図６のステップＳ６０１参照）を実行する。

そして、携帯端末２００の識別部２２０は、識別ステップとして、画像データ取得部２１０により取得された３つの画像データを第２のニューラルネットワーク１１１ｂに入力し、対象の識別結果の出力を取得する処理（図６のステップＳ６０２参照）を実行する。

したがって、実施形態によれば、赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の３つの波長に高々３つの色チャネルの画像データを根拠としたデータのみに基づいて学習および識別を実行する前述したような従来の技術と異なり、より高次元の、つまりより多くの色チャネルの画像データを利用して、学習の精度を向上させることができるとともに、当該学習の結果が反映された構成（光学フィルタ３００）を利用して、３つの色チャネルの画像データを根拠とした識別の精度を向上させることができる。

さらに、実施形態にかかる対象識別方法は、上記の４つのステップに加えて、再学習ステップを含みうる。すなわち、実施形態において、コンピュータ端末１００の学習部１１０は、再学習ステップとして、上記の学習ステップにおける機械学習の結果に基づいて実際に物理的に設計された光学フィルタ３００の実際の光学特性に応じた固定の重みが第１の重みＷ１として設定されたニューラルネットワーク１１１に基づいて、撮像装置５００による対象の撮像結果の入力に応じて当該対象の識別結果の出力が得られるように、第２のニューラルネットワーク１１１ｂの構成をさらに調整するための再度の機械学習を実行しうる。この場合、携帯端末２００の識別部２２０は、識別ステップとして、再度の機械学習による調整を経た第２のニューラルネットワーク１１１ｂを利用して、画像データ取得部２１０により取得された画像データの入力に応じて当該画像データにおいて撮像された対象の識別結果の出力を取得しうる。このような構成によれば、技術的な制約などにより、実際に物理的に設計された光学フィルタ３００の光学特性に合うように再調整された第２のニューラルネットワーク１１１ｂに基づいて、識別の精度をさらに向上させることができる。

なお、実施形態では、ハイパースペクトルカメラとして構成された撮像装置５００のような高価なデバイスが学習時にのみ利用され、識別時にはＲＧＢカメラとして構成された撮像装置２０１のような一般的なデバイスが利用される。したがって、実施形態の技術によれば、たとえば撮像装置５００のような高価なデバイスを学習時および識別時の両方において利用する場合と異なり、低コスト化を図ることができる。

ここで、実施形態にかかる対象識別方法の効果について、実験結果とともにより具体的に説明する。

図７は、実施形態にかかる対象識別方法の効果を確認するための実験結果を示した例示的かつ模式的な図である。

図７に示される例において、第１の比較例とは、学習時および識別時の両方にハイパースペクトルカメラを利用する技術に相当する。たとえば、上述した実施形態に当てはめると、第１の比較例の構成は、光学フィルタ３００を使用することなく、携帯端末２００に設けられる撮像装置２０１をハイパースペクトルカメラに置換するとともに、識別部２２０に記憶させる第２のニューラルネットワーク１１１ｂを、ハイパースペクトルカメラの撮像結果の入力に応じて対象の識別結果の出力が適切に得られるようにトレーニングされたニューラルネットワークに置換する構成に相当する。

また、第２の比較例とは、前述した従来の技術のような、学習時および識別時の両方にＲＧＢカメラを利用する技術に相当する。

ここで、図７に示される画像７０１、７０２、および７０３は、それぞれ、第１の比較例、実施形態、および第２の比較例にかかる技術によって得られる植物体Ｘの識別結果に相当する。これらの画像７０１～７０３において、明るい領域は、果実Ｘ１として識別された領域であり、暗い領域は、果実Ｘ１として識別されなかった領域、すなわち他の部位Ｘ２として識別された領域である。

図７に示される画像７０１～７０３を比較すると、画像７０１は、実際に果実Ｘ１を表す領域以外の領域にノイズとして存在する明るい領域が最も小さいので、第１の比較例は、識別の精度が最も高い技術であると言える。しかしながら、第１の比較例は、学習時と識別時との両方においてハイパースペクトルカメラのような高価なデバイスを利用する必要があるので、最も高コストな技術であると言える。

また、画像７０３は、ノイズとして存在する明るい領域が最も大きいので、第２の比較例は、識別の精度が最も低い技術であると言える。しかしながら、第２の比較例は、学習および識別の両方をＲＧＢカメラのような一般的なデバイスによって実現することができるので、精度に課題はあるが、コスト面では優秀な技術であると言える。

ここで、画像７０２は、ノイズとして存在する明るい領域が第１の比較例と第２の比較例との中間程度の大きさであるので、実施形態は、識別の精度が第１の比較例と第２の比較例との中間程度の技術であると言える。また、実施形態は、学習時においてはハイパースペクトルカメラを利用するものの、識別時にはＲＧＢカメラを利用するので、コストも第１の比較例と第２の比較例との中間程度の技術であると言える。

上記を踏まえると、精度とコストとの両立を図る技術として、実施形態が最も優秀であると言える。すなわち、実施形態は、一般的に普及しており多くの人が所持しているスマートフォンなどの情報処理装置に適切な光学フィルタおよびニューラルネットワークを提供するだけで高精度の識別を実現可能な技術であるので、非常に有益である。この場合、識別の精度は、ニューラルネットワークによる識別の後にグルーピングなどの画像処理をさらに実行することでさらに向上させることができると見込まれる。

なお、実施形態にかかるコンピュータ端末１００および携帯端末２００において実行される情報処理プログラムは、メモリなどに予め組み込まれた状態で提供されてもよいし、フレキシブルディスク（ＦＤ）のような各種の磁気ディスクやＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）のような各種の光ディスクなどといった、コンピュータで読み取り可能な記録媒体にインストール可能な形式または実行可能な形式で記録されたコンピュータプログラムプロダクトとして提供されてもよい。

また、実施形態にかかるコンピュータ端末１００および携帯端末２００において実行される情報処理プログラムは、インターネットなどのネットワーク経由で提供または配布されてもよい。すなわち、実施形態にかかるコンピュータ端末１００および携帯端末２００において実行される情報処理プログラムは、インターネットなどのネットワークに接続されたコンピュータ上に格納された状態で、ネットワーク経由でのダウンロードを受け付ける、といった形で提供されてもよい。

＜変形例＞
上述した実施形態では、機械学習の結果を光学フィルタ３００に反映する構成が例示されている。しかしながら、光学フィルタ３００を利用しなくても、たとえば照明装置４００による光の照射特性を適切に設定すれば、上述した実施形態と同等の結果を得ることができる。

すなわち、本開示は、変形例として、ニューラルネットワーク１１１に基づく機械学習の結果を光学フィルタ３００ではなく照明装置４００に反映する構成も想定している。この構成では、光学フィルタ３００が取り付けられていない撮像装置２０１が、光学フィルタ３００が取り付けられた撮像装置２０１と同様の画像データを取得するように、ニューラルネットワーク１１１に基づく機械学習の結果に基づいて、照明装置４００による光の照射特性が設定される。

また、上述した実施形態では、学習時に利用される撮像装置５００がハイパースペクトルカメラとして構成され、識別時に利用される撮像装置２０１がＲＧＢカメラとして構成されている。しかしながら、本開示の技術は、撮像装置５００が撮像可能な光の波長の数が、撮像装置２０１が撮像可能な光の波長の数よりも多ければ、撮像装置５００がハイパースペクトルカメラ以外のカメラとして構成されてもよいし、撮像装置２０１がＲＧＢカメラ以外のカメラとして構成されてもよい。この場合、撮像装置２０１は、モノクロカメラとして構成されてもよい。ただし、前述したように、ハイパースペクトルカメラおよびＲＧＢカメラを利用する実施形態によれば、対象の識別における精度とコストとの両立を図ることができる。

また、上述した実施形態では、本開示の技術が植物体Ｘにおける果実Ｘ１と他の部位Ｘ２との識別に利用されている。しかしながら、本開示の技術は、他の目的にも利用することが可能である。たとえば、本開示の技術は、果実Ｘ１の熟成度の推定や、つぼみの識別、病気の有無の識別などに利用することが可能である。また、本開示の技術は、農業以外にも、塗装製品における色むらの検出にも利用することが可能である。

また、上述した実施形態では、対象の識別処理のための第２のニューラルネットワーク１１１ｂが携帯端末２００により保持されることで対象の識別が携帯端末２００により実行される構成が例示されている。しかしながら、変形例として、対象の識別処理のための第２のニューラルネットワーク１１１ｂがクラウドサーバのようなネットワーク上の情報処理装置により保持されることで対象の識別がクラウドサーバにより実行される構成も考えられる。この場合、携帯端末２００は、撮像装置２０１により取得した画像データをクラウドサーバに送信し、当該画像データにおいて撮像された対象の識別結果をクラウドサーバから受信する。

また、上述した実施形態では、単一の画素についての複数の色チャネルの画素値を入力とするニューラルネットワーク１１１に基づく機械学習の結果を利用して対象の識別を実現する構成が例示されている。しかしながら、変形例として、次の図８に示されるような、所定の大きさの領域を構成する複数の画素についての複数の色チャネルの画素値の集合を入力とするニューラルネットワーク８１１に基づく機械学習の結果を利用して対象の識別を実現する構成も考えられる。

図８は、変形例において実行されうる機械学習の概要を示した例示的かつ模式的な図である。なお、以下では、変形例の技術が、上述した実施形態と同様の対象識別システムによって実現されるものとして説明する。

図８に示されるように、変形例にかかるニューラルネットワーク８００は、画像を入出力とするいわゆる畳み込みニューラルネットワークとして構成されている。より具体的に、ニューラルネットワーク８００は、入力層としての第１の層Ｌ８１０と、中間層としての第２の層Ｌ８２０、第３の層Ｌ８３０、および第４の層Ｌ８４０と、出力層としての第５の層Ｌ８５０と、により構成されている。第１の層Ｌ８１０と第２の層Ｌ８２０とは、第１の重みＷ８１０によって関連付けられており、第２の層Ｌ８２０と第３の層Ｌ８３０とは、第２の重みＷ８２０によって関連付けられている。また、第３の層Ｌ８３０と第４の層Ｌ８４０とは、第３の重みＷ８３０によって関連付けられており、第４の層Ｌ８４０と第５の層Ｌ８５０とは、第４の重みＷ８４０によって関連付けられている。

なお、第４の層８４０は、複数の層Ｌ８４１、Ｌ８４２、Ｌ８４３…の結合として構成されている。層Ｌ８４１およびＬ８４２は、重みＷ８４１によって関連付けられており、層Ｌ８４２およびＬ８４３は、重み８４２によって関連付けられている。図８に示される例では、層Ｌ８４３以降にも、適当な重みによって関連付けられた１以上の層が存在しうるが、第４の層８４０の構成は、任意に設定または変更されうる。

ここで、変形例においても、上述した実施形態と同様に、ニューラルネットワーク８００の前段部分としての第１のニューラルネットワーク８０１と、ニューラルネットワーク８００の後段部分としての第２のニューラルネットワーク８０２と、が構成されている。第１のニューラルネットワーク８０１は、第１の層Ｌ８１０を入力層として有し、第２の層Ｌ８２０を中間層として有し、第３の層Ｌ８３０を出力層として有するニューラルネットワークであり、第２のニューラルネットワーク８０２は、第３の層Ｌ８３０を入力層として有し、第４の層Ｌ８４０を中間層として有し、第５の層Ｌ８５０を出力層として有するニューラルネットワークである。

変形例にかかる第１のニューラルネットワーク８０１および第２のニューラルネットワーク８０２の構成は、入出力が画素値ではなく画素値の集合としての画像である点以外は、上述した第１のニューラルネットワーク８１１ａおよび第２のニューラルネットワーク８１１ｂと基本的に同様であると考えることができる。

すなわち、変形例にかかる第１のニューラルネットワーク８０１は、複数の画素の集合として構成される高さがＨで幅がＷであるＮ枚の画像の入力を受け付け、当該入力に応じて、高さがＨで幅がＷであるＭ枚の画像を出力するように構成されている。Ｎは、上述した撮像装置５００のような多波長分光カメラが撮像可能な波長（色チャネル）の数に対応し、Ｍは、上述した撮像装置２０１のようなＲＧＢカメラが撮像可能な波長（色チャネル）の数に対応する。

したがって、第１のニューラルネットワーク８０１の入力層としての第１の層Ｌ８１０は、多波長分光カメラにより取得されるデータキューブに対応した画像ＩＭ８１０を構成する画像ＩＭ８１１、ＩＭ８１２、ＩＭ８１３…のような複数の色チャネルの画像の入力を受け付ける層として構成されている。また、第１のニューラルネットワーク８０１の出力層としての第３の層Ｌ８３０は、ＲＧＢカメラの撮像結果に対応した画像ＩＭ８２０を構成する画像ＩＭ８２１、ＩＭ８２２、およびＩＭ８２３のような３つの色チャネルの画像を出力する、第１の層Ｌ８１０よりも低次元の層として構成されている。

そして、第１のニューラルネットワーク８０１の中間層としての第２の層Ｌ８２０は、第１の層Ｌ８１０と同次元の層として構成されている。これにより、変形例においても、上述した実施形態と同様に、第１の層Ｌ８１０と第２の層Ｌ８２０とを関連付ける第１の重みＷ８１０を、ＲＧＢカメラに取り付ける上述した光学フィルタ３００の光学特性を決定するための根拠として使用することができる。なお、第２の層Ｌ８２０と第３の層Ｌ８３０とを関連付ける第２の重みＷ８２０が、撮像装置５００が撮像可能な複数の波長と、撮像装置２０１が撮像可能な３つの波長と、の関係性に応じて予め決められる定数であることは、上述した実施形態と同様である。

一方、変形例にかかる第２のニューラルネットワーク８０２は、ＲＧＢカメラの撮像結果に対応した画像ＩＭ８２０を構成する画像ＩＭ８２１、ＩＭ８２２、およびＩＭ８２３のような３つの色チャネルの画像の入力を受け付け、当該入力に応じて、たとえば画像ＩＭ８００のように、二値化処理によって識別対象の部分（たとえば上述した果実Ｘ１）が他の部分と差別化された１枚の画像を出力するように構成されている。これにより、対象の識別結果を視覚的に分かりやすい形で提供することができる。

変形例では、以上のような構成を有するニューラルネットワーク８００に基づいて、上述した撮像装置５００のような多波長分光カメラにより取得される複数の色チャネルの画像の入力に応じて当該画像において撮像された対象の識別結果が得られるように、第１のニューラルネットワーク８０１における第１の重みＷ８１０および第２のニューラルネットワーク８０２の構成を調整するための機械学習が実行される。そして、変形例では、上述した実施形態と同様に、機械学習による調整を経た第１の重みＷ８１０に応じて設計された光学フィルタ３００が携帯端末２００の撮像装置２０１に取り付けられるとともに、機械学習による調整を経た第２のニューラルネットワーク８０２が携帯端末２００に搭載される。これにより、変形例によっても、上述した実施形態と同様に、対象の識別の精度がより向上した対象識別方法を提供することができる。

さらに、上述した実施形態では、機械学習の結果に基づいて光学フィルタ３００の特性を決定する構成が例示されているが、変形例として、数式モデルに基づいて数学的な計算により光学フィルタ３００の光学特性を決定する構成も考えられる。この構成においては、たとえば下記の式（１００）で示される評価関数Ｊが利用される。

上記の式（１００）の右辺にある３つのパラメータは、下記の式（１０１）～（１０３）に基づくパラメータである。

上記の式（１０１）～（１０３）において、ｓ_ｇ（λ）は、植物体Ｘにおける果実Ｘ１のような識別すべき対象を上述した撮像装置５００のような多波長分光カメラにより撮像することで得られる複数の色チャネルの画像データを波長λの関数として表現したものであり、ｓ_ｌ（λ）は、植物体Ｘにおける他の部位Ｘ２のような識別すべき対象と異なる非対象を上述した撮像装置５００のような多波長分光カメラにより撮像することで得られる複数の色チャネルの画像データを波長λの関数として表現したものである。ｓ_ｇ（λ）およびｓ_ｌ（λ）は、たとえば次の図９に示されるような特性を有している。

図９は、変形例にかかる数式モデルにおいて利用されうる画像データの特性を示した例示的かつ模式的な図である。図９に示される例では、ｓ_ｇ（λ）が実線Ｌ９０１で表され、ｓ_ｌ（λ）が一点鎖線Ｌ９０２で表されている。植物体Ｘがたとえばピーマンである場合、果実Ｘ１と他の部位Ｘ２とが互いに類似の色を有しているので、ｓ_ｇ（λ）およびｓ_ｌ（λ）は、互いに類似の特性（形状）を有することになる。

上記の式（１０１）～（１０３）に戻り、Ｔ_ｒ（λ）、Ｔ_ｇ（λ）、およびＴ_ｂ（λ）は、上述した撮像装置５００のような多波長分光カメラが撮像可能な多次元色空間の情報を上述した撮像装置２０１のようなＲＧＢカメラが撮像可能な３次元色空間の情報に変換（射影）するために波長λに応じて予め決められた値を有する関数である。

したがって、Ｔ_ｒ（λ）、Ｔ_ｇ（λ）、およびＴ_ｂ（λ）は、撮像装置５００が撮像可能な波長と撮像装置２０１が撮像可能な波長との関係性に基づいて波長λに応じて予め決められた値を有する関数であると言えるので、上述した実施形態にかかる第２の重みＷ２と一致すると言える。そこで、以下では、Ｔ_ｒ（λ）、Ｔ_ｇ（λ）、およびＴ_ｂ（λ）を、第２の重みと表現することがある。上述した実施形態にかかる第２の重みＷ２も同様であるが、変形例にかかる第２の重みは、たとえば次の図１０に示されるような特性を有している。

図１０は、変形例にかかる数式モデルにおいて利用されうる第２の重みの特性を示した例示的かつ模式的な図である。図１０に示される例では、Ｔ_ｒ（λ）が実線Ｌ１００１で表され、Ｔ_ｇ（λ）が一点鎖線Ｌ１００２で表され、Ｔ_ｂ（λ）が二点鎖線Ｌ１００３で表されている。Ｔ_ｒ（λ）、Ｔ_ｇ（λ）、およびＴ_ｂ（λ）は、それぞれ、上述した３次元空間における赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の波長に対応した軸への射影を実行するための関数である。したがって、Ｔ_ｒ（λ）、Ｔ_ｇ（λ）、およびＴ_ｂ（λ）は、それぞれ異なる位置でピークを迎えるような特性（形状）を有している。

上記の式（１０１）～（１０３）に戻り、Ｔ_ｒ（λ）、Ｔ_ｇ（λ）、またはＴ_ｂ（λ）と、ｓ_ｇ（λ）またはｓ_ｌ（λ）と、の間に存在するｆ（λ）は、多波長分光カメラが撮像可能な多次元色空間の情報をＲＧＢカメラが撮像可能な３次元色空間の情報に変換（射影）するにあたって多次元色空間の情報に対して波長λごとに何らかの光学的な処理を実行するための関数に相当する。

したがって、ｆ（λ）は、光学フィルタ３００の光学特性を決定するために考慮される上述した実施形態にかかる第１の重みＷ１に対応していると言える。そこで、以下では、ｆ（λ）を、第１の重みと表現することがある。変形例にかかる第１の重みは、上述した実施形態にかかる第１の重みＷ１と同様、調整可能な変数である。

以上を踏まえると、上記の式（１００）は、下記の式（１１０）のようにも表現できる。

上記の式（１１０）において、Ｒ_ｇ、Ｇ_ｇ、およびＢ_ｇは、植物体Ｘにおける果実Ｘ１のような識別対象を上述した撮像装置２０１のようなＲＧＢカメラにより撮像することで得られる３つの色チャネルの画像データであり、Ｒ_ｌ、Ｇ_ｌ、およびＢ_ｌは、植物体Ｘにおける他の部位Ｘ２のような非識別対象を上述した撮像装置２０１のようなＲＧＢカメラにより撮像することで得られる３つの色チャネルの画像データである。

したがって、上記の式（１１０）に示される評価関数Ｊの値を所定レベル以上にする（たとえば最大化する）ことが可能な第１の重みを特定し、当該第１の重みに応じた光学特性を有するように設計された光学フィルタ３００を撮像装置２０１に取り付ければ、当該撮像装置２０１によって得られる３つの色チャネルの画像データ上で識別対象と非識別対象との差異を明確化することができると言える。

そこで、変形例は、たとえば以下に説明するような手法で、評価関数Ｊの値を最大化するような第１の重みとしてのｆ（λ）を特定し、当該ｆ（λ）に応じて、撮像装置２０１に取り付けるべき光学フィルタ３００の光学特性を決定する。

上記のような条件を満たすｆ（λ）を特定するための手法として、上述した各関数を離散化する手法が考えられる。この手法によれば、下記の式（２０１）～（２０５）に基づいて、上記の式（１０１）を、下記の式（２００）のように書き換えることができる。

なお、上記の式（２０２）では、上記の式（１０１）における｛（ｓ_ｇ（λ）－ｓ_ｌ（λ）｝を、単にｓ（λ）と表記している。

上記の式（２００）によれば、下記の式（２０６）が成立する。

そして、下記の式（２０７）によれば、上記の式（２０６）を、下記の式（２０８）のように書き換えることができる。

以上のような離散化を上記の式（１００）の右辺にある３つのパラメータの全てについて実行すると、評価関数Ｊに関する下記の式（３００）を導出することができる。

なお、上記の式（３００）において、Ｓ_ｒ、Ｓ_ｇ、Ｓ_ｂは、ハイパースペクトルカメラの撮像結果と第２の重みとに基づいて決まる定数項であり、（Ｓ_ｒ＋Ｓ_ｇ＋Ｓ_ｂ）という項の両側に存在する行ベクトルおよび列ベクトルは、上述した第１の重みに対応した変数としてのｆ（λ_１）、ｆ（λ_１）、…、およびｆ（λ_Ｎ）を成分として有している。

以上を踏まえて、変形例は、第１の重みがゼロ以上であるという拘束条件のもとで、上記の式（３００）を最大化するような第１の重みを特定する。そして、変形例は、特定された（波長ごとの）第１の重みに応じて、たとえば次の図１１に示されるような形で、光学フィルタ３００の（波長ごとの）光学特性を決定する。

図１１は、変形例にかかる数式モデルに基づいて特定された第１の重みに応じて決定された光学フィルタ３００の光学特性の例を示した例示的かつ模式的な図である。変形例においても、上述した実施形態と同様に、光学フィルタ３００が、波長ごとに実線Ｌ１１００で示されるような透過率が設定されているという光学特性を有する波長フィルタとして実現される。

なお、このような数式モデルを利用する変形例においても、対象の識別時には、上述した実施形態にかかる再学習ステップと同様の発想でトレーニングされたニューラルネットワークが利用されうる。したがって、数式モデルを利用する変形例においても、上述した実施形態にかかるニューラルネットワーク１１１と同様の、前半部分としての第１のニューラルネットワークと、後半部分としての第２のニューラルネットワークと、を含むニューラルネットワークに基づく機械学習が実行される。

より具体的に、数式モデルを利用する変形例では、図１１に示されるような光学特性に応じた固定の第１の重みと、撮像装置５００が撮像可能な複数の波長と撮像装置２０１が撮像可能な３つの波長との関係性に基づく固定の第２の重みと、が設定された第１のニューラルネットワークと、調整対象の第２のニューラルネットワークと、を含むニューラルネットワークに基づいて、撮像装置５００による対象の撮像結果の入力に応じて当該対象の識別結果の出力が得られるように、第２のニューラルネットワークの構成を調整するための機械学習が実行される。この場合、機械学習による調整を経た第２のニューラルネットワークが、対象の識別用のニューラルネットワークとして利用される。

以上、本開示の実施形態および変形例を説明したが、上述した実施形態はあくまで一例であって、発明の範囲を限定することは意図していない。上述した新規な実施形態および変形例は、様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上述した実施形態および変形例は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００コンピュータ端末（情報処理装置）
１１０学習部
１１１、８００ニューラルネットワーク
１１１ａ、８０１第１のニューラルネットワーク
１１１ｂ、８０２第２のニューラルネットワーク
１２０特性決定部（決定部）
２００携帯端末（情報処理装置）
２０１撮像装置（第２の撮像装置）
２１０画像データ取得部（取得部）
２２０識別部
３００光学フィルタ（波長フィルタ）
４００照明装置
５００撮像装置（第１の撮像装置）

Claims

光を複数の第１の波長に分光して撮像する第１の撮像装置により取得される前記第１の波長に対応した複数の第１の色チャネルの第１の画像データの入力に応じて、１以上の第２の波長に対応し前記第１の色チャネルの数よりも少ない１以上の第２の色チャネルの第２の画像データを出力する第１のニューラルネットワークと、前記第２の画像データの入力に応じて、当該第２の画像データにおいて撮像された対象の識別結果を出力する第２のニューラルネットワークと、を備えたニューラルネットワークであって、前記第１のニューラルネットワークが、前記第１の画像データの入力を受け付ける入力層と、前記第２の画像データを出力する前記入力層よりも低次元の出力層と、色チャネルごとに設定される第１の重みにより前記入力層と関連付けられるとともに前記第１の波長と前記第２の波長との関係性に基づいて予め決められた第２の重みにより前記出力層と関連付けられる前記入力層と同次元の中間層と、を有するニューラルネットワークに基づいて、前記第１の画像データの入力に応じて当該第１の画像データにおいて撮像された前記対象の識別結果が得られるように、前記第１の重みおよび前記第２のニューラルネットワークの構成を調整するための機械学習を実行する学習ステップと、
光を前記第２の波長に分光して撮像することで前記第２の画像データを取得する第２の撮像装置に取り付ける光学フィルタの光学特性、または、前記第２の撮像装置の撮像時に照明装置によって前記対象に照射する光の照射特性を、前記学習ステップの前記機械学習による調整を経た前記第１の重みに応じて決定する決定ステップと、
前記決定ステップにおいて決定された前記光学特性を有するように設計された前記光学フィルタが前記第２の撮像装置に取り付けられているという環境下、または、前記決定ステップにおいて決定された前記照射特性を有するように調整された光が前記照明装置によって前記対象に照射されているという環境下で前記第２の撮像装置により取得される前記第２の画像データを取得する取得ステップと、
前記取得ステップにおいて取得された前記第２の画像データを前記第２のニューラルネットワークに入力し、前記対象の識別結果の出力を取得する識別ステップと、
を備える、対象識別方法。
前記第１のニューラルネットワークは、前記入力層が、単一の画素についての前記第１の色チャネルの第１の画素値の入力を前記第１の画像データの入力として受け付ける前記第１の色チャネルと同数の入力ノードを有し、前記出力層が、単一の画素についての前記第２の色チャネルの第２の画素値を前記第２の画像データとして出力する前記第２の色チャネルと同数の出力ノードを有し、前記中間層が、前記第１の重みにより前記入力ノードと関連付けられるとともに前記第２の重みにより前記出力ノードと関連付けられる前記入力ノードと同数の中間ノードを有する、ように設定されている、
請求項１に記載の対象識別方法。
前記第１の画像データは、前記第１の撮像装置としての多波長分光カメラにより取得されるデータキューブに基づく画像データに対応し、
前記第２の画像データは、前記第２の撮像装置としてのＲＧＢカメラにより取得される、ＲＧＢ空間の三原色である赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の３つの波長に対応した３つの色チャネルの画像データに対応する、
請求項１または２に記載の対象識別方法。
前記光学フィルタは、前記第１の重みに応じた透過率が波長ごとに設定されているという前記光学特性を有する波長フィルタである、
請求項１～３のうちいずれか１項に記載の対象識別方法。
前記対象は、果実と当該果実以外の他の部位とを有する植物体であり、
前記第２のニューラルネットワークにより出力される前記識別結果は、前記果実と前記他の部位との判別結果を含む、
請求項１～４のうちいずれか１項に記載の対象識別方法。
前記決定ステップにおいて決定された前記光学特性を有するように設計された前記光学フィルタの実際の光学特性、または、前記決定ステップにおいて決定された前記照射特性を有するように調整された光の実際の照射特性を示す値に応じた固定の重みが前記第１の重みとして設定された前記ニューラルネットワークに基づいて、前記第１の画像データの入力に応じて当該第１の画像データにおいて撮像された前記対象の識別結果が得られるように、前記第２のニューラルネットワークの構成をさらに調整するための再度の機械学習を実行する再学習ステップをさらに備え、
前記識別ステップは、前記取得ステップにおいて取得された前記第２の画像データを、前記再学習ステップによる前記再度の機械学習による調整を経た前記第２のニューラルネットワークに入力し、前記対象の識別結果の出力を取得する、
請求項１～５のうちいずれか１項に記載の対象識別方法。
光を複数の第１の波長に分光して撮像する第１の撮像装置により取得される前記第１の波長に対応した複数の第１の色チャネルの第１の画像データの入力に応じて、１以上の第２の波長に対応し前記第１の色チャネルの数よりも少ない１以上の第２の色チャネルの第２の画像データを出力する第１のニューラルネットワークと、前記第２の画像データの入力に応じて、当該第２の画像データにおいて撮像された対象の識別結果を出力する第２のニューラルネットワークと、を備えたニューラルネットワークであって、前記第１のニューラルネットワークが、前記第１の画像データの入力を受け付ける入力層と、前記第２の画像データを出力する前記入力層よりも低次元の出力層と、色チャネルごとに設定される第１の重みにより前記入力層と関連付けられるとともに前記第１の波長と前記第２の波長との関係性に基づいて予め決められた第２の重みにより前記出力層と関連付けられる前記入力層と同次元の中間層と、を有するニューラルネットワークに基づいて、前記第１の画像データの入力に応じて当該第１の画像データにおいて撮像された前記対象の識別結果が得られるように、前記第１の重みおよび前記第２のニューラルネットワークの構成を調整するための機械学習を実行する学習部と、
光を前記第２の波長に分光して撮像することで前記第２の画像データを取得する第２の撮像装置に取り付ける光学フィルタの光学特性、または、前記第２の撮像装置の撮像時に照明装置によって前記対象に照射する光の照射特性を、前記学習部の前記機械学習による調整を経た前記第１の重みに応じて決定する決定部と、
を備える、情報処理装置。
光を複数の第１の波長に分光して撮像する第１の撮像装置により取得される前記第１の波長に対応した複数の第１の色チャネルの第１の画像データの入力に応じて、１以上の第２の波長に対応し前記第１の色チャネルの数よりも少ない１以上の第２の色チャネルの第２の画像データを出力する第１のニューラルネットワークと、前記第２の画像データの入力に応じて、当該第２の画像データにおいて撮像された対象の識別結果を出力する第２のニューラルネットワークと、を備えたニューラルネットワークであって、前記第１のニューラルネットワークが、前記第１の画像データの入力を受け付ける入力層と、前記第２の画像データを出力する前記入力層よりも低次元の出力層と、色チャネルごとに設定される第１の重みにより前記入力層と関連付けられるとともに前記第１の波長と前記第２の波長との関係性に基づいて予め決められた第２の重みにより前記出力層と関連付けられる前記入力層と同次元の中間層と、を有するニューラルネットワークに基づいて、前記第１の画像データの入力に応じて当該第１の画像データにおいて撮像された前記対象の識別結果が得られるように、前記第１の重みおよび前記第２のニューラルネットワークの構成を調整するための機械学習による調整を経た前記第１の重みに応じて決定された光学特性を有するように設計された光学フィルタが光を前記第２の波長に分光して撮像することで前記第２の画像データを取得する第２の撮像装置に取り付けられているという環境下、または、前記機械学習による調整を経た前記第１の重みに応じて決定された照射特性を有するように調整された光が照明装置によって前記対象に照射されているという環境下で前記第２の撮像装置により取得される前記第２の画像データを取得する取得部と、
前記取得部により取得された前記第２の画像データを前記第２のニューラルネットワークに入力し、前記対象の識別結果の出力を取得する識別部と、
を備える、情報処理装置。
光を複数の第１の波長に分光して撮像する第１の撮像装置により取得される前記第１の波長に対応した複数の第１の色チャネルの第１の画像データの入力に応じて、１以上の第２の波長に対応し前記第１の色チャネルの数よりも少ない１以上の第２の色チャネルの第２の画像データを出力する第１のニューラルネットワークと、前記第２の画像データの入力に応じて、当該第２の画像データにおいて撮像された対象の識別結果を出力する第２のニューラルネットワークと、を備えたニューラルネットワークであって、前記第１のニューラルネットワークが、前記第１の画像データの入力を受け付ける入力層と、前記第２の画像データを出力する前記入力層よりも低次元の出力層と、色チャネルごとに設定される第１の重みにより前記入力層と関連付けられるとともに前記第１の波長と前記第２の波長との関係性に基づいて予め決められた第２の重みにより前記出力層と関連付けられる前記入力層と同次元の中間層と、を有するニューラルネットワークに基づいて、前記第１の画像データの入力に応じて当該第１の画像データにおいて撮像された前記対象の識別結果が得られるように、前記第１の重みおよび前記第２のニューラルネットワークの構成を調整するための機械学習を実行する学習ステップと、
光を前記第２の波長に分光して撮像することで前記第２の画像データを取得する第２の撮像装置に取り付ける光学フィルタの光学特性、または、前記第２の撮像装置の撮像時に照明装置によって前記対象に照射する光の照射特性を、前記学習ステップの前記機械学習による調整を経た前記第１の重みに応じて決定する決定ステップと、
をコンピュータに実行させるための、情報処理プログラム。
光を複数の第１の波長に分光して撮像する第１の撮像装置により取得される前記第１の波長に対応した複数の第１の色チャネルの第１の画像データの入力に応じて、１以上の第２の波長に対応し前記第１の色チャネルの数よりも少ない１以上の第２の色チャネルの第２の画像データを出力する第１のニューラルネットワークと、前記第２の画像データの入力に応じて、当該第２の画像データにおいて撮像された対象の識別結果を出力する第２のニューラルネットワークと、を備えたニューラルネットワークであって、前記第１のニューラルネットワークが、前記第１の画像データの入力を受け付ける入力層と、前記第２の画像データを出力する前記入力層よりも低次元の出力層と、色チャネルごとに設定される第１の重みにより前記入力層と関連付けられるとともに前記第１の波長と前記第２の波長との関係性に基づいて予め決められた第２の重みにより前記出力層と関連付けられる前記入力層と同次元の中間層と、を有するニューラルネットワークに基づいて、前記第１の画像データの入力に応じて当該第１の画像データにおいて撮像された前記対象の識別結果が得られるように、前記第１の重みおよび前記第２のニューラルネットワークの構成を調整するための機械学習による調整を経た前記第１の重みに応じて決定された光学特性を有するように設計された光学フィルタが光を前記第２の波長に分光して撮像することで前記第２の画像データを取得する第２の撮像装置に取り付けられているという環境下、または、前記機械学習による調整を経た前記第１の重みに応じて決定された照射特性を有するように調整された光が照明装置によって前記対象に照射されているという環境下で前記第２の撮像装置により取得される前記第２の画像データを取得する取得ステップと、
前記取得ステップにより取得された前記第２の画像データを前記第２のニューラルネットワークに入力し、前記対象の識別結果の出力を取得する識別ステップと、
をコンピュータに実行させるための、情報処理プログラム。
光を複数の第１の波長に分光して撮像する第１の撮像装置により取得される前記第１の波長に対応した複数の第１の色チャネルの第１の画像データの入力に応じて、１以上の第２の波長に対応し前記第１の色チャネルの数よりも少ない１以上の第２の色チャネルの第２の画像データを出力する第１のニューラルネットワークと、前記第２の画像データの入力に応じて、当該第２の画像データにおいて撮像された対象の識別結果を出力する第２のニューラルネットワークと、を備えたニューラルネットワークであって、前記第１のニューラルネットワークが、前記第１の画像データの入力を受け付ける入力層と、前記第２の画像データを出力する前記入力層よりも低次元の出力層と、色チャネルごとに設定される第１の重みにより前記入力層と関連付けられるとともに前記第１の波長と前記第２の波長との関係性に基づいて予め決められた第２の重みにより前記出力層と関連付けられる前記入力層と同次元の中間層と、を有するニューラルネットワークに基づいて、前記第１の画像データの入力に応じて当該第１の画像データにおいて撮像された前記対象の識別結果が得られるように、前記第１の重みおよび前記第２のニューラルネットワークの構成を調整するための機械学習による調整を経た前記第１の重みに応じて決定された照射特性を有するように調整された光を照射する、
照明装置。
光を複数の第１の波長に分光して撮像する第１の撮像装置により取得される前記第１の波長に対応した複数の第１の色チャネルの第１の画像データと、第１の重みと、前記第１の波長と当該第１の波長よりも少ない１以上の第２の波長との関係性に基づいて予め決められた第２の重みと、を乗算することで前記第１の画像データを前記第２の波長に対応し前記第１の色チャネルの数よりも少ない１以上の第２の色チャネルの第２の画像データに縮退する数式モデルに基づいて、対象に関する前記第１の画像データに応じた前記第２の画像データと、前記対象とは異なる非対象に関する前記第１の画像データに応じた前記第２の画像データと、の差異を所定レベル以上とするような前記第１の重みを算出し、当該第１の重みに応じて、光を前記第２の波長に分光して撮像することで前記第２の画像データを取得する第２の撮像装置に取り付ける光学フィルタの光学特性、または、前記第２の撮像装置の撮像時に照明装置によって前記対象に照射する光の照射特性を決定する決定ステップと、
前記第１の画像データの入力に応じて前記第２の画像データを出力する第１のニューラルネットワークと、前記第２の画像データの入力に応じて当該第２の画像データにおいて撮像された前記対象の識別結果を出力する第２のニューラルネットワークと、を備えたニューラルネットワークであって、前記第１のニューラルネットワークが、前記第１の画像データの入力を受け付ける入力層と、前記第２の画像データを出力する前記入力層よりも低次元の出力層と、前記第１の重みにより前記入力層と関連付けられるとともに前記第２の重みにより前記出力層と関連付けられる前記入力層と同次元の中間層と、を有するニューラルネットワークに基づいて、前記第１の画像データの入力に応じて当該第１の画像データにおいて撮像された前記対象の識別結果が得られるように、前記第２のニューラルネットワークの構成を調整するための機械学習を実行する学習ステップと、
前記決定ステップにおいて決定された前記光学特性を有するように設計された前記光学フィルタが前記第２の撮像装置に取り付けられているという環境下、または、前記決定ステップにおいて決定された前記照射特性を有するように調整された光が前記照明装置によって前記対象に照射されているという環境下で前記第２の撮像装置により取得される前記第２の画像データを取得する取得ステップと、
前記取得ステップにおいて取得された前記第２の画像データを前記第２のニューラルネットワークに入力し、前記対象の識別結果の出力を取得する識別ステップと、
を備える、対象識別方法。