JP7284502B2

JP7284502B2 - 画像処理装置及び方法

Info

Publication number: JP7284502B2
Application number: JP2019110453A
Authority: JP
Inventors: ニエ・シジェ; グー・リン; 銀強鄭; いまり佐藤; アントニー・ラム; 順貴小野
Original assignee: Inter University Research Institute Corp Research Organization of Information and Systems
Current assignee: Inter University Research Institute Corp Research Organization of Information and Systems
Priority date: 2018-06-15
Filing date: 2019-06-13
Publication date: 2023-05-31
Anticipated expiration: 2039-06-13
Also published as: JP2019220176A

Description

本発明は、例えば撮像カメラなどの画像センサに用いられる、分光フィルタ等の光学フィルタの分光透過特性の設計を支援する画像処理装置及び方法に関する。

ハイパースペクトルイメージング（画像化）は、波長軸に沿った詳細な光分布を捕捉し、リモートセンシング、医療診断、産業用検出などに有益であることが示されている。例えば、外科医の目に見えない腫瘍マージンは、ハイパースペクトル画像でよりよく視覚化することができる。また、漏洩した目に見えないガスの場合は、スペクトル信号を使用しても明らかである。ハイパースペクトル画像をキャプチャする既存のデバイスのほとんどは、一空間次元に沿ってラインスリットを駆動する（プッシュブローブスキャン）か、グレースケールカメラの前で狭帯域フィルタを連続的に変化させる（フィルタスキャン）のいずれかのスキャンベースである。

特許第５４１００８８号公報特開２０１７－５２６９１０号公報特開２００１－０３４７５２号公報

B. Arad et al., "Sparse Recovery of Hyperspectral Signal from Natural RGB Images," ECCV, pp. 19-34, 2016 B. Arad et al., "Filter selection for hyperspectral estimation," ICCV, pp. 3172-3180, 2017 A. Chakrabarti et al., "Statistics of Real-World Hyperspectral Images," Proceedings of IEEE Conference on Computer Vision and Pattern recognition (CVPR), pp. 193-200, 2011 H. G. Chen et al., "Asp vision: Optically computing the first layer of convolutional neural networks using angle sensitive pixels," CVPR, June 2016 Y. Jia et al., "From RGB to spectrum for natural scenes via manifold-based mapping," ICCV, pp. 4715-4723, October 2017 J. Jiang et al., "What is the space of spectral sensitivity functions for digital color cameras," WACV, 2013 D. P. Kingma et al., "A Method for Stochastic Optimization," International Conference on Learning Representations 2015," pp. 1-15, 2015 R. M. H. Nguyen et al., "Training-based spectral reconstruction from a single RGB image," Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 8695 LNCS(PART 7): pp. 86-201, 2014 O. Ronneberger et al., "U-Net: Convolutional Networks for Biomedical Image Segmentation," Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2015 F. Yasuma et al., "Generalized assorted pixel camera: Post-capture control of resolution, dynamic range, and spectrum," IEEE Transactions on Image Processing, 19(9), pp. 2241-2253, September 2010

これらの従来技術における重要な欠点は、スキャンが遅いため、ダイナミックシーンへの適用が妨げられることである。従って、例えば、ファイバ束及びランダムもしくは規則的なアパーチャマスクを使用することにより、スキャンフリーのスナップショットハイパースペクトル装置が開発されている。しかしながら、残念なことに、これらのデバイスは空間分解能が極端に制限されているという問題点があった。

近年、ＲＧＢからスペクトラムへの再構成の研究で示されているように、単一のＲＧＢ画像からの計算ハイパースペクトル再構成法は、上記の装置の欠点を克服するために有望である（例えば、非特許文献１，５参照）しかしながら、既存のＲＧＢカメラは、３チップビームスプリットプリズム技術又はシングルチップベイヤー型フィルタレイのいずれかを使用して、人間の色知覚を模倣するように設計されている（例えば、非特許文献６参照）。従って、それらのスペクトル応答関数は、コンピュータ視覚の課題、すなわちハイパースペクトル再構成に必ずしも最適ではない。

ごく最近、非特許文献２では、カメラのスペクトル応答に対するハイパースペクトル再構成精度の依存性を確認したことが開示されている。この非特許文献２では、ブルートフォース探索とヒットアンドランの進化的最適化によって、有限集合の候補フィルタの中で最良のフィルタの組み合わせを見つけることが開示されている。

例えば特許文献１では、透明基材上に多層膜を備えた透過型の分光フィルタの作成方法が開示されており、この分光フィルタを通して観察される２つの対象物の感度特性差パターンの差が大きくなるように分光フィルタを設計することが開示されている。当該特定対象の差がフィルタを通した時に大きく観察することを目的としている。従って、ハイパースペクトル画像データを画像化する場合にどのように最適化するかについては開示も示唆もない。

また、例えば特許文献２では、複数のスペクトルフィルタアレイ素子（以下、ＳＦＡ素子という。）をまとめて配置し、スペクトル撮像データを得るための手法が開示されている。この手法では、当該複数のＳＦＣ素子に対応する特定波長にそれぞれ中心を合わされた１つ又はそれ以上のスペクトルバンド幅をフィルタして所定のスペクトル範囲をカバーするように構成し、ＳＦＡでの記録値からデコンボルーション又は非線形スパース再構成法を利用してサンプリングされていないスペクトル情報を推量することが開示されている。ここで、複数のＳＦＣ素子により、スペクトル範囲をカバーするように分光透過特性が与えられおり、スペクトル復元のためのＳＦＣ分光透過特性の最適化は行われていない。

さらに、特許文献３では、カラーフィルタリング処理された画像をカラー画像出力装置で再現するために、原画像の分光分布若しくは色彩値にカラーフィルタ処理する色再現装置が開示されている。この色再現装置は、原画像の色分解値の信号を対応する分光分布若しくは色彩値に変換する第１の変換手段と、前記分光分布若しくは色彩値にカラーフィルタ処理を行う第２の変換手段と、前記処理された分光分布若しくは色彩値をカラー画像出力装置で再現するための色分解値に変換する第３の変換手段とを具備したことを特徴としている。ここで、前記第１～第３の変換手段は、画像出力装置の種類毎に異なる複数のニューラルネットワークにより構成され、当該複数のニューラルネットワークは色分解値が既知の色票の分光分布若しくは色彩値と該色分解値の双方向の変換を行うように学習されることを特徴としている。すなわち、当該色再現装置は、色再現が最適化されるように、前記第１～第３の変換手段の複数のニューラルネットワークが学習されている。従って、画像センサの前段に配置するフィルタの分光透過特性をスペクトル復元又はクラスタリングのために分光透過特性を最適化することは行われていない。

本発明の目的は以上の問題点を解決し、スペクトル復元又はクラスタリングのために、画像センサの前段に配置するフィルタの分光透過特性を最適化することができる画像処理装置及び方法を提供することにある。ここで、本発明は特に、学習により最適化された応答関数に対応する分光透過特性を有する光学フィルタを使用して、スナップショットハイパースペクトルイメージング用のデータに基づいたマルチスペクトルカメラを構成することを目的とする。

本発明の一態様に係る画像処理装置は、
複数次元のハイパースペクトル画像データを、少なくとも１つの光学フィルタの分光透過特性に対応する応答関数を用いて、前記ハイパースペクトル画像データの次元数よりも少ない複数次元のカラー空間の画像データに変換して出力する畳み込み層をそれぞれ有する複数の第１のニューラルネットワークと、
前記複数の第１のニューラルネットワークからの画像データを、前記複数の第１のニューラルネットワークの前記光学フィルタの分光透過特性に対応する応答関数を学習するための変換データに変換して出力する第２のニューラルネットワークと、
所定の学習データを用いて、前記第１及び第２のニューラルネットワークを、前記学習データと前記変換データとの誤差が最小になるように学習することにより、前記複数の第１のニューラルネットワークの前記光学フィルタの分光透過特性に対応しかつ前記光学フィルタを形成するための応答関数を計算する制御手段とを備えたことを特徴とする。

従って、本発明に係る画像処理装置及び方法によれば、スペクトル復元のためのフィルタの分光透過特性の最適化を行うことができる。これにより、例えば撮像カメラなどの画像センサのための光学フィルタの分光透過特性の応答関数の設計を支援することができる。ここで、本発明は特に、学習により最適化された応答関数に基づく分光透過特性を有する光学フィルタを使用して、スナップショットハイパースペクトルイメージング用のデータに基づいたマルチスペクトルカメラを構成することができる。

実施形態に係る画像処理装置の構成例を示すブロック図である。図１のスペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５の構成例を示すブロック図である。変形例に係る１チップの画像処理装置のハードウェア実装部２０Ａとその周辺回路を示すブロック図である。３チャンネル３チップの場合の学習された分光透過特性の応答関数の一例を示すグラフである。２チャンネル２チップの場合の学習された分光透過特性の応答関数の一例を示すグラフである。３チャンネル１チップの場合の学習された分光透過特性の応答関数の一例を示すグラフである。１×１の畳み込みとフィルタスペクトル応答との間の類似性を示す概略図である。典型的なベイヤー型フィルタの第１例（青色フィルタ）を示す正面図である。典型的なベイヤー型フィルタの第２例（緑色フィルタ）を示す正面図である。典型的なベイヤー型フィルタの第３例（赤色フィルタ）を示す正面図である。図６Ａ～図６Ｃのストライド２の２×２フィルタを用いたときの処理例を示す概略図である。実施形態及び比較例のシミュレーション結果であって、エポック数に対する二乗平均平方根誤差（以下、ＲＳＭＥという。）の特性を示すグラフである。実施形態及び比較例のシミュレーション結果であって、各波長におけるＲＭＳＥを示す写真である。実施形態のシミュレーション結果であって、非特許文献１０のＣＡＶＥデータセットを学習データとして用いたときの分光透過特性の応答関数を示すスペクトル図である。実施形態のシミュレーション結果であって、非特許文献３のＮａｒｖａｒｄＮａｔｕｒａｌデータセットを学習データとして用いたときの分光透過特性の応答関数を示すスペクトル図である。実施形態のシミュレーション結果であって、非特許文献３のＮａｒｖｅｒｄＭｉｘｅｄデータセットを学習データとして用いたときの分光透過特性の応答関数を示すスペクトル図である。実施例に係る学習された分光透過特性の応答関数の一例を示すスペクトル図である。実施例に係る画像処理装置のハードウェア実装部２０Ｂとその周辺回路を示すブロック図である。図１２の画像センサ３３によりキャプチャされた画像の一例を示す写真である。図１２の画像センサ４３によりキャプチャされた画像の一例を示す写真である。図１２の光学フィルタ３１の分光曲線（真値及び実施例）を示すスペクトル図である。図１２の光学フィルタ４１の分光曲線（真値及び実施例）を示すスペクトル図である。図１の画像データメモリ１等に格納される画像データのデータ構造を模式的に示す図である。変形例１に係る画像処理装置の構成例を示すブロック図である。変形例２に係る画像処理装置の構成例を示すブロック図である。変形例３に係る画像処理装置の構成例を示すブロック図である。変形例２，３の実施例に係るパプリカの物体識別の画像例を示す写真画像である。変形例２，３の実施例に係るパプリカの物体識別の別の画像例を示す写真画像である。変形例２，３の実施例に係るいちごの物体識別の画像例を示す写真画像である。変形例２，３の実施例に係る本人識別の画像例を示す写真画像である。変形例２，３の実施例１に係る領域分割の第１の学習入力画像例を示す写真画像である。変形例２，３の実施例２に係る領域分割の第２の学習入力画像例を示す写真画像である。変形例２，３の実施例３に係る領域分割の第３の学習入力画像例を示す写真画像である。変形例２，３の実施例４に係る領域分割の第４の学習入力画像例を示す写真画像である。変形例２，３の実施例１に係る領域分割の第１の学習目的画像例を示す写真画像である。変形例２，３の実施例２に係る領域分割の第２の学習目的画像例を示す写真画像である。変形例２，３の実施例３に係る領域分割の第３の学習目的画像例を示す写真画像である。変形例２，３の実施例４に係る領域分割の第４の学習目的画像例を示す写真画像である。

（実施形態）
以下、本発明に係る実施形態について図面を参照して説明する。なお、以下の各実施形態において、同様の構成要素については同一の符号を付している。

１．実施形態の概要
近年、ＲＧＢイメージングからのハイパースペクトル再構成は、疎なコーディングと深い学習を経て著しい進歩を遂げている。しかしながら、ほとんど無視されている事実は、既存のＲＧＢカメラが人間の三色知覚を模倣するように調整されているため、それらのスペクトル応答はハイパースペクトル再構成に必ずしも最適ではないということである。本発明に係る実施形態では、ＲＧＢスペクトル応答を使用するのではなく、ハードウェアで実施される最適化されたカメラスペクトル応答関数と、エンドツーエンドネットワークを使用するスペクトル再構成のためのマッピングとを同時に学習することを特徴としている。これにより、本発明者らのコアアイデアは、カメラのための光学フィルタの分光透過特性に対応する応答関数が最適化され、当該光学フィルタが畳み込み層のように効果的に作用するので、標準的なニューラルネットワークを学習することによって、それらの応答関数を最適化することができるということである。

本実施形態では、空間モザイク処理を用いない３チップ構成と、ベイヤー（Ｂａｙｅｒ）形式の２×２フィルタアレイを用いた単一チップ構成を有する、２種類の設計支援されて形成されたフィルタについて説明する。実施例において、数値シミュレーションは、既存のＲＧＢカメラと比較して深層学習されたスペクトル応答の利点を検証した。さらに興味深いことには、設計プロセスの物理的制約を考慮することによって、現代のフィルムフィルタ製造技術を使用して深層学習されたスペクトル応答機能を実現することができることを示す。また、スナップショットハイパースペクトルイメージングのためのデータに基づいたマルチスペクトルカメラを構成する。

特に、最新のフィルムフィルタ製造技術により、非ネガティブかつスムーズなスペクトル応答機能を備えた画像センサを実装することができたことを示す。従って、本実施形態では、既存のフィルタからフィルタを選択するのではなく、非負関数の無限大空間における最適化されたスペクトル応答関数を直接学習する。次に、実施例では、スナップショットハイパースペクトルイメージング用のマルチスペクトルカメラを構成するためのこのデータ駆動アプローチに基づいて、学習された光学フィルタを作成した。

本実施形態における特徴は、ニューラルネットワークの畳み込み層と同様に、カメラスペクトルフィルタが効果的に作用するという観察に基づいて、深層学習技術を用いてそれらを最適化することができることである。また、高分解能のエンドツーエンドネットワークを介してスペクトル再構成のためのマッピングと最適化されたフィルタ応答関数を同時に学習する。既存のＲＧＢカメラに対するアプリケーションでは、空間モザイク処理なしの３チップセットアップと、ベイヤー形式の２×２光学フィルタアレイによるシングルチップセットアップを検討した。本発明者らは、公開されているデータセットに基づいて、数値シミュレーションを行って、既存のＲＧＢカメラに比べて深層学習されたカメラのスペクトル応答の利点を検証した。

２．関連技術文献と本実施形態の位置づけ
以下、本発明に関連する技術文献と本実施形態の位置づけについて以下に説明する。

走査型ハイパースペクトルカメラの速度のボトルネックを解決するために、ランダムに又は規則的に分布した光窓を有するファイバ及びアパーチャマスクを使用することにより、スキャンフリー装置が提案されている。しかし、このようなスナップショット装置の主な欠点は、限定された空間分解能にある。高解像度のグレースケール又はＲＧＢ画像データを使用して空間分解能を向上させるための、いくつかの融合ベースの超解像度アルゴリズムも存在する。

ハイパースペクトル画像データを直接作成するのではなく、単一のＲＧＢイメージのスペクトル分解能を高めるためのアプローチが、近年注目を集めている。ハイパースペクトル再構成における鍵は、ＲＧＢ値と高次元スペクトル信号との間のマッピングを見つけることであり、このことは、明らかに不良設定問題であり、再構成のために適切な事前設定が必要となる。例えば、非特許文献８においては、ホワイトバランシングアルゴリズムを介して照明効果を排除するために、ラジアル基底関数（ＲＢＦ）ネットワークに基づいて、照明なしのＲＧＢ値から反射率スペクトルへのマッピングを学習することが開示されている。また、同様の問題点の解決のために、制約付きスパース符号化法を用いて代表的な辞書を学習することもなされている。さらに、例えば、非特許文献１では、自然シーンのハイパースペクトル画像に焦点を当て、スパース符号化を使用したＲＧＢからスペクトルへのマッピング方法を開発している。上記のすべての研究は、市販のＲＧＢカメラからの典型的な応答関数を使用して、ＲＧＢ画像をシミュレーションしている。

最近では、非特許文献２では、ハイパースペクトル再構成の精度がフィルタ応答に依存することを認識しており、ブルートフォース検索とヒットアンドランの進化的最適化によって有限集合の候補フィルタの中で最良のフィルタの組み合わせを見つけることを試みている。

これらの従来技術文献に対して、本実施形態では、探索領域を非負の無限大の空間に拡張し、強力な深層学習技術を活用して、最適化されたフィルタ応答とスペクトル再構成マッピングを同時に学習することを特徴としている。ここで、最適化されたフィルタ応答のハードウェア実装は、ＡＳＰビジョン（例えば、非特許文献４参照）と並行して実行される。畳み込みニューラルネットワーク（ＣＮＮ）の固定された第１の畳み込み層を直接計算してエネルギー、データ帯域幅、及びＣＮＮのＦＬＯＰＳ（Ｆｌｏａｔｉｎｇ－ＰｏｉｎｔＯｐｅｒａｔｉｏｎｓＰｅｒＳｅｃｏｎｄ）を節約するカスタムＣＭＯＳ回折画像センサを使用する。しかし、ＡＳＰビジョンの場合、それらの目的は、ＣＮＮ及び人間の一次視覚野のｖ１層に共通の予め定義されたエッジフィルタリング層をハードウェアで符号化することになる。

本実施形態の目的は、ＣＮＮと深層学習フレームワークを活用してカメラのフィルタ設計を最適化するように支援することにある。ここで、特に、チャンネル数の多い高次元スペクトル画像データを低次元の色空間での表現（例えばＲＧＢ３次元）の画像データに変換するためには、色空間変換のための分光感度曲線を定義する必要があるが、本実施形態では、スペクトル復元のための分光透過特性を最適化する。

３．実施形態に係る画像処理装置の構成例
図１は実施形態に係る画像処理装置の構成例を示すブロック図である。図１において、実施形態に係る画像処理装置は、画像データメモリ１と、３個の畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃと、スイッチＳＷ１，ＳＷ２と、スペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５と、誤差演算器６と、画像データメモリ７と、ディスプレイ８と、例えばデジタル計算機などのコンピュータで構成されるコントローラ１０と、ハードウェア実装部２０とを備えて構成される。本明細書において、画像データの表記において、Ｘ×ＹはＸ個の画素×Ｙ個の画素を表し、Ｘ×Ｙ×ＺはＸ個の画素×Ｙ個の画素×Ｚ個のチャンネルを表す。

画像データメモリ１は、学習データである例えば２５６×２５６×３１のハイパースペクトル画像データを格納する。畳み込みニューラルネットワーク（ＣＮＮ）２Ａは、入力層６１と、畳み込み層（動作層）である中間層６２と、出力層６３とを備えて構成される。畳み込みニューラルネットワーク（ＣＮＮ）２Ｂは、入力層７１と、畳み込み層（動作層）である中間層７２と、出力層７３とを備えて構成される。畳み込みニューラルネットワーク（ＣＮＮ）２Ｃは、入力層８１と、畳み込み層（動作層）である中間層８２と、出力層８３とを備えて構成される。各中間層６２，７２，８２は、１×１×３１でかつストライド１のカーネルによる畳み込み演算を行う。なお、各中間層６２，７２，８２の複数の係数の初期値はランダム値であって、互いに異なるように設定される。また、ハードウェア実装部２０は、対物レンズ２１と、ビームスプリッタ２２，２３と、反射板２４と、光学フィルタ３１，４１，５１と、バンドパスフィルタ３２，４２，５２と、画像センサ３３，４３，５３とを備えて構成される。

３個の畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃから出力される画像データは３次元のカラー空間の画像データである合計２５６×２５６×３の画像データはスイッチＳＷ１を介してスペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５に出力される。また、３個の画像センサ３３，４３，５３から出力される３次元のカラー空間の画像データである合計２５６×２５６×３の画像データはスイッチＳＷ１を介して学習済みのスペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５に出力される。

図２は図１のスペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５の構成例を示すブロック図である。図２において、スペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５は、入力層１００と、縦続接続された中間層１０１～１０８，１１１～１１９と、出力層１２０とを備えて構成される。

図２において、入力層１００は、２５６×２５６×３の画像データを入力した後、６４分岐した画像データを中間層１０１に出力する。

（１）中間層１０１はダウンサンプリングを行う最大プーリング処理部と２個の畳み込み処理部を備えて構成される。中間層１０１は、それぞれ３×３のサイズでストライド３の６４個のフィルタを有し、入力される画像データに対して係数２のダウンサンプリング処理を行って、処理後の画像データを中間層１０２，１１８に出力する。
（２）中間層１０２はダウンサンプリングを行う最大プーリング処理部と２個の畳み込み処理部を備えて構成される。中間層１０２は、それぞれ３×３のサイズでストライド３の１２８個のフィルタを有し、入力される画像データに対して係数２のダウンサンプリング処理を行って、処理後の画像データを中間層１０３，１１７に出力する。
（３）中間層１０３はダウンサンプリングを行う最大プーリング処理部と２個の畳み込み処理部を備えて構成される。中間層１０３は、それぞれ３×３のサイズでストライド３の２５６個のフィルタを有し、入力される画像データに対して係数２のダウンサンプリング処理を行って、処理後の画像データを中間層１０４，１１６に出力する。
（４）中間層１０４はダウンサンプリングを行う最大プーリング処理部と２個の畳み込み処理部を備えて構成される。中間層１０４は、それぞれ３×３のサイズでストライド３の５１２個のフィルタを有し、入力される画像データに対して係数２のダウンサンプリング処理を行って、処理後の画像データを中間層１０５，１１５に出力する。
（５）中間層１０５はダウンサンプリングを行う最大プーリング処理部と２個の畳み込み処理部を備えて構成される。中間層１０５は、それぞれ３×３のサイズでストライド３の５１２個のフィルタを有し、入力される画像データに対して係数２のダウンサンプリング処理を行って、処理後の画像データを中間層１０６，１１４に出力する。
（６）中間層１０６はダウンサンプリングを行う最大プーリング処理部と２個の畳み込み処理部を備えて構成される。中間層１０６は、それぞれ３×３のサイズでストライド３の５１２個のフィルタを有し、入力される画像データに対して係数２のダウンサンプリング処理を行って、処理後の画像データを中間層１０７，１１３に出力する。
（７）中間層１０７はダウンサンプリングを行う最大プーリング処理部と２個の畳み込み処理部を備えて構成される。中間層１０７は、それぞれ３×３のサイズでストライド３の５１２個のフィルタを有し、入力される画像データに対して係数２のダウンサンプリング処理を行って、処理後の画像データを中間層１０８，１１２に出力する。
（８）中間層１０８はダウンサンプリングを行う最大プーリング処理部と２個の畳み込み処理部を備えて構成される。中間層１０８は、それぞれ３×３のサイズでストライド３の５１２個のフィルタを有し、入力される画像データに対して係数２のダウンサンプリング処理を行って、処理後の画像データを中間層１１１，１１１に出力する。

（９）中間層１１１はアップサンプリング処理部と２個の畳み込み処理部を備えて構成される。中間層１１１は、それぞれ３×３のサイズでストライド３の５１２個のフィルタを有し、入力される２つの画像データを統合した画像データに対して係数２のアップサンプリング処理を行って、処理後の画像データを中間層１１２に出力する。
（１０）中間層１１２はアップサンプリング処理部と２個の畳み込み処理部を備えて構成される。中間層１１２は、それぞれ３×３のサイズでストライド３の５１２個のフィルタを有し、入力される２つの画像データを統合した画像データに対して係数２のアップサンプリング処理を行って、処理後の画像データを中間層１１３に出力する。
（１１）中間層１１３はアップサンプリング処理部と２個の畳み込み処理部を備えて構成される。中間層１１３は、それぞれ３×３のサイズでストライド３の５１２個のフィルタを有し、入力される２つの画像データを統合した画像データに対して係数２のアップサンプリング処理を行って、処理後の画像データを中間層１１４に出力する。
（１２）中間層１１４はアップサンプリング処理部と２個の畳み込み処理部を備えて構成される。中間層１１４は、それぞれ３×３のサイズでストライド３の５１２個のフィルタを有し、入力される２つの画像データを統合した画像データに対して係数２のアップサンプリング処理を行って、処理後の画像データを中間層１１５に出力する。
（１３）中間層１１５はアップサンプリング処理部と２個の畳み込み処理部を備えて構成される。中間層１１５は、それぞれ３×３のサイズでストライド３の５１２個のフィルタを有し、入力される２つの画像データを統合した画像データに対して係数２のアップサンプリング処理を行って、処理後の画像データを中間層１１６に出力する。
（１４）中間層１１６はアップサンプリング処理部と２個の畳み込み処理部を備えて構成される。中間層１１６は、それぞれ３×３のサイズでストライド３の２５６個のフィルタを有し、入力される２つの画像データを統合した画像データに対して係数２のアップサンプリング処理を行って、処理後の画像データを中間層１１７に出力する。
（１５）中間層１１７はアップサンプリング処理部と２個の畳み込み処理部を備えて構成される。中間層１１７は、それぞれ３×３のサイズでストライド３の１２８個のフィルタを有し、入力される２つの画像データを統合した画像データに対して係数２のアップサンプリング処理を行って、処理後の画像データを中間層１１８に出力する。
（１６）中間層１１８はアップサンプリング処理部と２個の畳み込み処理部を備えて構成される。中間層１１８は、それぞれ３×３のサイズでストライド３の６４個のフィルタを有し、入力される２つの画像データを統合した画像データに対して係数２のアップサンプリング処理を行って、処理後の画像データを中間層１１９に出力する。
（１７）中間層１１９はアップサンプリング処理部と２個の畳み込み処理部を備えて構成される。中間層１１９は、それぞれ３×３のサイズでストライド３の３２個のフィルタを有し、入力される２つの画像データを統合した画像データに対して係数２のアップサンプリング処理を行って、処理後の画像データを出力層１２０に出力する。

出力層１２０は、中間層１１９から画像データを入力した後、２５６×２５６×３１の画像データをスイッチＳＷ２の接点ａを介して誤差演算器６６に出力し、また、スイッチＳＷ２の接点ｂ及び画像データメモリ７を介してディスプレイ８に出力する。

以上のように構成されたスペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５は畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃとともに学習され、学習後のスペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５は各中間層１０１～１１９の係数が固定されて、２５６×２５６×３の画像データを、２５６×２５６×３１の画像データに変換する画像変換回路として動作する。

以上のように構成された画像処理装置において、画像データメモリ１は、学習データであるハイパースペクトル画像データを格納し、当該ハイパースペクトル画像データを畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃの入力層６１，７１，８１に出力する。コントローラ１０は、図１の画像処理装置の全体を制御し、学習モードにおいて、スイッチＳＷ１，ＳＷ２を接点ａ側に切り替えて、学習データであるハイパースペクトル画像データに基づいて、畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃ及びスペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５に対して、誤差演算器６からのＲＭＳＥ値が最小となるように学習させるように制御する。学習後の畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃの変換関数に対応する分光曲線特性を有する光学フィルタ３１，４１，５１を作成して、ハードウェア実装部２０に実装する。

一方、動作モードにおいては、コントローラ１０はスイッチＳＷ１，ＳＷ２を接点ｂ側に切り替える。ハードウェア実装部２０において、撮像する物体からの反射光は、対物レンズ２１、ビームスプリッタ２２を介して光学フィルタ３１に入射し、また、ビームスプリッタ２２及び２３により反射された後、光学フィルタ４１に入射する。さらに、当該反射光はビームスプリッタ２３を通過した後、反射板２４により反射されて、光学フィルタ５１に入射する。

光学フィルタ３１からの出力光は、バンドパスフィルタ３２を介して画像センサ３３に入射し、光学フィルタ４１からの出力光は、バンドパスフィルタ４２を介して画像センサ４３に入射し、光学フィルタ５１からの出力光は、バンドパスフィルタ５２を介して画像センサ５３に入射する。ここで、バンドパスフィルタ３２，４２，５２は、ノイズ成分を除去するために、可視光のみを通過させる光学フィルタである。画像センサ３３は入射する画像光を、電気信号である例えば２５６×２５６×１の画像データに変換して出力する。画像センサ４３は入射する画像光を、電気信号である例えば２５６×２５６×１の画像データに変換して出力する。画像センサ５３は入射する画像光を、電気信号である例えば２５６×２５６×１の画像データに変換して出力する。

学習後のスペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５は各中間層１０１～１１９の係数が固定されて、２５６×２５６×３の画像データを、２５６×２５６×３１の画像データに変換してスイッチＳＷ２を介して画像データメモリ７に出力して格納する。画像データメモリ７は格納した画像データをディスプレイ８などの出力画像機器に出力する。

以上のように構成された画像処理装置において、畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃの個数はハードウェア実装部２０での画像センサ３３，４３，５３の個数に対応し、２又は４以上の複数であってもよい。

図４Ａは３チャンネル３チップの場合の学習された分光透過特性の応答関数の一例を示すグラフである。また、図４Ｂは２チャンネル２チップの場合の学習された分光透過特性の応答関数の一例を示すグラフである。さらに、図４Ｃは３チャンネル１チップの場合の学習された分光透過特性の応答関数の一例を示すグラフである。なお、図４Ｃの場合において、各畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃの中間層６２，７２，８２は、例えば２×２のサイズであってストライド２の畳み込み処理を行うように構成される。

図３は変形例に係る１チップの画像処理装置のハードウェア実装部２０Ａとその周辺回路を示すブロック図である。図３に示すように、１チップの画像処理装置のハードウェア実装部２０Ａでは、画像センサ３３の後段に、デモザイク処理を行うデモザイク処理回路９を設ける必要がある。

以上説明したように、本実施形態では、学習により最適化された応答関数に対応する分光透過特性を有する光学フィルタ３１，４１，５１を使用して、スナップショットハイパースペクトルイメージング用のデータに基づいたマルチスペクトルカメラを構成することができる。すなわち、製造販売前の学習モードでは、ハードウェア実装部２０を備えず構成してもよい。この場合において、出力層６３，７３，８３及び入力層１００を設けず、中間層６２，７２，８２の出力を中間層１０１に直接に接続してもよい。すなわち、学習モードにおける畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃとスペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５とを統合することで、１つのニューラルネットワークを構成することができる。このとき、畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃは、統合されたニューラルネットワークの初段中間層である畳み込み層となる。

また、製造販売後の動作モードでは、画像データメモリ１、畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃ、及び誤差演算器６を備えず構成してもよい。後者の場合は、マルチスペクトルカメラ装置を構成できる。

以上の実施形態に係る画像処理装置の特徴は以下の通りである。

（１）カメラスペクトル応答関数とニューラルネットワークの畳み込み層との間の対応付けを行った。すなわち、カメラのスペクトル応答は、畳み込み層のハードウェア実装と見なすことができる。
（２）畳み込み層としてのカメラ応答をシミュレーションし、スペクトル再構成ニューラルネットワークに追加することで、最適化された応答関数とハイパースペクトル再構成マッピングを同時に学習できる。
（３）最適化されたフィルタ設計のための２つの設定を提案する。
図３のデモザイク処理回路９を使用しない３チップの設定と、ベイヤー形式の２×２フィルタアレイを使用した１チップの設定がある。深層学習された応答関数が、特定のコンピュータビジョンのタスク、スペクトル再構成において標準的なＲＧＢ応答より優れていることを詳細後述するように実証できた。
（４）干渉フィルム製造技術を用いて、深層学習された分光曲線の変換応答関数に対応する分光透過特性を有する光学フィルタを形成し、スナップショットハイパースペクトル画像システムを構成することができる。

４．光学フィルタの設計及びアプリケーション
学習モードでは、スペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５に、畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃの畳み込み層を付加してエンドツーエンドネットワークを構成する。ここで、非負性及び滑らかさの制約を適切に組み込むことで、畳み込み層は効果的に、設計しようとするフィルタスペクトル応答関数として作用する。このことは、入力されるハイパースペクトル画像データを、最も適切な隠れた特徴マップ（マルチスペクトル画像）に符号化するので、後続のスペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５は元の入力ハイパースペクトル画像データを可能な限り忠実に復元することができる。この意味で、エンドツーエンドのネットワークは自動エンコーダ／デコーダを構成する。

動作モードでは、フィルム形式の光学フィルタの製造技術を用いて、深層学習された光学フィルタの応答機能を物理的に実現する。マルチチップ構成では、このカメラの出力が、学習された隠れた特徴マップに十分に近づくように、マルチスペクトルカメラを容易に構成することができる。また、前述のように、学習したフィルタアレイをシングルチップ構成で実現することもできる。

動作モードにおいて、スペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５を公知のオンラインアプリケーションで用いることもでき、この場合は、カスタマイズされたマルチスペクトルカメラを使用して画像をキャプチャし、既に学習されたスペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５にオンラインで、直接インポートしてハイパースペクトル画像を生成することができる。

光学フィルタの選択が必要とされる場合（非特許文献２）と比較して、本実施形態に係る画像処理装置は、より良い光学フィルタのために探索領域を拡張するだけでなく、再構成時間を節約することができ、オンラインでも適用可能である。スパースコードを計算する必要はないからである。また、再構成とは対照的に、設計した光学フィルタは、実際にはハイパースペクトル画像の保存スペースを節約するために原理的な損失圧縮方式を提供できる。

５．光学フィルタ設計とスペクトル復元
以下、同時のフィルタ応答設計とスペクトル再構成のためのエンドツーエンドネットワークの詳細について説明する。

５．１スペクトル再構成ネットワーク
本実施形態では、スペクトル再構成のために任意のエンドツーエンドネットワークを使用できる。スペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５は、例えば、既知のＵ－ｎｅｔ（例えば、非特許文献９参照）のアーキテクチャを適応させてスペクトル復元ネットワークを構成することができる。

これらの動作層に情報を渡すことは、必然的に高解像度入力グリッドの低レベルの細部の多くを犠牲にすることになる。従って、画像対画像アプリケーションでは、スキップ接続構造によって低レベルの情報を層間で直接共有することができる。基本的に、スキップ接続は、より深い層に情報が到達することを可能にする。この構造は、モデルが非常に深い深層学習されるモデルである場合に、消滅／爆発勾配の問題を緩和することができる。さらに、Ｕ－ｎｅｔは小さなサイズの学習データセットでもうまく機能し、これは既存のハイパースペクトルデータセットの規模が依然として限定されているため、アプリケーションに特に適している。

ところで、図１の畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃ内の中間層６２，７２，８２は例えば、２次元畳み込みＢａｔｃｈＮｏｒｍ－Ｒｅｌｕ層を用いる。畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃ及びスペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５からなるニューラルネットワークは、サイズ２５６×２５６×３の画像データを入力とし、最終的にサイズ２５６×２５６×３１の対応するスペクトル画像データを生成する。図２の中間層１０１～１０８のＣｋは、複数ｋ個のフィルタを有する１つの畳み込み層、１つの漏れＲｅＬＵ活性化層、１つのバッチ正規化層を含む畳み込みブロックを示す。各中間層１０１～１０８のＣｋの畳み込み層は、ストライド２の３３個のサイズのカーネルを有する。ここで、ダウンサンプリング係数は２で、エッジに適切なゼロパディングがある。漏れＲｅＬＵ活性化層のパラメータは０．２に設定されている。また、図２の中間層１１１～１１９のＣＤｋは、畳み込み層が逆畳み込み層に置き換えられている点を除いて、Ｃｋと同じブロックを示す。入力画像データに対するアップサンプリングも同様に２倍になる。各ブロックの後に５０％のドロップアウト率を持つドロップアウト層が追加される。アーキテクチャ全体は図２に示すように構成される。標準的なＵ－ｎｅｔと比較して、Ｕ－ｎｅｔの最後の層を３チャンネルから３１チャンネルに変更し、ロス関数をクロスエントロピーから平均二乗誤差（ＭＳＥ）に変更する。

５．２フィルタスペクトル応答の設計
図１に示すように、本実施形態の１つの重要な新規性は、カメラカラーイメージングの定式化と畳み込み層との間の対応関係を描くことにある。これにより、既存のネットワーク学習アルゴリズムとツールを使用してスペクトルイメージングパラメータを最適化することができる。簡略化のために、ＣＣＤ又はＣＭＯＳ画像センサは理想的なフラットレスポンスを一時的に有すると仮定し、実際のシステムを構成するときにこの要素に対処する。

位置（ｘ，ｙ）におけるスペクトル放射輝度Ｌ（ｘ，ｙ）が与えられると、カラーフィルタと結合された線形画像センサによる記録強度は、以下の式によって与えられる。

ここで、λは波長であり、Ｓ_ｃ（λ）はカラー光学フィルタのスペクトル応答関数である。ほとんどの商用カメラでは、赤－緑－青の三色フィルタがあり、すなわち、人間の色知覚を模倣するように（ｃ∈｛Ｒ，Ｇ，Ｂ｝）実現される。実際には、式（１）は次式のように離散的に近似することができる。

フィルタスペクトル応答関数Ｓ_ｃ（λ）は、サンプリングされた波長でのベクトルＳ_ｃ＝［Ｓ_ｃ（λ_１），Ｓ_ｃ（λ_２），…，Ｓ_ｃ（λ_Ｎ）］の形式であり、Ｎはスペクトルチャンネルの数（波長数）である。興味深いのは、式（２）は、順方向伝搬における１×１の畳み込みカーネルの畳み込み演算と同一であることである。

フィルタスペクトル応答関数Ｓ_ｃを１×１の畳み込みカーネルの重みとして考えると、１×１の畳み込みとフィルタスペクトル応答との間の類似性を示す概略図を示す図５に示すように、強度Ｉ_ｃ（ｘ，ｙ）は畳み込みの出力活性化マップとして解釈することができ、これは実際に畳み込みカーネル（カラーフィルタ）と入力（入射光）Ｌ（ｘ，ｙ）のエントリ間のドット積の演算に対応する。

この観察に従って、本実施形態では、図１に示すように、３チャンネルカメラで３つのカラーフィルタのように機能する３つの畳み込みカーネルを持つ１×１の畳み込み層（畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃの中間層６２，７２，８２）を追加した。追加した畳み込み層では、Ｎチャンネルのハイパースペクトル画像データを入力としてこのエンドツーエンドネットワークを学習する。この方法により、１×１の畳み込みカーネルの学習された重み係数から最適化されたスペクトル応答を得ることができる。

５．２．１モザイク処理なしのマルチチップ設定
市販のＲＧＢカメラの中には、マルチチップの設定を採用しているものもある。すなわち、ＣＣＤ又はＣＭＯＳ画像センサごとに、特殊な三色プリズムアセンブリを使用する別個のカラーフィルタを有することが望ましい。また、空間的なモザイク処理がなければ、シングルチップ構成のベイヤー形式のフィルタアレイアセンブリよりも色精度と画像ノイズが優れている。１つの選択肢は、図１に示すように、ビームスプリッタ２２，２３及び反射板２４とカラーの光学フィルタ３１，４１，５１を一緒に組み合わせることであり、これはマルチチャンネルカメラプロトタイプを構成するのに適している。図１のマルチチップ構成では、上述のようにフィルタスペクトル応答関数を直接得ることができることは明らかである。

５．２．２２×２のフィルタアレイを使用したシングルチップセットアップ（図３の変形例）
市販のＲＧＢカメラの大部分は、内部にＣＣＤ又はＣＭＯＳ画像センサが１つあり、２×２のベイヤー形式のカラーフィルターアレイを使用して、空間モザイク処理を使用してＲＧＢイメージをキャプチャする。フル解像度のＲＧＢ画像を得るためには、モザイク除去法が必要である。本実施形態では、この単一チップの変形例（図３）にも拡張することができる。ベイヤー配列の空間的構成に基づいて、３つの独立したチャンネルを持つ２×２のフィルタアレイを検討し、エンドツーエンドのネットワークを介してスペクトル応答関数を設計する。

図６Ａは典型的なベイヤー型フィルタの第１例（青色フィルタ）を示す正面図である。図６Ｂは典型的なベイヤー型フィルタの第２例（緑色フィルタ）を示す正面図である。図６Ｃは典型的なベイヤー型フィルタの第３例（赤色フィルタ）を示す正面図である。図７は図６Ａ～図６Ｃのストライド２の２×２フィルタを用いたときの処理例を示す概略図である。

図６Ａ～図６Ｃに示すように、ベイヤー配列のパターンでは、各２×２セルには、青色画素が１つ、赤色画素が１つ、緑色画素が２つしかない。図７に示すように、ストライド２の２×２の畳み込みカーネルを使って直接シミュレートすることができる。これは、２×２の畳み込みカーネルを特定の位置の１×１の畳み込み処理に変換する。実施形態での実装では、赤色チャンネル及び青色チャンネルのために、畳み込みフィルタの重みの７５％を手動でゼロに固定する。緑色チャンネルの場合、重みの半分をゼロに固定するだけである。ベイヤーパターンは、同じスペクトル応答関数を共有するために２つの緑色フィルタを必要とするので、共有スペクトル応答関数を畳み込みカーネルの平均対角重みで近似する。

５．３非ネガティブでかるスムーズな応答の拘束条件
物理的制約により、フィルタ応答関数は非負である必要がある。また、既存のフィルムフィルタ製造技術では、滑らかな（スムーズな）応答曲線を高精度にしか実現することができない。従って、数値設計プロセスではこれらの制約を考慮する必要がある。

一般的な畳み込みニューラルネットワークには様々な正規化器があり、学習中に層パラメータをペナルティするように設定できる。これにより、スペクトル応答関数の非負性及び滑らかさの制約条件の実現は、それらの正規化器を利用することによって容易に実施することができる。

非負のフィルタ応答を実現するために、本発明者らは、フィルタ設計のための畳み込み層のカーネル（図１の畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃの中間層６２，７２，８２に対応する）において非負正則化器を適用して、フィルタスペクトル応答関数Ｓ_ｃ（λ）が０以上になるようにする。また、滑らかさ（スムーズ）の制約条件に関しては、Ｌ２ノルム正規化器を使用する。これは、一般的に、深層学習ネットワークの学習でオーバーフィッティングを避けるために使用される。具体的には、平滑化を制御する次式の正規化項を導入する。ここで、実験を通して、０．０２に設定されている。

本実施形態では、図１のコントローラ１０は、各フィルタの分光透過特性に対応する応答関数の関数値が０以上であって、かつ、Ｌ２ノルムのスムーズ正規化器を用いて前記各フィルタの分光透過特性に対応する応答関数の変化が所定のスムーズ値以上のスムーズであるという制約条件にもとで、畳み込みニューラルネットワーク（ＣＮＮ）２Ａ，２Ｂ，２Ｃを学習する。

６．合成データを用いた実験結果
ここでは、本実施形態に係る手法の有効性を示すために、合成データの実験を行う。本発明者らは、自然シーンと屋内シーンの両方からなるデータセットについて本手法を評価する（例えば、非特許文献１０，３参照）。

６．１学習データとパラメータ設定
いわゆる「ＣＡＶＥ」データセット（非特許文献１０）は、１０ｎｍステップで４００ｎｍから７００ｎｍまでの３１のチャンネルを持つ一般的な屋内シーンのハイパースペクトルデータセットである。各バンドは、サイズ５１２×５１２の１６ビットグレースケール画像である。いわゆる「Ｈａｒｖａｒｄ」データセット（非特許文献３）は、屋外と屋内両方のシナリオを含む実世界のハイパースペクトルデータセットである。画像データは、４２０ｎｍから７２０ｎｍまで１０ｎｍステップで取り込まれる。誤差を最小にするために、「ＨａｒｖａｒｄＮａｔｕｒａｌ」データセットという自然照明下で５０枚の画像にラベルを付ける。また、混合又は人工照明下の２７枚の画像の残りの部分を「ＨａｒｖａｒｄＭｉｘｅｄ」データセットと呼ぶ。

学習段階では、学習画像データから２５６×２５６の入力パッチデータをランダムにクロッピングすることでランダムジッタを適用する。本発明者らは、エポック数毎にバッチサイズ２及び５０の繰り返し数でニューラルネットワーク（アルゴリズム）２Ａ～２Ｃ，５を学習した。初期学習率０．００２、係数β_１＝０．５、β_２＝０．９９９のアダム最適化器（例えば、非特許文献７参照）を用いてネットワークを学習した。すべての重み係数は、平均０及び標準偏差０．０２のガウス分布から初期化された。

提案されたニューラルネットワーク（アルゴリズム）２Ａ～２Ｃは、ＮＶＩＤＩＡＧＴＸ１０８０ＧＰＵで構成されたコントローラ１０により実行された。ニューラルネットワーク５を構成するサーバー装置には、Ｉｎｔｅｌ（Ｒ）Ｃｏｒｅ（ＴＭ）ｉ７－６８００ＫＣＰＵ＠３．４０ＧＨｚと１２８ＧＢのメモリが搭載されている。ＣＡＶＥデータセット（非特許文献１０）、ＨａｒｖａｒｄＮａｔｕｒａｌａｎｄＭｉｘｅｄデータセット（非特許文献９）の学習時間はそれぞれ１．８４時間、８．８８時間、８．５２時間であった。個々の画像データからフィルタ応答関数の分光曲線スペクトルを再構成する平均時間は約５．８３秒かかった。

実験を通して、本発明者らは評価指標として二乗平均平方根誤差（ＲＭＳＥ）を選択し、図１に示すように、ＲＭＳＥの誤差演算器６を用いた。各データセットについて、すべてのテストデータのハイパースペクトル画像データを再構成し、再構成されたハイパースペクトル画像データと、真値との間のＲＭＳＥの平均及び分散を計算した。一貫性のために、本発明者らはすべての分光曲線スペクトルを［０，２５５］の範囲に再スケーリングした。

５．２３チャンネルマルチチップ設定の結果
まず、前述したマルチチップの設定を評価する。ここでは、図１の３つの画像センサ３３，４３，５３を使用してマルチチップ・セットアップのパフォーマンスを評価した。ＣＡＶＥデータセット（非特許文献１０）のための最適スペクトル応答関数を図４Ａ～図４Ｃに示す。

次いで、ＲＭＳＥの平均と分散を表１に示し、３つのベースラインの評価方法（例えば、非特許文献１，８，５参照）と比較した。３つのベースラインの評価方法のＲＧＢ入力データは、Ｃａｎｎｏｎ６００Ｄのスペクトル応答関数から生成した。この表は、本発明者らの方法のＲＭＳＥが、３つのデータセットのスペクトル再構成における代替方法より優れていることを示している。

［表１］
ハイパースペクトルデータベースの再構成のＲＭＳＥの平均値と分散値
（非特許文献１０、５，１０）
――――――――――――――――――――――――――――――――――――――――
ＣＡＶＥＨａｒｖａｒｄＮａｔｕｒａｌＭｉｘｅｄ
（非特許文献５）（非特許文献３）（非特許文献３）
――――――――――――――――――――――――――――――――――――――――
実施形態４．４８±２．９７７．５７±４．５９８．８８±４．２５
非特許文献１８．８４±７．２３１４．８９±１３．２３９．７４±７．４５
非特許文献８１４．９１±１１．０９９．０６±９．６９１５．６１±８．７６
非特許文献５７．９２±３．３３８．７２±７．４０９．５０±６．３２
――――――――――――――――――――――――――――――――――――――――

図９は実施形態及び比較例１（非特許文献８）及び比較例２（非特許文献１）のシミュレーション結果であって、ＣＡＶＥデータセット（非特許文献１０）からの各波長におけるサンプル結果のＲＭＳＥを示す写真である。図９に示すように、本発明者らは、７つの異なる波長で画像を示すＣＡＶＥデータセットからの回収されたハイパースペクトル画像の空間的一貫性を実証した。

図１０Ａは実施形態のシミュレーション結果であって、非特許文献１０のＣＡＶＥデータセットを学習データとして用いたときの分光透過特性の応答関数を示すスペクトル図である。図１０Ｂは実施形態のシミュレーション結果であって、非特許文献３のＮａｒｖａｒｄＮａｔｕｒａｌデータセットを学習データとして用いたときの分光透過特性の応答関数を示すスペクトル図である。図１０Ｃは実施形態のシミュレーション結果であって、非特許文献３のＮａｒｖｅｒｄＭｉｘｅｄデータセットを学習データとして用いたときの分光透過特性の応答関数を示すスペクトル図である。図１０Ａ～図１０Ｃに示すように、３つのデータセットから得られたランダムな点のスペクトルを再現して示している。

本発明者らのスペクトル応答関数の有効性を実証するために、既存のタイプのカメラによって生成されたＲＧＢ画像データに関するペクトル再構成ネットワークを学習し、テストを行った。

図８は実施形態及び比較例のシミュレーション結果であって、エポック数に対する二乗平均平方根誤差（以下、ＲＳＭＥという。）の特性を示すグラフである。図８では、ＣＡＶＥデータセット（非特許文献１０）における本発明者らの設計された既存のスペクトル応答関数の各エポックのＲＭＳＥを示しており、図８の各学習エポックのテストセットの平均ＲＭＳＥを比較した。

図８に示すように、本発明者らの方法の再構成誤差は、既存のカメラタイプに基づく他のスペクトル再構成ネットワークと比較して、エポックが増加するにつれて急速に収束する。本発明者らの方法はまた、エポック数６０で優れた性能を示す。

５．３シングルチップ設定用フィルタアレイ設計
本発明者らは、フィルタアレイの設計（セクション５．２．２）での性能を実証した。代替案と比較すると、入力画像データをベイヤー形式のパターンで符号化することによってシングルチップのデジタルカメラをシミュレーションした。その後、比較を行う前にベイヤー形式の符号化画像データをカラー画像データに変換するための標準的なデモザイク法である勾配補正線形補間を実行した。

［表２］
ＣＡＶＥデータセット（非特許文献１０）に基づいて
フィルタアレイを用いた再構成のＲＭＳＥの平均値と分散値
――――――――――――――――――――――――――――――――――
実施形態非特許文献１非特許文献８
――――――――――――――――――――――――――――――――――
４．７３±３．１２１３．２５±１３．８８１８．１３±９．３３
――――――――――――――――――――――――――――――――――

表２においては、ＣＡＶＥデータセットの３チャンネルシングルチップ設定の定量分析を示す。最適なスペクトル応答関数は１で与えられ、各スペクトル応答関数の対応する位置が図７に示されている。ベイヤー形式のパターンと同様に、緑色で着色されたスペクトル応答は、チップの５０％をカバーすることに留意されたい。本発明者らの方法は、単一チップ設定におけるモザイク除去プロセスの下で既存の方法の性能が低下するアレイ設定の下で十分な精度を維持する。

６．学習データに基づいて生成されたマルチスペクトルカメラ
本実施形態では、画像キャプチャとハイパースペクトル再構成のためのマルチスペクトルカメラの構成を目指している。本発明者らは、ＦＬＩＲ製ＧＳ３－Ｕ３－１５Ｓ５Ｍ型カメラを図１２の画像センサ３３，４３として使用して、３００ｎｍから１１００ｎｍまでのスペクトル範囲の光を集める画像を取り込んだ。紫外線（ＵＶ）と近赤外線（ＮＩＲ）の感度を遮断するために、可視光のみを通過するバンドパスフィルタ３２，４２をそれぞれ、各光学フィルタ３１，４１と、各画像センサ３３，４３のカメラレンズとの間に追加した。マルチ画像センサの設定はフィルタアレイより簡単に実装できるので、セクション６．２に示すように設計作業を行った。

ＣＡＶＥデータセット（非特許文献１０）で評価すると、２チャンネル最適化フィルタの平均ＲＭＳＥは５．７６であり、３チャンネル設定４．４８よりもわずかに高い。両方の結果は、３チャンネル入力に基づく代替アルゴリズムよりもずっと優れていることに注意されたい。

図１１は実施例に係る学習された分光透過特性の応答関数の一例を示すスペクトル図である。図１２は実施例に係る画像処理装置のハードウェア実装部２０Ｂとその周辺回路を示すブロック図である。図１２において、ハードウェア実装部２０Ｂは上述のように、２つの画像センサ３３，４３で構成される。

図１２の光学フィルタ３１，４１のカスタマイズには高コストなため、ここでは、図１１に応答関数を示す２つのチャンネルの場合に設計されたフィルタを実現することを選択した。本発明者らは、設計されたフィルタ応答関数を正確に実装するために、ある有力な光学企業に協力を求めて実現されたフィルム光学フィルタ３１，４１は、５０ｍｍ×５０ｍｍ×１ｍｍのサイズを有する。測定されたスペクトル応答関数を図１１に示す（実線は設計された応答を示し、円は実際に測定された応答を示す）。フィルム光学フィルタ３１，４１は、複数の薄いＳｉＯ_２層及びＮｂ_２Ｏ_５層からなる干渉フィルタである。薄層境界での入射光と反射光との間の干渉効果により、設計されたフィルム光学フィルタ３１，４１は、本発明者らの設計に非常に近いスペクトル応答関数を与える。本発明者らは５０－５０のビームスプリッタ２２を使用して同軸バイスペクトルカメラを備えたハードウェア実装部２０Ｂ（図１２）を構成し、図１２に示すように、２台のＦＬＩＲ製ＧＳ３－Ｕ３－１５Ｓ５Ｍ型カメラを画像センサ３３，４３として適切に位置合わせした。

図１３Ａは図１２の画像センサ３３によりキャプチャされた画像の一例を示す写真である。図１３Ｂは図１２の画像センサ４３によりキャプチャされた画像の一例を示す写真である。図１４Ａは図１２の光学フィルタ３１の分光曲線（真値及び実施例）を示すスペクトル図である。図１４Ｂは図１２の光学フィルタ４１の分光曲線（真値及び実施例）を示すスペクトル図である。

図１３Ａ及び図１３Ｂに、２つの光学フィルタ３１，４１で取り込まれたサンプル画像を示す。本発明者らはまた、真値と比較して、再構成された分光曲線スペクトルを図１４Ａ及び図１４Ｂに示す。図１４Ａ及び図１４Ｂから明らかなように、以前のシミュレーション結果と一致して、再構成はかなり正確である。

８．結論
以上説明したように、本実施形態によれば、深層学習手法を用いて非負の無限大空間におけるフィルタ応答関数を学習する方法を示した。Ｕ－ｎｅｔベースの再構成ネットワークに特殊な畳み込み層を追加し、３つの独立した光学フィルタと、ベイヤー型２×２のフィルタアレイの形式で、標準のＲＧＢ応答より優れた応答関数を精度良く発見して実現した。実際のマルチスペクトルカメラを構成するために、本発明者らはまた、ＣＣＤカメラの応答を設計プロセスに組み込んだ。本発明者らは、２つの光学フィルタをうまく設計／実装し、スナップショットハイパースペクトル画像データに基づいたバイスペクトルカメラを構成した。

上述のように、適切なデータセットが与えられれば、深く学んだ反応は、人間の目の色合わせ機能に最終的に収束するはずであると推定した。なぜなら、後者は進化の長い歴史の中で「最適化」されていたからである。しかし、現在の実験では、学習されたフィルタ応答関数は、学習データセットごとに大きく異なる可能性があることがわかった。

他の変形例
以上の実施形態では、ニューラルネットワークを、入力層に入力する画像データと、出力層から出力する画像データとが同一のハイパースペクトル画像データを用いて学習しているが、本発明はこれに限らず、後者を識別結果の画像データ（各カラーチャンネルが一つ一つの識別対象の抽出結果を示す）としてもよく、この場合、図１の装置において識別に最適化したフィルタの分光透過特性に対応する応答関数を得ることができる。

また、以上の実施形態では、単一チップ構成を有するフィルタアレイにおける各チャンネルに対応したフィルタの配置をベイヤー形式として説明したが、各チャンネルに対応したフィルタを単一チップに対応するよう適切に配置できればベイヤー形式に限定されず、例えば非周期的な配列など、所定の画素数のブロックを一単位とした任意の配置であってよい。

また、配置も最適化するように機械学習させる場合であっても、本発明は同様に適用することができる。

なお、学習時及び復元時においても、画像センサ３３，４３，５３の分光感度特性を考慮して学習又は復元している。

（実施形態の補足）
図１５は図１の画像データメモリ１に格納される画像データのデータ構造を模式的に示す図である。図１５の全面の四角は、画像表面の各画素に対応し、複数の画素が幅ｗ方向（水平方向）及び高さｈ方向（垂直方法）に並置されている。ここで、幅ｗ方向の位置と、高さｈ方向の位置で、画素位置が決定される。そして、図１５の奥行ｃ方向は複数のチャンネル（複数の波長に対応する）に対応する。従って、各画素は以下のデータフォーマットを有する。

（ｗ，ｈ，ｃｈａｎｎｅｌ１，ｃｈａｎｎｅｌ２，…，ｃｈａｎｎｅ３１）

ここで、例えば２５６×２５６×３１の画像データのとき、各値は、ｗ、ｈ、各ｃｈａｎｎｅｌとも、０～２５５をとる。なお、画像データとして、圧縮形式や付随情報（撮影日時等）もある場合もあるが、本実施形態としては、圧縮なし、付随情報なし、上記のようなデータが得られるように画像センサ３３，４３，５３を設定して、上記データフォーマットのデータを「画像データ」として画像データメモリ１に格納する。

以下の変形例１～４においては、クラスタリング処理を実行する画像処理装置について以下に説明する。ここで、当該クラスタリングは、物体識別、産地識別、本人識別、個人認証、又は領域分割を含む。

（変形例１）
図１６は変形例１に係る画像処理装置の構成例を示すブロック図である。図１６の画像処理装置は、図１の画像処理装置に比較して、以下の点が異なる。
（１）３個の光学フィルタ３１，４１，５１を単一の光学フィルタ３１Ａで構成し、対物レンズ２１の前段に設けた。この場合のハードウェア実装部に符号２０Ｃを付す。
（２）単一の光学フィルタ３１Ａのみで構成したので、当該光学フィルタ３１Ａに対応する１個の畳み込みニューラルネットワーク（ＣＮＮ）２Ａのみを備える。

以上のように構成された画像処理装置では、例えば３ＣＣＤを用いて、単一の光学フィルタ３１Ａのみで分光画像を生成することができる。また、形成された光学フィルタ３１Ａは当該処理に対して最適化された好適な光学フィルタとなる。

なお、ベイヤー型ＣＣＤなどの場合において、１枚のＣＣＤに各色のＣＣＤが配置された構成の場合、図１及び図１６におけるビームスプリッタ２２，２３、反射板２４を削除することができる。これについては、変形例３も同様である。

（変形例２）
図１７は変形例２に係る、例えば物体識別等のクラスタリングのための画像処理装置の構成例を示すブロック図である。図１７の画像処理装置は、図１の画像処理装置に比較して以下の点が異なる。
（１）画像データメモリ１に代えて、学習入力画像データを格納する画像データメモリ１Ａを備える。
（２）学習目的画像データを格納する画像データメモリ１Ｂをさらに備え、学習目的画像データを誤差演算器６に入力する。すなわち、学習モード時において、これらの学習入力画像データ及び学習目的画像データを用いて、畳み込みニューラルネットワーク（ＣＮＮ）２Ａ～２Ｃ及びスペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５を学習させる。
（３）画像データメモリ７に代えて、画像変換テーブルメモリ７ｍを有する画像変換処理部７Ａを備える。動作モード時において、スペクトル再構成ニューラルネットワーク（ＳＲＮＮ）５から出力されるデータに対して、例えば物体識別結果を色分けするなどの画像変換処理を行ってディスプレイ８に出力して表示する。

変形例２において、画像データメモリ１Ａ、１Ｂに格納される画像データはセットとして扱われる。このため、下記のデータフォーマットに加えて、各画像データセットに対して通し番号を付与する等が必要となる。これは、コントローラ１０での制御用に使用される。ただし、学習データとしてＮＮ２Ａ～２Ｃ，５に入力させるデータは下記のデータフォーマットとなる。当該変形例では、例えば対象を２つに識別する場合。すなわち、Ｒｅａｌ／Ｆａｋｅ識別などのクラスタリング処理を実行できる。

画像データメモリ１Ａに格納される画像データのデータフォーマットは実施形態と同様であるが、画像データメモリ１Ｂに格納されるデータフォーマットは例えば、以下によって与えられる。

（ｗ，ｈ，ｃｌａｓｓ１，ｃｌａｓｓ２）

ここで、各値は、ｗ，ｈが０～２５５であり、ｃｌａｓｓ１，ｃｌａｓｓ２は、０又は１であり、例えば、Ｒｅａｌに対応する画素部分を１、Ｆａｋｅに対応する画素部分を０とする。また、対象を３つ以上に識別する場合の画像データメモリ１Ｂに格納される画像データのデータフォーマットは以下によって与えられる。

（ｗ，ｈ，ｃｌａｓｓ１，ｃｌａｓｓ２，ｃｌａｓｓ３，…）

ここで、各値は上記と同様である。

以上のように構成された画像処理装置では、例えば物体識別等のクラスタリングを実行してその結果を表示できる。

なお、上記の変形例２及び以下の変形例３において、画像データメモリ１Ｂに格納される学習目的画像データとしては、例えば赤と青等の各色で実施例として説明され、前記のｃｌａｓｓ１，ｃｌａｓｓ２に、対応する０又は１の値が挿入される。後述する実施例において、赤と青で示しているのは、説明用に分かりやすくするためであって可視化して示しており、実際に当該画像データメモリ１Ｂに格納するデータとは異なる。このことは、後述する領域分割についても同様である。

（変形例３）
図１８は変形例３に係る画像処理装置の構成例を示すブロック図である。図１８の画像処理装置は、図１７の画像処理装置に比較して、以下の点が異なる。
（１）３個の光学フィルタ３１，４１，５１を単一の光学フィルタ３１Ａで構成し、対物レンズ２１の前段に設けた。この場合のハードウェア実装部に符号２０Ｃを付す。
（２）単一の光学フィルタ３１Ａのみで構成したので、当該光学フィルタ３１Ａに対応する１個の畳み込みニューラルネットワーク（ＣＮＮ）２Ａのみを備える。

以上のように構成された画像処理装置では、例えば３ＣＣＤを用いて、単一の光学フィルタ３１Ａのみでクラスタリング処理を行うことができる。また、形成された光学フィルタ３１Ａは当該処理に対して最適化された好適な光学フィルタとなる。

（変形例２，３の実施例）
図１９は変形例２，３の実施例１に係るパプリカの物体識別の画像例を示す写真画像である。図１９の左側のパプリカはＲｅａｌ（真）のもので、右側のパプリカはＦａｋｅ（偽）のものであり、画像データメモリ１Ａに格納するとききは、左右分割して格納される。ここで、Ｒｅａｌ／Ｆａｋｅ識別を赤色／青色に対応させて物体識別（産地識別等を含む）を行うことができる。図１７及び図１８の画像データメモリ１Ａには図１９の各画像を格納する。一方、画像データメモリ１Ｂには以下の画像データが格納される。
（Ａ）左側のパプリカに対応する画素（画像中の領域）を赤で塗りつぶした画像データ。
（Ｂ）右側のパプリカに対応する画素（画像中の領域）を青で塗りつぶした画像データ（なお、背景は黒色とする）。

なお、以下の変形例２，３の実施例１～５において、画像データの各色は例示であって、本発明で限定されるものではない。

画像変換処理部７Ａの画像変換テーブルメモリ７ｍに格納される画像変換テーブルは、赤の画素については、Ｒｅａｌ（真）に変換する一方、青の画素については、Ｆａｋｅ（偽）に変換する。これにより、ディスプレイ８には、物体識別結果を示す画像内で、Ｒｅａｌ（真）又はＦａｋｅ（偽）に変換されて表示される。

図２０は変形例２，３の実施例２に係るパプリカの物体識別の別の画像例を示す写真画像である。この画像例では、Ｒｅａｌ／Ｆａｋｅ識別を赤色／青色に対応させる例を示す。画像データメモリ１Ａに格納される画像を図２０に示す。画像データメモリ１Ｂには以下の画像が格納される。
（Ａ）上段の３つのパプリカそれぞれに対応する画素（画像中の領域）を赤で塗りつぶし他画像データ。
（Ｂ）下段の３つのパプリカそれぞれに対応する画素（画像中の領域）を青で塗りつぶした画像データ（なお、背景は黒とする。）

画像変換処理部７Ａの画像変換テーブルメモリ７ｍに格納される画像変換テーブルは、
赤の画素については、Ｒｅａｌ（真）に変換する一方、青の画素については、Ｆａｋｅ（）に変換する。これにより、ディスプレイ８には、物体識別結果を示す画像内で、Ｒｅａｌ（真）又はＦａｋｅ（偽）に変換されて表示される。

図２１は変形例２，３の実施例３に係るいちごの物体識別の画像例を示す写真画像である。図２１の画像例は、Ｒｅａｌ／Ｆａｋｅ識別を赤色／青色に対応させる例を示す。画像データメモリ１Ａには図２１の画像の画像データが格納される。また、画像データメモリ１Ｂには以下の画像データが格納される。
（Ａ）左側の３つのイチゴそれぞれに対応する画素（画像中の領域）を赤で塗りつぶした画像データ。
（Ｂ）右側の３つのイチゴそれぞれに対応する画素（画像中の領域）を青で塗りつぶした画像データ（なお、背景は黒とする）。

図２２は変形例２，３の実施例４に係る本人識別の画像例を示す写真画像である。図２２は、Ｒｅａｌ／Ｆａｋｅ識別を赤色／青色に対応させる例を示す。画像データメモリ１Ａに格納される画像データは図２２に示す。画像データメモリ１Ｂには以下の画像データが格納される。
（Ａ）右側の本人に対応する画素（画像中の領域）を赤で塗りつぶした画像データ。
（Ｂ）左側の写真における本人部分に対応する画素（画像中の領域）を青で塗りつぶした画像データ（なお、背景は黒とする）。

図２２の変形例２，３の実施例４のさらなる変形例として、図２２の画像を、認証したい人物と、他の人物、とすることにより、個人認証にも応用可能である。認証したい人物の場合、赤の画像が出力され、「Ｒｅａｌ（本人）」と認証される。多数の学習用画像データを準備し、人物ごとに異なる色を割り当てると、多数の人物について認証が可能となる。

図２３Ａは変形例２，３の実施例５に係る領域分割の第１の学習入力画像例を示す写真画像である。図２４Ａは変形例２，３の実施例５に係る領域分割の第１の学習目的画像例を示す写真画像である。図２４Ａは図２３Ａの学習目的画像である。

図２３Ｂは変形例２，３の実施例５に係る領域分割の第２の学習入力画像例を示す写真画像である。図２４Ｂは変形例２，３の実施例に係る領域分割の第２の学習目的画像例を示す写真画像である。図２４Ｂは図２３Ｂの学習目的画像である。

図２３Ｃは変形例２，３の実施例５に係る領域分割の第３の学習入力画像例を示す写真画像である。図２４Ｃは変形例２，３の実施例に係る領域分割の第３の学習目的画像例を示す写真画像である。図２４Ｃは図２３Ｃの学習目的画像である。

図２３Ｄは変形例２，３の実施例５に係る領域分割の第４の学習入力画像例を示す写真画像である。図２４Ｄは変形例２，３の実施例に係る領域分割の第４の学習目的画像例を示す写真画像である。図２４Ｄは図２３Ｄの学習目的画像である。

変形例２，３の実施例５では、図１７又は図１８の画像処理装置を用いて、実施例１～４と同様に、領域分割（セグメンテーション）処理を行うことができる。具体的には、画像データメモリ１Ａには、図２３Ａ～図２３Ｄの学習入力画像の画像データを格納し、画像データメモリ１Ｂには図２４Ａ～図２４Ｄの学習目的画像の画像データをそれぞれセットで格納した後学習し、学習して得た光学フィルタの分光透過特性を用いて光学フィルタを形成して動作させる。ただし、領域分割後の画像をそのまま出力させるときは、画像変換処理部７Ａ（画像変換テーブルメモリ７ｍを備える）は必要がない。しかし、領域分割画像において、別の情報に変換するなどの用途があるときは、所定の画像変換テーブルを格納した画像変換テーブルメモリ７ｍを備える画像変換処理部７Ａにより画像変換する必要がある。

以上の実施形態及び変形例においては、スペクトル復元（分光画像生成）又はクラスタリングについての学習及び識別処理について説明しているが、何れについても、下記例の画像データ及びデータテーブルのセットを大量に準備することが好ましい。ここで、好ましくは１０００セット以上、実験レベルでは２０～３０セットでも良好に識別できる場合もある。このため、各画像データに通し番号を付与したデータをそれぞれのメモリに格納するのが好ましく、学習時には各セット毎に学習させることとなる。また、画像データメモリ１Ａに格納される画像データは、通常のＲＧＢ又はＹＭＣＫでのカラー画像データである（分光画像生成（Ｈｙｐｅｒｓｐｅｃｔｒａｌｒｅｃｏｎｓｔｒｕｃｔｉｏｎ）の構成では例えば２５６×２５６×３１の分光画像が格納されるが、これらの変形例２～４（物体識別の構成）では分光画像データについて識別も可能だが、それに限定されない。

以上詳述したように、本発明に係る画像処理装置及び方法によれば、スペクトル復元のための分光透過特性の最適化を行うことができる。これにより、例えば撮像カメラなどの画像センサのための光学フィルタの分光透過特性の応答関数の設計を支援することができる。

１，１Ａ，１Ｂ画像データメモリ
２Ａ，２Ｂ，２Ｃ畳み込みニューラルネットワーク（ＣＮＮ）
５スペクトル再構成ニューラルネットワーク（ＳＲＮＮ）
６誤差演算器
７画像データメモリ
７Ａ画像変換処理部
７ｍ画像変換テーブルメモリ
８ディスプレイ
９デモザイク処理回路
１０コントローラ
２０，２０Ａ，２０Ｂ，２０Ｃハードウェア実装部
２１対物レンズ
２２，２３ビームスプリッタ
２４反射板
３１，４１，５１，３１Ａ光学フィルタ
３２，４２，５２バンドパスフィルタ
３３，４３，５３画像センサ
６１，７１，８１入力層
６２，７２，８２中間層
６３，７３，８３出力層
１００入力層
１０１～１１９中間層
１２０出力層
ＳＷ１，ＳＷ２スイッチ

Claims

複数次元のハイパースペクトル画像データを、少なくとも１つの光学フィルタの分光透過特性に対応する応答関数を用いて、前記ハイパースペクトル画像データの次元数よりも少ない複数次元のカラー空間の画像データに変換して出力する畳み込み層をそれぞれ有する複数の第１のニューラルネットワークと、
前記複数の第１のニューラルネットワークからの画像データを、前記複数の第１のニューラルネットワークの前記光学フィルタの分光透過特性に対応する応答関数を学習するための変換データに変換して出力する第２のニューラルネットワークと、
所定の学習データを用いて、前記第１及び第２のニューラルネットワークを、前記学習データと前記変換データとの誤差が最小になるように学習することにより、前記複数の第１のニューラルネットワークの前記光学フィルタの分光透過特性に対応しかつ前記光学フィルタを形成するための応答関数を計算する制御手段とを備えたことを特徴とする画像処理装置。
前記変換データは、複数次元のハイパースペクトル画像データであり、
前記学習データは、所定の複数次元のハイパースペクトル画像データであることを特徴とする請求項１記載の画像処理装置。
前記変換データは、前記複数の第１のニューラルネットワークからの画像データをクラスタリングしたクラスタリング結果データであり、
前記学習データは、前記クラスタリング結果データに対応し、前記クラスタリングを学習するための学習データであることを特徴とする請求項１記載の画像処理装置。
前記クラスタリングは、物体識別、産地識別、本人識別、個人認証、又は領域分割を含むことを特徴とする請求項３記載の画像処理装置。
前記第２のニューラルネットワークは、複数の畳み込み層と、複数の逆畳み込み層とを縦続接続して構成されたことを特徴とする請求項１～４のうちのいずれか１つに記載の画像処理装置。
前記制御手段は、前記光学フィルタの分光透過特性に対応する応答関数の関数値が０以上であって、かつ、Ｌ２ノルムのスムーズ正規化器を用いて前記光学フィルタの分光透過特性に対応する応答関数の変化が所定のスムーズ値以上のスムーズであるという制約条件にもとで、前記複数の第１のニューラルネットワークを学習することを特徴とする請求項１～５のうちのいずれか１つに記載の画像処理装置。
前記画像処理装置は複数の光学フィルタを備え、
前記画像処理装置は、前記計算された複数の光学フィルタの分光透過特性に対応する応答関数を有するように構成した複数の光学フィルタをそれぞれ前段に設けた複数の画像センサをさらに備え、
前記複数の画像センサは、撮像する画像光を前記各光学フィルタを介して受光して出力する画像データを、前記学習された第２のニューラルネットワークに入力し、
前記第２のニューラルネットワークから出力されるハイパースペクトル画像データを、前記撮像する画像光のハイパースペクトル画像データとして出力することを特徴とする請求項１～６のうちのいずれか１つに記載の画像処理装置。
前記画像処理装置は複数の光学フィルタを備え、
前記画像処理装置は、前記計算された複数の光学フィルタの分光透過特性に対応する応答関数を有するように構成した複数の光学フィルタを前段に設けた単一の画像センサをさらに備え、
前記単一の画像センサは、撮像する画像光を前記複数の光学フィルタを介して受光して出力する画像データを、前記学習された第２のニューラルネットワークに入力し、
前記第２のニューラルネットワークから出力されるハイパースペクトル画像データを、前記撮像する画像光のハイパースペクトル画像データとして出力することを特徴とする請求項１～６のうちのいずれか１つに記載の画像処理装置。
前記画像処理装置は、前記計算された単一の光学フィルタの分光透過特性に対応する応答関数を有するように構成した単一の光学フィルタを前段に設けた複数の画像センサをさらに備え、
前記複数の画像センサは、撮像する画像光を前記単一の光学フィルタを介して受光して出力する画像データを、前記学習された第２のニューラルネットワークに入力し、
前記第２のニューラルネットワークから出力されるハイパースペクトル画像データを、前記撮像する画像光のハイパースペクトル画像データとして出力することを特徴とする請求項１～６のうちのいずれか１つに記載の画像処理装置。
複数次元のハイパースペクトル画像データを、少なくとも１つの光学フィルタの分光透過特性に対応する応答関数を用いて複数次元のカラー空間の画像データに変換して出力する畳み込み層をそれぞれ有する複数の第１のニューラルネットワークと、
前記複数の第１のニューラルネットワークからの画像データを、前記複数の第１のニューラルネットワークの前記光学フィルタの分光透過特性に対応する応答関数を学習するための変換データに変換して出力する第２のニューラルネットワークとを備えた画像処理装置のための画像処理方法であって、
制御手段が、所定の学習データを用いて、前記第１及び第２のニューラルネットワークを、前記学習データと前記変換データとの誤差が最小になるように学習することにより、前記複数の第１のニューラルネットワークの前記光学フィルタの分光透過特性に対応しかつ前記光学フィルタを形成するための応答関数を計算するステップを含むことを特徴とする画像処理方法。
前記変換データは、複数次元のハイパースペクトル画像データであり、
前記学習データは、所定の複数次元のハイパースペクトル画像データであることを特徴とする請求項１０記載の画像処理方法。
前記変換データは、前記複数の第１のニューラルネットワークからの画像データをクラスタリングしたクラスタリング結果データであり、
前記学習データは、前記クラスタリング結果データに対応し、前記クラスタリングを学習するための学習データであることを特徴とする請求項１０記載の画像処理方法。
前記クラスタリングは、物体識別、産地識別、本人識別、個人認証、又は領域分割を含むことを特徴とする請求項１２記載の画像処理方法。
前記制御手段が、前記光学フィルタの分光透過特性に対応する応答関数の関数値が０以上であって、かつ、Ｌ２ノルムのスムーズ正規化器を用いて前記光学フィルタの分光透過特性に対応する応答関数の変化が所定のスムーズ値以上のスムーズであるという制約条件にもとで、前記複数の第１のニューラルネットワークを学習するステップをさらに含むことを特徴とする請求項１０～１３のうちのいずれか１つに記載の画像処理方法。
前記画像処理装置は、前記計算された少なくとも１つの光学フィルタの分光透過特性に対応する応答関数を有するように構成した光学フィルタを前段に設けた少なくとも１つの画像センサをさらに備え、
前記少なくとも１つの画像センサが、撮像する画像光を前記光学フィルタを介して受光して出力する画像データを、前記学習された第２のニューラルネットワークに入力するステップと、
前記制御手段が、前記第２のニューラルネットワークから出力されるハイパースペクトル画像データを、前記撮像する画像光のハイパースペクトル画像データとして出力するステップとを含むことを特徴とする請求項１０～１４のうちのいずれか１つに記載の画像処理方法。
複数次元のハイパースペクトル画像データを、少なくとも１つの光学フィルタの分光透過特性に対応する応答関数を用いて、前記ハイパースペクトル画像データの次元数よりも少ない複数次元のカラー空間の画像データに変換して出力する畳み込み層をそれぞれ有する複数の第１のニューラルネットワークと、
前記複数の第１のニューラルネットワークからの画像データを、前記複数の第１のニューラルネットワークの光学フィルタの分光透過特性に対応する応答関数を学習するための変換データに変換して出力する第２のニューラルネットワークと、
所定の学習データを用いて、前記第１及び第２のニューラルネットワークを、前記学習データと前記変換データとの誤差が最小になるように学習することにより、前記複数の第１のニューラルネットワークの光学フィルタの分光透過特性に対応しかつ前記光学フィルタを形成するための応答関数を計算する制御手段とを備える画像処理装置のための画像センサ装置であって、
前記計算された少なくとも１つの光学フィルタの分光透過特性に対応する応答関数を有するように構成した光学フィルタが前段に設けられた少なくとも１つの画像センサを備え、
前記画像センサは、撮像する画像光を前記光学フィルタを介して受光して出力する画像データを、前記学習された第２のニューラルネットワークに入力し、
前記第２のニューラルネットワークから出力されるハイパースペクトル画像データを、前記撮像する画像光のハイパースペクトル画像データとして出力することを特徴とする画像センサ装置。
複数次元のハイパースペクトル画像データを、少なくとも１つの光学フィルタの分光透過特性に対応する応答関数を用いて、前記ハイパースペクトル画像データの次元数よりも少ない複数次元のカラー空間の画像データに変換して出力する畳み込み層をそれぞれ有する複数の第１のニューラルネットワークと、
前記複数の第１のニューラルネットワークからの画像データを、前記複数の第１のニューラルネットワークの前記光学フィルタの分光透過特性に対応する応答関数を学習するための変換データに変換して出力する第２のニューラルネットワークと、
所定の学習データを用いて、前記第１及び第２のニューラルネットワークを、前記学習データと前記変換データとの誤差が最小になるように学習することにより、前記複数の第１のニューラルネットワークの前記光学フィルタの分光透過特性に対応しかつ前記光学フィルタを形成するための応答関数を計算する制御手段とを備える画像処理装置のための光学フィルタ装置であって、
撮像する画像光を前記光学フィルタを介して受光して出力する画像データを、前記学習された第２のニューラルネットワークに入力する少なくとも１つの画像センサの前段に設けられた光学フィルタであって、前記計算された光学フィルタの分光透過特性に対応する応答関数を有するように構成した少なくとも１つの光学フィルタを備えたことを特徴とする光学フィルタ装置。