JP2023077690A

JP2023077690A - 機械学習モデルを用いてクラス分類処理を実行するクラス分類装置、方法、及び、コンピュータープログラム

Info

Publication number: JP2023077690A
Application number: JP2021191064A
Authority: JP
Inventors: 秦西村; Shin Nishimura; 光倉沢; Hikaru Kurasawa
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2023-06-06
Also published as: US20230162001A1

Abstract

【課題】信頼性の高い説明情報を得ることのできる技術を提供する。【解決手段】クラス分類装置は、複数のベクトルニューロン層を有するベクトルニューラルネットワークを含む機械学習モデルを用いて被分類データのクラス分類処理を実行する。機械学習モデルは、入力層と、中間層と、中間層から分岐する第１出力層及び第２出力層と、を有し、第１出力層は、第１活性化関数を使用するように構成されており、前記第２出力層は、第１活性化関数と異なる第２活性化関数を使用するように構成されている。【選択図】図３

Description

本開示は、機械学習モデルを用いてクラス分類処理を実行するクラス分類装置、方法、及び、コンピュータープログラムに関する。

特許文献１，２には、ベクトルニューロンを用いるベクトルニューラルネットワーク型の機械学習モデルとして、カプセルネットワークと呼ばれるものが開示されている。ベクトルニューロンとは、入出力がベクトルであるニューロンを意味する。カプセルネットワークは、カプセルと呼ばれるベクトルニューロンをネットワークのノードとする機械学習モデルである。カプセルネットワークなどのベクトルニューラルネットワーク型の機械学習モデルは、入力データのクラス分類に利用することができる。

米国特許第５２１０７９８号公報国際公開２０１９／０８３５５３号公報

しかしながら、従来技術では、機械学習モデルからクラス分類の結果は出力されるものの、出力されたクラスの分類根拠が不明であり、特に、信頼性の高い分類根拠を知ることは困難である。

本開示の第１の形態によれば、複数のベクトルニューロン層を有するベクトルニューラルネットワークを含む機械学習モデルを用いて被分類データのクラス分類処理を実行するクラス分類装置が提供される。前記機械学習モデルは、入力層と、中間層と、前記中間層から分岐する第１出力層及び第２出力層と、を有し、前記第１出力層は、第１活性化関数を使用するように構成されており、前記第２出力層は、前記第１活性化関数と異なる第２活性化関数を使用するように構成されている。

本開示の第２の形態によれば、複数のベクトルニューロン層を有するベクトルニューラルネットワークを含む機械学習モデルを用いて被分類データのクラス分類処理を実行する方法が提供される。この方法は、（ａ）前記機械学習モデルをメモリーから読み出す工程であって、前記機械学習モデルは、入力層と、中間層と、前記中間層から分岐する第１出力層及び第２出力層と、を有し、前記第１出力層は、第１活性化関数を使用するように構成されており、前記第２出力層は、前記第１活性化関数と異なる第２活性化関数を使用するように構成されている、工程と、（ｂ）前記機械学習モデルに複数の教師データが入力されたときに前記第２出力層の出力から得られた既知特徴スペクトル群を前記メモリーから読み出す工程と、（ｃ）前記機械学習モデルを用いて、前記被分類データの該当クラスを決定する工程と、を含む。前記工程（ｃ）は、（ｃ１）前記機械学習モデルに前記被分類データが入力されたときに前記第２出力層の出力から得られる特徴スペクトルと、前記既知特徴スペクトル群との類似度を演算し、前記類似度を、前記被分類データのクラス分類における説明情報として作成する工程と、（ｃ２）前記第１出力層の出力と、前記第２出力層の出力と、前記類似度と、のいずれかに応じて、前記被分類データの前記該当クラスを決定する工程と、（ｃ３）前記被分類データの前記該当クラスと、前記説明情報とを表示する工程と、を含む。

本開示の第３の形態によれば、複数のベクトルニューロン層を有するベクトルニューラルネットワークを含む機械学習モデルを用いて被分類データのクラス分類処理をプロセッサーに実行させるコンピュータープログラムが提供される。このコンピュータープログラムは、（ａ）前記機械学習モデルをメモリーから読み出す処理であって、前記機械学習モデルは、入力層と、中間層と、前記中間層から分岐する第１出力層及び第２出力層と、を有し、前記第１出力層は、第１活性化関数を使用するように構成されており、前記第２出力層は、前記第１活性化関数と異なる第２活性化関数を使用するように構成されている、処理と、（ｂ）前記機械学習モデルに複数の教師データが入力されたときに前記第２出力層の出力から得られた既知特徴スペクトル群を前記メモリーから読み出す処理と、（ｃ）前記機械学習モデルを用いて、前記被分類データの該当クラスを決定する処理と、を前記プロセッサーに実行させる。前記処理（ｃ）は、（ｃ１）前記機械学習モデルに前記被分類データが入力されたときに前記第２出力層の出力から得られる特徴スペクトルと、前記既知特徴スペクトル群との類似度を演算し、前記類似度を、前記被分類データのクラス分類における説明情報として作成する処理と、（ｃ２）前記第１出力層の出力と、前記第２出力層の出力と、前記類似度と、のいずれかに応じて、前記被分類データの前記該当クラスを決定する処理と、（ｃ３）前記被分類データの前記該当クラスと、前記説明情報とを表示する処理と、を含む。

実施形態におけるクラス分類システムを示すブロック図。機械学習モデルの構成を示す説明図。機械学習モデルの分岐出力層以外の層の構成を示す説明図。準備工程の処理手順を示すフローチャート。ステップＳ１２０においてパラメーターが調整される層を示す説明図。ステップＳ１３０においてパラメーターが調整される層を示す説明図。特徴スペクトルを示す説明図。既知特徴スペクトル群の構成を示す説明図。クラス分類工程の処理手順を示すフローチャート。クラス分類の結果表示の一例を示す説明図。クラス分類の結果表示の他の例を示す説明図。分岐出力層の有無による未知検出率を比較して示す説明図。未知検出率の計算方法を示す説明図。

Ａ．実施形態：
図１は、実施形態におけるクラス分類システムを示すブロック図である。このクラス分類システムは、情報処理装置１００と、カメラ４００とを備える。カメラ４００は、検査対象品の画像を撮影するためのものである。カメラ４００としては、カラー画像を撮影するカメラを用いても良く、或いは、モノクロ画像や分光画像を撮影するカメラを用いても良い。本実施形態では、カメラ４００で撮影された画像を教師データや被分類データとして使用するが、画像以外のデータを教師データや被分類データとして使用してもよい。この場合には、カメラ４００の代わりに、データの種類に応じた被分類データ取得装置が使用される。

情報処理装置１００は、プロセッサー１１０と、メモリー１２０と、インターフェイス回路１３０と、インターフェイス回路１３０に接続された入力デバイス１４０及び表示デバイス１５０と、を有している。インターフェイス回路１３０には、カメラ４００も接続されている。限定されないが例えば、プロセッサー１１０は、以下で詳述される処理を実行する機能を有するだけでなく、表示デバイス１５０に、当該処理によって得られるデータ、および当該処理の過程で生成されるデータを表示する機能も有する。

プロセッサー１１０は、機械学習モデルの学習を実行する学習実行部１１２、及び、被分類データのクラス分類処理を実行するクラス分類処理部１１４として機能する。クラス分類処理部１１４は、類似度演算部３１０とクラス判別部３２０とを含む。学習実行部１１２とクラス分類処理部１１４は、メモリー１２０に格納されたコンピュータープログラムをプロセッサー１１０が実行することによってそれぞれ実現される。但し、学習実行部１１２やクラス分類処理部１１４をハードウェア回路で実現してもよい。本開示のプロセッサーは、このようなハードウェア回路をも含む用語である。また、クラス分類処理を実行する１つまたは複数のプロセッサーは、ネットワークを介して接続された１つまたは複数のリモートコンピューターに含まれるプロセッサーであってもよい。

メモリー１２０には、機械学習モデル２００と、教師データ群ＴＤと、既知特徴スペクトル群ＧＫＳｐと、が格納される。機械学習モデル２００は、クラス分類処理部１１４による処理に使用される。機械学習モデル２００の構成例や動作については後述する。教師データ群ＴＤは、機械学習モデル２００の学習に使用されるラベル付きのデータの集合である。本実施形態では、教師データ群ＴＤは画像データの集合である。既知特徴スペクトル群ＧＫＳｐは、学習済みの機械学習モデル２００に教師データ群ＴＤを入力した際に得られる特徴スペクトルの集合である。特徴スペクトルについては後述する。

図２は、機械学習モデル２００の構成を示す説明図である。この機械学習モデル２００は、入力層２１０と、中間層２８０と、出力層２９０とを有している。中間層２８０は、畳み込み層２２０と、プライマリーベクトルニューロン層２３０と、第１畳み込みベクトルニューロン層２４０と、第２畳み込みベクトルニューロン層２５０と、を含む。出力層２９０は、分類ベクトルニューロン層２６０と、分岐出力層２７０とを含む。これらの２つの出力層２６０，２７０は、中間層２８０から分岐した層として構成されている。分岐出力層２７０は、プレ分岐分類ベクトルニューロン層２７１と、ポスト分岐分類ベクトルニューロン層２７２とを含む。これらの層のうち、入力層２１０が最も下位の層であり、出力層２９０が最も上位の層である。また、入力層２１０と畳み込み層２２０はスカラーニューロンで構成された層であり、他の層２３０，２４０，２５０，２６０，２７１，２７２はベクトルニューロンで構成された層である。以下の説明では、中間層２８０を構成する各層を、それぞれ「Conv層２２０」、「PrimeVN層２３０」、「ConvVN1層２４０」、「ConvVN2層２５０」と呼ぶ。また、出力層２９０を構成する各層２６０，２７１，２７２を、それぞれ「ClassVN層２６０」、「PreBranchedClassVN層２７１」、「PostBranchedClassVN層２７２」と呼ぶ。

図２の例では２つの畳み込みベクトルニューロン層２４０，２５０を用いているが、畳み込みベクトルニューロン層の数は任意であり、畳み込みベクトルニューロン層を省略してもよい。但し、１つ以上の畳み込みベクトルニューロン層を用いることが好ましい。

ClassVN層２６０は本開示の「第１出力層」に相当し、分岐出力層２７０は「第２出力層」に相当する。また、PreBranchedClassVN層２７１は「プレ層」に相当し、PostBranchedClassVN層２７２は「ポスト層」に相当する。本実施形態では、分岐出力層２７０がプレ層２７１とポスト層２７２の２層で構成されているが、これらの層２７１，２７２の間に１つ以上のベクトルニューロン層を追加してもよい。また、ポスト層２７２を省略して、分岐出力層２７０をプレ層２７１のみで構成してもよい。但し、ポスト層２７２を含むように分岐出力層２７０を構成した方が、プレ層２７１の出力から得られる説明情報の信頼性を高めることができる点で好ましい。

ClassVN層２６０からは、入力された被分類データに関して、Nm個のクラスに対する判定値Class_0～Class_Nm-1が出力される。ここで、Nmは２以上の整数であり、典型例では３以上の整数である。同様に、PostBranchedClassVN層２７２からは、Nm個のクラスに対する判定値#Class_0～#Class_Nm-1が出力される。これらの２種類の判定値Class_0～Class_Nm-1、#Class_0～#Class_Nm-1の使用方法については後述する。

図２において、ConvVN1層２４０以降のベクトルニューロン層については、活性化関数の種類がハッチングで示されている。すなわち、層２４０，２５０，２７１の活性化関数は、下記（Ａ１）式に示す線形関数であり、層２６０，２７２の活性化関数は下記（Ａ２）式に示すソフトマックス関数である。各層で使用可能な活性化関数については更に後述する。なお、活性化関数を「正規化関数」とも呼ぶ。

ここで、ａ_ｊは層内のｊ番目のニューロンにおける活性化後の出力ベクトルのノルム、ｕ_ｊは層内のｊ番目のニューロンにおける活性化前の出力ベクトル、||ｕ_ｊ||はベクトルｕ_ｊのノルム、Σ_ｋは層内のすべてのニューロンについての和を取る演算、βは任意の正の係数である。なお、層２６０，２７２の出力である判定値Class_0～Class_Nm-1，#Class_0～#Class_Nm-1はスカラー値なので、ａ_ｊがそのまま判定値として使用される。ａ_ｊを、「アクティベーション値」又は「活性化係数」と呼ぶ。

図３は、図２に示す機械学習モデル２００の各層の構成を示す説明図である。入力層２１０には、３２×３２画素のサイズの画像が入力される。入力層２１０以外の各層の構成は、以下のように記述できる。
・Conv層２２０：Conv[32,5,2]
・PrimeVN層２３０：PrimeVN[16,1,1]
・ConvVN1層２４０：ConvVN1[12,3,1]
・ConvVN2層２５０：ConvVN2[6,7,2]
・ClassVN層２６０：ClassVN[Nm,3,1]
・PreBranchedClassVN層２７１：PreBranchedClassVN[Nm,3,1]
・PostBranchedClassVN層２７２：PostBranchedClassVN[Nm,1,1]
・ベクトル次元ＶＤ：VD=16
これらの各層の記述において、括弧前の文字列はレイヤー名であり、括弧内の数字は、順に、チャンネル数、カーネルの表面サイズ、及び、ストライドである。例えば、Conv層２２０のレイヤー名は「Conv」であり、チャンネル数は３２、カーネルの表面サイズは５×５、ストライドは２である。図３では、各層の下にこれらの記述が示されている。各層の中に描かれているハッチングを付した矩形は、隣接する上位層の出力ベクトルを算出する際に使用されるカーネルの表面サイズを表している。本実施形態では、入力データが画像データなので、カーネルの表面サイズも２次元である。なお、各層の記述で用いたパラメーターの値は例示であり、任意に変更可能である。

入力層２１０とConv層２２０は、スカラーニューロンで構成された層である。他の層２３０～２６０，２７１，２７２は、ベクトルニューロンで構成された層である。ベクトルニューロンは、ベクトルを入出力とするニューロンである。上記の記述では、個々のベクトルニューロンの出力ベクトルの次元は１６で一定である。以下では、スカラーニューロン及びベクトルニューロンの上位概念として「ノード」という語句を使用する。

図３では、Conv層２２０について、ノード配列の平面座標を規定する第１軸ｘ及び第２軸ｙと、奥行きを表す第３軸ｚとが示されている。また、Conv層２２０のｘ，ｙ，ｚ方向のサイズが１４，１４，３２であることが示されている。ｘ方向のサイズとｙ方向のサイズを「解像度」と呼ぶ。ｚ方向のサイズは、チャンネル数である。これらの３つの軸ｘ，ｙ，ｚは、他の層においても各ノードの位置を示す座標軸として使用する。但し、図３では、Conv層２２０以外の層では、これらの軸ｘ，ｙ，ｚの図示が省略されている。

よく知られているように、畳み込み後の解像度Ｗ１は、次式で与えられる。
W1=Ceil{(W0-Wk+1)/S} （Ａ３）
ここで、Ｗ０は畳み込み前の解像度、Ｗｋはカーネルの表面サイズ、Ｓはストライド、Ceil｛Ｘ｝はＸの小数点以下を切り上げる演算を行う関数である。
図３に示した各層の解像度は、入力データの解像度を３２とした場合の例であり、実際の各層の解像度は入力データのサイズに応じて適宜変更される。

ClassVN層２６０は、Ｎｍ個のチャンネルを有している。一般に、Ｎｍは、機械学習モデル２００を用いて判別可能なクラスの数である。Ｎｍは、２以上の整数であり、典型例では３以上の整数である。ClassVN層２６０のＮｍ個のチャンネルからは、Ｎｍ個のクラスに対する判定値Class_0～Class_Nm-1が出力される。同様に、PostBranchedClassVN層２７２のＮｍ個のチャンネルからは、Ｎｍ個のクラスに対する判定値#Class_0～#Class_Nm-1が出力される。被分類データの該当クラスは、ClassVN層２６０から出力される判定値Class_0～Class_Nm-1と、PostBranchedClassVN層２７２から出力される判定値#Class_0～#Class_Nm-1のうちのいずれか一方を用いて決定することができる。例えば、PostBranchedClassVN層２７２の判定値#Class_0～#Class_Nm-1を用いる場合には、それらのうちで最も大きな値を有するクラスが、被分類データの該当クラスと判定される。また、判定値#Class_0～#Class_Nm-1のうちで最も大きな値が予め定められた閾値未満である場合には、被分類データのクラスが未知であると判定することも可能である。

なお、ClassVN層２６０の判定値やPostBranchedClassVN層２７２の判定値を使用する代わりに、PreBranchedClassVN層２７１の出力から算出されるクラス別の類似度を用いて被分類データの該当クラスを決定するようにしてもよい。クラス別の類似度については後述する。

図３では、更に、各層２２０，２３０，２４０，２５０，２６０，２７１，２７２における部分領域Ｒｎが描かれている。部分領域Ｒｎの添え字「ｎ」は、各層の符号である。例えば、部分領域Ｒ２２０は、Conv層２２０における部分領域を示す。「部分領域Ｒｎ」とは、各層において、第１軸ｘの位置と第２軸ｙとの位置で規定される平面位置（ｘ，ｙ）で特定され、第３軸ｚに沿った複数のチャンネルを含む領域である。部分領域Ｒｎは、第１軸ｘ、第２軸ｙ、および第３軸ｚに対応する「Ｗｉｄｔｈ」×「Ｈｅｉｇｈｔ」×「Ｄｅｐｔｈ」の次元を有する。本実施形態では、１つの「部分領域Ｒｎ」に含まれるノードの数は「１×１×デプス数」、すなわち「１×１×チャンネル数」である。

図３に示すように、PreBrachedClassVN層２７１の出力から後述する特徴スペクトルＳｐが算出されて、類似度演算部３１０に入力される。類似度演算部３１０は、この特徴スペクトルＳｐと、予め作成されていた既知特徴スペクトル群ＧＫＳｐとを用いて、後述するクラス別の類似度を算出する。

本開示において、類似度の算出に使用されるベクトルニューロン層を、「特定層」とも呼ぶ。特定層としては、PreBrachedClassVN層２７１以外のベクトルニューロン層を用いてもよく、１つ以上の任意の数のベクトルニューロン層を使用可能である。なお、特徴スペクトルの構成と、特徴スペクトルを用いた類似度の演算方法については後述する。

分岐出力層２７０の出力は、クラス分類結果に関する説明情報を作成するために使用することができる。説明情報としては、上述したクラス別の類似度以外の他の情報を用いてもよい。例えば、PreBrachedClassVN層２７１の出力ベクトルそのものを説明情報として用いることも可能である。但し、上述した類似度を用いた説明情報は、ユーザーが理解し易いという利点がある。

図４は、機械学習モデルの準備工程の処理手順を示すフローチャートである。図５は、図４のステップＳ１２０において内部パラメーターの調整が行われる層を示し、図６は、図４のステップＳ１３０において内部パラメーターの調整が行われる層を示す。

ステップＳ１１０では、ユーザーが、クラス分類処理に使用する機械学習モデルを作成し、そのパラメーターを設定する。本実施形態では、図２及び図３に示した機械学習モデル２００が作成されてそれらのパラメーターが設定される。ステップＳ１２０～Ｓ１４０は、教師データ群ＴＤを用いて機械学習モデル２００の学習を実行する工程である。個々の教師データには、予めラベルが付与されている。例えば、機械学習モデル２００は、Ｎｍ個の既知のクラスを有するので、個々の教師データには、Ｎｍ個のクラスに対応するＮｍ個のラベルのうちのいずれかが付与されている。

本実施形態では、教師データとして、０～９の数字を表す画像を使用するものと仮定する。従って、Ｎｍは１０であり、個々の教師データには、０～９のラベルのいずれかが付与される。

ステップＳ１２０では、学習実行部１１２が、教師データを用いて所定数のエポックを実行し、分岐出力層２７０以外の層の内部パラメーターを調整する。「所定数のエポック」のエポック数は、例えば、１としてもよく、或いは、１００などの複数の値としてもよい。このステップＳ１２０では、図５に示すように、層２２０，２３０，２４０，２５０，２６０の内部パラメーターが調整される。「内部パラメーター」は、畳み込み演算用のカーネルの値を含んでいる。なお、ステップＳ１２０の学習は、「所定数のエポック」以外の他の区分方法で実行してもよい。例えば、Loss関数の値が、ステップＳ１２０の実行前の値から所定割合又は所定幅低下するまで学習を実行してもよい。或いは、正解率（accuracy）の値が、ステップＳ１２０の実行前の値から所定割合又は所定幅増加するまで学習を実行してもよい。

ステップＳ１３０では、学習実行部１１２が、教師データを用いて所定数のエポックを実行し、分岐出力層２７０の内部パラメーターを調整する。ステップＳ１３０で実行されるエポック数は、前述したステップＳ１２０におけるエポック数と等しいことが好ましい。このステップＳ１３０では、図６に示すように、層２７１，２７２の内部パラメーターが調整されるが、層２２０，２３０，２４０，２５０，２６０の内部パラメーターは変更されず、そのまま維持される。

ステップＳ１４０では、学習実行部１１２が、学習が終了したか否かを判断する。この判定は、例えば、予め定められたエポック数の学習が終了したか否かに応じて実行される。学習が終了していなければステップＳ１２０に戻り、上述したステップＳ１２０，Ｓ１３０が再度実行される。学習が終了した場合には次のステップＳ１５０に進む。なお、ステップＳ１２０，Ｓ１３０で実行されるエポック数が十分に大きな場合には、ステップＳ１４０を省略して、直ちにステップＳ１５０に進むようにしてもよい。

ステップＳ１５０では、学習実行部１１２が、学習済みの機械学習モデル２００に複数の教師データを再度入力して、既知特徴スペクトル群ＧＫＳｐを生成する。既知特徴スペクトル群ＧＫＳｐは、以下で説明する特徴スペクトルの集合である。

図７は、学習済みの機械学習モデル２００に任意の入力データを入力することによって得られる特徴スペクトルＳｐを示す説明図である。ここでは、PreBranchedClassVN層２７１の出力から得られる特徴スペクトルＳｐについて説明する。図７の横軸は、PreBranchedClassVN層２７１の１つの平面位置（ｘ，ｙ）におけるノードの出力ベクトルの要素番号ＮＤと、チャンネル番号ＮＣとの組み合わせで表されるスペクトル位置である。本実施形態では、ノードのベクトル次元が１６なので、出力ベクトルの要素番号ＮＤは０から１５までの１６個である。また、PreBranchedClassVN層２７１のチャンネル数はＮｍなので、チャンネル番号ＮＣは０からＮｍ－１までのＮｍ個である。

図７の縦軸は、各スペクトル位置での特徴値Ｃ_Ｖを示す。この例では、特徴値Ｃ_Ｖは、出力ベクトルの各要素の値Ｖ_ＮＤである。なお、特徴値Ｃ_Ｖとしては、出力ベクトルの各要素の値Ｖ_ＮＤと、上述したアクティベーション値ａ_ｊとを乗算した値を使用してもよく、或いは、アクティベーション値ａ_ｊをそのまま使用してもよい。後者の場合には、特徴スペクトルＳｐに含まれる特徴値Ｃ_Ｖの数はチャンネル数に等しく、Ｎｍ個である。なお、アクティベーション値ａ_ｊは、そのノードの出力ベクトルのベクトル長さに相当する値である。

特徴スペクトルＳｐは、個々の平面位置（ｘ，ｙ）毎に求められる。１つの入力データに対してPreBranchedClassVN層２７１の出力から得られる特徴スペクトルＳｐの数は、PreBranchedClassVN層２７１の平面位置（ｘ，ｙ）の数に等しいので、１個である。

学習実行部１１２が、学習済みの機械学習モデル２００に教師データを再度入力して図７に示す特徴スペクトルＳｐを算出し、メモリー１２０の既知特徴スペクトル群ＧＫＳｐに登録する。

図８は、既知特徴スペクトル群ＧＫＳｐの構成を示す説明図である。既知特徴スペクトル群ＧＫＳｐの個々のレコードは、レコード番号と、レイヤー名と、ラベルＬｂと、既知特徴スペクトルＫＳｐと、を含んでいる。既知特徴スペクトルＫＳｐは、教師データの入力に応じて得られた図７の特徴スペクトルＳｐと同じものである。図８の例では、複数の教師データに応じたPreBranchedClassVN層２７１の出力から、個々のラベルＬｂの値に関連付けられた既知特徴スペクトルＫＳｐが生成されて登録されている。例えば、ラベルＬｂ＝０に関連付けられて#0_max個の既知特徴スペクトルＫＳｐが登録され、ラベルＬｂ＝１に関連付けられて#1_max個の既知特徴スペクトルＫＳｐが登録され、ラベルＬｂ＝Ｎｍ－１に関連付けられて#Nm-1_max個の既知特徴スペクトルＫＳｐが登録されている。#0_max，#1_max，#Nm-1_maxは、それぞれ２以上の整数である。前述したように、個々のラベルＬｂは、互いに異なる既知のクラスに対応する。従って、既知特徴スペクトル群ＧＫＳｐにおける個々の既知特徴スペクトルＫＳｐは、複数の既知のクラスのうちの１つのクラスに関連付けられて登録されていることが理解できる。

なお、ステップＳ１５０で使用される教師データは、ステップＳ１２０，Ｓ１３０で使用された複数の教師データと同じものである必要は無い。但し、ステップＳ１５０においても、ステップＳ１２０，Ｓ１３０で使用された複数の教師データの一部又は全部を利用すれば、新たな教師データを準備する必要が無いという利点がある。

図９は、学習済みの機械学習モデルを用いたクラス分類工程の処理手順を示すフローチャートである。ステップＳ２１０では、クラス分類処理部１１４が、カメラ４００を用いて検査対象品を撮影することによって、被分類データを生成する。ステップＳ２２０では、クラス分類処理部１１４が、必要に応じて被分類データに対して前処理を実行する。前処理としては、クリッピングや、解像度調整などを実行するようにしてもよい。なお、前処理は省略可能である。ステップＳ２３０では、クラス分類処理部１１４が、学習済みの機械学習モデル２００と、既知特徴スペクトル群ＧＫＳｐとをメモリー１２０から読み出す。

ステップＳ２４０では、クラス判別部３２０が、機械学習モデル２００に被分類データを入力して、被分類データの該当クラスを決定する。この決定は、例えば、ClassVN層２６０から出力される判定値Class_0～Class_Nm-1と、PostBranchedClassVN層２７２から出力される判定値#Class_0～#Class_Nm-1のうちのいずれか一方を用いて行うことができる。また、後述するように、クラス別の類似度を用いて被分類データの該当クラスを決定することも可能である。

ステップＳ２５０では、クラス分類処理部１１４が、PreBranchedClassVN層２７１の出力を用いて、図７に示した特徴スペクトルＳｐを求める。

ステップＳ２６０では、類似度演算部３１０が、ステップＳ２５０で得られた特徴スベクトルＳｐと、図８に示した既知特徴スペクトル群ＧＫＳｐとを用いて類似度を算出する。以下に説明するように、類似度としては、クラス別の類似度と、クラスを考慮しない最大類似度と、のいずれかを使用可能である。

クラス別の類似度S(class)は、例えば次式を用いて算出できる。
S(Class)=max[G{Sp,KSp(Class,k)}] （Ａ４）
ここで、”Class”はクラスに対する序数、Ｇ｛ａ，ｂ｝はａとｂの類似度を求める関数、Ｓｐは被分類データに応じて得られる特徴スペクトル、ＫＳｐ（Class,ｋ）は、特定の”Class”に関連付けられたすべての既知特徴スペクトル、ｋは既知特徴スペクトルの序数、ｍａｘ［Ｘ］はＸの最大値を取る論理演算を示す。類似度を求める関数Ｇ｛ａ，ｂ｝としては、例えば、コサイン類似度や、ユークリッド距離等の距離を用いた類似度を使用可能である。類似度S(Class)は、特徴スペクトルＳｐと、特定のクラスに対応するすべての既知特徴スペクトルＫＳｐ（Class,ｋ）のそれぞれとの間で算出された類似度のうちの最大値である。このような類似度S(Class)は、Ｎｍ個のクラスのそれぞれに対して求められる。類似度S(Class)は、被分類データが、各クラスの特徴に類似している程度を表している。この類似度S(Class)は、被分類データのクラス分類結果に関する説明情報として使用することができる。

クラスを考慮しない最大類似度S(All)は、例えば次式を用いて算出できる。
S(All)=max[G{Sp,KSp(k)}] （Ａ５）
ここで、ＫＳｐ（ｋ）は、すべての既知特徴スペクトルのうちのｋ番目のものを示す。この最大類似度S(All)は、特徴スペクトルＳｐとすべての既知特徴スペクトルＫＳｐとの間の類似度のうちの最大値である。最大類似度S(All)を与える既知特徴スペクトルＫＳｐ（ｋ）を特定できるので、図８に示す既知特徴スペクトル群ＧＫＳｐから、ラベルすなわちクラスを特定することができる。この最大類似度S(All)は、被分類データが既知データに属するか未知のデータか、というクラス分類結果を説明する説明情報として使用することができる。

なお、クラス別の類似度S(Class)は、被分類データが、各クラスの特徴に類似している程度を表しているので、クラス別の類似度S(Class)を用いて、被分類データの該当クラスを決定するようにしてもよい。例えば、或るクラスの類似度S(Class)が予め定められた閾値以上の場合には、被分類データがそのクラスに属するものと判定できる。一方、すべてのクラスに関する類似度S(Class)が閾値未満の場合には、被分類データが未知であると判定できる。また、最大類似度S(All)を用いて、被分類データの該当クラスを決定するようにしてもよい。

また、類似度のみを用いて被分類データの該当クラスを決定する代わりに、類似度と、ClassVN層２６０の判定値Class_0～Class_Nm-1又はPostBranchedClassVN層２７２の判定値#Class_0～#Class_Nm-1のうちの一方と、を用いて被分類データの該当クラスを決定するようにしてもよい。例えば、類似度から決定される該当クラスと、PostBranchedClassVN層２７２の判定値#Class_0～#Class_Nm-1から決定される該当クラスとが一致している場合に、被分類データがそのクラスに属するものと判定することができる。また、類似度から決定される該当クラスと、PostBranchedClassVN層２７２の判定値#Class_0～#Class_Nm-1から決定される該当クラスとが一致していない場合には、被分類データが未知のクラスに属するものと判定することができる。

ステップＳ２７０では、クラス分類処理部１１４が、被分類データの該当クラスと共に、類似度を説明情報として表示デバイス１５０に表示する。類似度としては、上述したクラス別の類似度S(Class)と最大類似度S(All)のいずれかを使用することが可能である。以下では、クラス別の類似度S(Class)を説明情報として使用した例を説明する。

図１０は、クラス分類の結果表示の一例を示す説明図である。結果表示ウィンドウＷＤには、被分類データＧＦの画像と、分類結果ＲＦと、説明情報ＸＦとが表示されている。この例では、分類結果ＲＦは数字の「６」である。説明情報ＸＦとしては、数字の０～９にそれぞれ対応するラベル０～９、すなわち、クラス０～９のそれぞれに対する類似度S(Class)の値が棒グラフで示されている。ラベル６に対する類似度は、他のラベルに対する類似度に比較して十分に大きいので、ユーザーは、この説明情報ＸＦから、分類結果ＲＦが信頼できるものであることが理解できる。図１０の例では、類似度を用いて該当クラスを決定する際に用いられる閾値Ｔｈも表示されている。

図１１は、クラス分類の結果表示の他の例を示す説明図である。この例では、被分類データの分類結果ＲＦは「未知」とされている。説明情報ＸＦに示されている類似度は、すべてのラベルに対して十分に小さいので、ユーザーは、この説明情報ＸＦから、「未知」という分類結果ＲＦが信頼できることが理解できる。

図１２は、分岐出力層２７０の有無による未知検出率を比較して示す説明図である。ここでは、図３に示した機械学習モデル２００から分岐出力層２７０を省略した仮想的なモデルについて、ClassVN層２６０の出力から得られる特徴スペクトルを用いた類似度を用いて未知データのクラス分類を行った場合に、正しく未知と判定される未知検出率を示している。また、分岐出力層２７０を有する機械学習モデル２００については、ClassVN層２６０とPreBranchedClassVN層２７１のそれぞれの出力から得られる特徴スペクトルを用いた類似度を用いて未知データのクラス分類を行った場合に、正しく未知と判定される未知検出率を示している。

図１３は、未知検出率の計算方法を示す説明図である。図１３の横軸は類似度であり、縦軸は頻度である。この処理では、既知クラスに属するテストデータに対して類似度の平均μと分散σを算出し、μ-2σを閾値Ｔｈとして用いている。そして、類似度が閾値Ｔｈ未満のテストデータを未知、閾値Ｔｈ以上のテストデータを既知と判定する。その際、未知クラスに属するテストデータに対して、正しく未知と判定できた割合を未知検出率として算出する。

図１２の結果から理解できるように、分岐出力層２７０を設けた機械学習モデル２００では、そのPreBranchedClassVN層２７１の出力から算出される類似度の方が、分岐出力層２７０を有さない機械学習モデルのClassVN層２６０の出力から算出される類似度に比べて、信頼性が高い。従って、分岐出力層２７０を設けることによって、より信頼性の高い説明情報を生成できる。

一般に、ソフトマックス関数は、クラス分類を行うニューラルネットワークの出力層の活性化関数に適している。但し、ソフトマックス関数は強度の差を強調して情報を圧縮する性質を持っているので、出力層における特徴スペクトルも同様に変形・圧縮してしまい、説明情報の信頼性が低下してしまう傾向がある。そこで、機械学習モデル２００の第１出力層であるClassVN層２６０の活性化関数としてソフトマックス関数を用いた場合には、PreBranchedClassVN層２７１の活性化関数としてソフトマックス関数以外の活性化関数を用いることが好ましい。こうすれば、PreBranchedClassVN層２７１の出力を用いて、信頼性の高い説明情報を作成することが可能である。また、ソフトマックス関数で差を強調して情報を圧縮するので、ソフトマックス関数を使った層の前層では、圧縮に耐えうるリッチな情報を生成する傾向にあり、逆に説明情報の信頼性が向上する傾向がみられる。そのため、分岐して第２出力層をつくることで、本来の第１出力層の前層の説明情報の信頼性を保つことができる。

上述した実施形態では、ClassVN層２６０の活性化関数としてソフトマックス関数を用い、PreBranchedClassVN層２７１の活性化関数として線形関数を用いていたが、PreBranchedClassVN層２７１は、ClassVN層２６０で使用される活性化関数と異なる活性化関数を用いるように構成されていればよく、２つの層２６０，２７１の活性化関数として他の活性化関数を使用してもよい。この場合にも、２つの層２６０，２７１のうちの一方を用いて、クラス分類結果に関する説明情報を作成することができる。他の活性化関数としては、例えば、恒等関数や、ステップ関数、シグモイド関数、tanh関数、ソフトプラス関数、ReLU、Leaky ReLU、Parametric ReLU、ELU、SELU、Swish関数、Mish関数などを使用することができる。

以上のように、本実施形態では、第１出力層であるClassVN層２６０の他に、第２出力層である分岐出力層２７０を設け、第２出力層が第１出力層と異なる活性化関数を使用するので、第１出力層と第２出力層のうちの一方を用いて、クラス分類における信頼性の高い説明情報を作成することができる。また、本実施形態では、第２出力層である分岐出力層２７０の出力から得られる特徴スペクトルと既知特徴スペクトル群とのクラス別の類似度を、信頼性の高い説明情報として利用できる。

Ｂ．機械学習モデルの各層の出力ベクトルの演算方法：
図３に示した各層の出力の演算方法は、以下の通りである。

PrimeVN層２３０の各ノードは、Conv層２２０の１×１×３２個のノードのスカラー出力を３２次元のベクトルとみなして、このベクトルに変換行列を乗ずることによってそのノードのベクトル出力を得る。この変換行列は、表面サイズが１×１のカーネルの要素であり、機械学習モデル２００の学習によって更新される。なお、Conv層２２０とPrimeVN層２３０の処理を統合して、１つのプライマリーベクトルニューロン層として構成することも可能である。

PrimeVN層２３０を「下位層Ｌ」と呼び、その上位側に隣接するConvVN1層２４０を「上位層Ｌ＋１」と呼ぶとき、上位層Ｌ＋１の各ノードの出力は、以下の式を用いて決定される。

ここで、
Ｍ^L _iは、下位層Ｌにおけるｉ番目のノードの出力ベクトル、
Ｍ^L+1 _jは、上位層Ｌ＋１におけるｊ番目のノードの出力ベクトル、
ｖ_ijは、出力ベクトルＭ^L+1 _jの予測ベクトル、
Ｗ^L _ijは、下位層Ｌの出力ベクトルＭ^L _iから予測ベクトルｖ_ijを算出するための予測行列、
ｕ_jは、予測ベクトルｖ_ijの和、すなわち線形結合、である和ベクトル、
ａ_jは、和ベクトルｕ_jのノルム|ｕ_j|を正規化することによって得られる正規化係数であるアクティベーション値、
Ｆ（Ｘ）は、Ｘを正規化する正規化関数である。

正規化関数Ｆ（Ｘ）としては、例えば以下の（Ｅ３ａ）式または（Ｅ３ｂ）式を使用できる。

ここで、
ｋは、上位層Ｌ＋１のすべてのノードに対する序数、
βは、任意の正の係数である調整パラメーターであり、例えばβ＝１である。

上記（Ｅ３ａ）式では、上位層Ｌ＋１のすべてのノードに関して和ベクトルｕ_jのノルム|ｕ_j|をソフトマックス関数で正規化することによってアクティベーション値ａ_jが得られる。一方、（Ｅ３ｂ）式では、和ベクトルｕ_jのノルム|ｕ_j|を、上位層Ｌ＋１のすべてのノードに関するノルム|ｕ_j|の和で除算することによってアクティベーション値ａ_jが得られる。（Ｅ３ａ）式及び（Ｅ３ｂ）式は、上述した（Ａ２）式及び（Ａ１）式と同じものである。なお、正規化関数Ｆ（Ｘ）としては、（Ｅ３ａ）式や（Ｅ３ｂ）式以外の他の関数を用いてもよい。

上記（Ｅ２）式の序数ｉは、上位層Ｌ＋１におけるｊ番目のノードの出力ベクトルＭ^L+1 _jを決めるために使用される下位層Ｌのノードに便宜上割り振られるものであり、１～ｎの値をとる。また、整数ｎは、上位層Ｌ＋１におけるｊ番目のノードの出力ベクトルＭ^L+1 _jを決めるために使用される下位層Ｌのノードの数である。従って、整数ｎは次式で与えられる。
n=Nk×Nc （Ｅ５）
ここで、Ｎｋはカーネルの表面サイズであり、Ｎｃは下位層であるPrimeVN層２３０のチャンネル数である。図３の例ではＮｋ＝９、Ｎｃ＝１６なので、ｎ＝１４４である。

ConvVN1層２４０の出力ベクトルを求めるために使用される１つのカーネルは、カーネルサイズ３×３を表面サイズとし、下位層のチャンネル数１６を深さとする３×３×１６＝１４４個の要素を有しており、これらの要素のそれぞれは予測行列Ｗ^L _ijである。また、ConvVN1層２４０の１２個のチャンネルの出力ベクトルを生成するためには、このカーネルが１２組必要である。従って、ConvVN1層２４０の出力ベクトルを求めるために使用されるカーネルの予測行列Ｗ^L _ijの数は、１４４×１２＝１７２８個である。これらの予測行列Ｗ^L _ijは、機械学習モデル２００の学習により更新される。

上述した（Ｅ１）～（Ｅ４）式から分かるように、上位層Ｌ＋１の個々のノードの出力ベクトルＭ^L+1 _jは、以下の演算によって求められる。
（ａ）下位層Ｌの各ノードの出力ベクトルＭ^L _iに予測行列Ｗ^L _ijを乗じて予測ベクトルｖ_ijを求め、
（ｂ）下位層Ｌの各ノードから得られた予測ベクトルｖ_ijの和、すなわち線形結合、である和ベクトルｕ_jを求め、
（ｃ）和ベクトルｕ_jのノルム|ｕ_j|を正規化することによって正規化係数であるアクティベーション値ａ_jを求め、
（ｄ）和ベクトルｕ_jをノルム|ｕ_j|で除算し、更に、アクティベーション値ａ_jを乗じる。

なお、アクティベーション値ａ_jは、上位層Ｌ＋１のすべてのノードに関してノルム|ｕ_j|を正規化することによって得られる正規化係数である。従って、アクティベーション値ａ_jは、上位層Ｌ＋１内の全ノードの中における各ノードの相対的な出力強度を示す指標と考えることができる。（Ｅ３）式，（Ｅ３ａ）式、（Ｅ３ｂ）式、及び（４）式で使用されるノルムは、典型的な例ではベクトル長さを表すＬ２ノルムである。このとき、アクティベーション値ａ_jは、出力ベクトルＭ^L+1 _jのベクトル長さに相当する。アクティベーション値ａ_jは、上述した（Ｅ３）式と（Ｅ４）式で使用されるだけなので、ノードから出力される必要は無い。但し、アクティベーション値ａ_jを外部に出力するように上位層Ｌ＋１を構成することも可能である。

ベクトルニューラルネットワークの構成は、カプセルネットワークの構成とほぼ同じであり、ベクトルニューラルネットワークのベクトルニューロンがカプセルネットワークのカプセルに相当する。但し、ベクトルニューラルネットワークで使用される上述の（Ｅ１）～（Ｅ４）式による演算は、カプセルネットワークで使用される演算と異なる。両者の最も大きな違いは、カプセルネットワークでは、上記（Ｅ２）式の右辺の予測ベクトルｖ_ijにそれぞれ重みが乗じられており、その重みが、動的ルーティングを複数回繰り返すことによって探索される点である。一方、本実施形態のベクトルニューラルネットワークでは、上述した（Ｅ１）～（Ｅ４）式を順番に１回計算することによって出力ベクトルＭ^L+1 _jが得られるので、動的ルーティングを繰り返す必要が無く、演算がより高速であるという利点がある。また、本実施形態のベクトルニューラルネットワークは、カプセルネットワークよりも演算に必要とするメモリー量がカプセルネットワークより少なく、本開示の発明者の実験によれば、約１／２～１／３のメモリー量で済むという利点もある。

ベクトルを入出力とするノードを使用するという点では、ベクトルニューラルネットワークはカプセルネットワークと同じである。従って、ベクトルニューロンを使用する利点もカプセルネットワークと共通している。また、複数の層２２０～２６０，２７０は、上位に行くほどより大きな領域の特徴を表現し、下位に行くほどより小さな領域の特徴を表現する、という点は、通常の畳み込みニューラルネットワークと同じである。ここで、「特徴」とは、ニューラルネットワークへの入力データに含まれている特徴的な部分を意味する。ベクトルニューラルネットワークやカプセルネットワークでは、或るノードの出力ベクトルが、そのノードが表現する特徴の空間的な情報を表す空間情報を含む点で、通常の畳み込みニューラルネットワークよりも優れている。すなわち、或るノードの出力ベクトルのベクトル長さは、そのノードが表現する特徴の存在確率を表し、ベクトル方向がその特徴の方向やスケール等の空間情報を表している。従って、同じ層に属する２つのノードの出力ベクトルのベクトル方向は、それぞれの特徴の位置関係を表す。あるいは、当該２つのノードの出力ベクトルのベクトル方向は、特徴のバリエーションを表わすとも言える。例えば、「目」の特徴に対応するノードなら、出力ベクトルの方向は、目の細さ、吊り上がり方、などのバリエーションを表し得る。通常の畳み込みニューラルネットワークでは、プーリング処理によって特徴の空間情報が消失してしまうと言われている。この結果、ベクトルニューラルネットワークやカプセルネットワークは、通常の畳み込みニューラルネットワークに比べて入力データを識別する性能に優れているという利点がある。

ベクトルニューラルネットワークの利点は、以下のように考えることも可能である。すなわち、ベクトルニューラルネットワークでは、ノードの出力ベクトルが、入力データの特徴を連続空間内の座標として表現すること、に利点がある。従って、ベクトル方向が近ければ特徴が似ている、というように出力ベクトルを評価できる。また、入力データに含まれている特徴が教師データではカバーできていなくても、補間してその特徴を判別できる、などの利点もある。一方、通常の畳み込みニューラルネットワークは、プーリング処理によって無秩序な圧縮がかかるため、入力データの特徴を連続空間内の座標として表現できない、という欠点がある。

ConvVN2層２５０とClassVN層２６０の各ノードの出力も、上述した（Ｅ１）～（Ｅ４）式を用いて同様に決定されるので、詳細な説明は省略する。最上位層であるClassVN層２６０の解像度は１×１であり、チャンネル数はＮｍである。分岐出力層２７０を構成するPreBranchedClassVN層２７１とPostBranchedClassVN層２７２の各ノードの出力も、上述した（Ｅ１）～（Ｅ４）式を用いて同様に決定される。

ClassVN層２６０の出力は、既知のクラスに対する複数の判定値Class_0～Class_Nm-1に変換される。これらの判定値は、通常はソフトマックス関数によって正規化された値である。具体的には、例えば、ClassVN層２６０の各ノードの出力ベクトルから、その出力ベクトルのベクトル長さを算出し、更に、各ノードのベクトル長さをソフトマックス関数で正規化する、という演算を実行することによって、個々のクラスに対する判定値を得ることができる。上述したように、上記（Ｅ３）式で得られるアクティベーション値ａ_jは、出力ベクトルＭ^L+1 _jのベクトル長さに相当する値であり、正規化されている。従って、ClassVN層２６０の各ノードのそれぞれにおけるアクティベーション値ａ_jを出力して、そのまま各クラスに対する判定値として使用してもよい。これらの事情は、PostBranchedClassVN層２７２の判定値#Class_0～#Class_Nm-1も同様である。

上述の実施形態では、機械学習モデル２００として、上記（Ｅ１）式～（Ｅ４）式の演算によって出力ベクトルを求めるベクトルニューラルネットワークを用いていたが、この代わりに、米国特許第５２１０７９８号公報や国際公開２００９／０８３５５３号公報に開示されているカプセルネットワークを用いてもよい。

・他の形態：
本開示は、上述した実施形態に限られるものではなく、その趣旨を逸脱しない範囲において種々の形態で実現することができる。例えば、本開示は、以下の形態（aspect）によっても実現可能である。以下に記載した各形態中の技術的特徴に対応する上記実施形態中の技術的特徴は、本開示の課題の一部又は全部を解決するために、あるいは、本開示の効果の一部又は全部を達成するために、適宜、差し替えや、組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することが可能である。

（１）本開示の第１の形態によれば、複数のベクトルニューロン層を有するベクトルニューラルネットワークを含む機械学習モデルを用いて被分類データのクラス分類処理を実行するクラス分類装置が提供される。前記機械学習モデルは、入力層と、中間層と、前記中間層から分岐する第１出力層及び第２出力層と、を有し、前記第１出力層は、第１活性化関数を使用するように構成されており、前記第２出力層は、前記第１活性化関数と異なる第２活性化関数を使用するように構成されている。
このクラス分類装置によれば、第２出力層は第１出力層と異なる活性化関数を使用するので、第１出力層と第２出力層のうちの一方を用いて、クラス分類における信頼性の高い説明情報を作成することができる。

（２）上記クラス分類装置において、前記第１活性化関数はソフトマックス関数であるものとしてもよい。
このクラス分類装置によれば、ソフトマックス関数とは異なる第２活性化関数を使用する第２出力層を用いて、信頼性の高い説明情報を作成できる。

（３）上記クラス分類装置において、前記プレ層は前記第２活性化関数を使用するように構成され、前記ポスト層は前記ソフトマックス関数を使用するように構成されているものとしてもよい。
このクラス分類装置によれば、プレ層を用いて信頼性の高い説明情報を作成できる。また、ポスト層はソフトマックス関数を使用するので、第２出力層の学習をうまく実行できる。

（４）上記クラス分類装置は、前記機械学習モデルを用いて前記クラス分類処理を実行するクラス分類処理部と、前記機械学習モデルに複数の教師データが入力されたときに前記第２出力層の出力から得られた既知特徴スペクトル群と、前記機械学習モデルとを記憶するメモリーと、を備え、前記クラス分類処理部は、（ａ）前記機械学習モデルを前記メモリーから読み出す処理と、（ｂ）前記既知特徴スペクトル群を前記メモリーから読み出す処理と、（ｃ）前記機械学習モデルを用いて、前記被分類データの該当クラスを決定する処理と、実行するように構成されてものとしてもよい。前記処理（ｃ）は、（ｃ１）前記機械学習モデルに前記被分類データが入力されたときに前記第２出力層の出力から得られる特徴スペクトルと、前記既知特徴スペクトル群との類似度を演算し、前記類似度を、前記被分類データのクラス分類結果に関する説明情報として作成する処理と、（ｃ２）前記第１出力層の出力と、前記第２出力層の出力と、前記類似度と、のいずれかに応じて、前記被分類データの前記該当クラスを決定する処理と、（ｃ３）前記被分類データの前記該当クラスと、前記説明情報とを表示する処理と、を含むものとしてもよい。
このクラス分類装置によれば、第２出力層の出力から得られる特徴スペクトルと既知特徴スペクトル群とのクラス別の類似度を、信頼性の高い説明情報として利用できる。

（５）上記クラス分類装置において、前記第２出力層に含まれる特定層は、第１軸と第２軸の２つの軸で規定された平面に配置されたベクトルニューロンが、前記２つの軸とは異なる方向の第３軸に沿って複数のチャンネルとして配置されている構成を有ものとしてもよい。前記特徴スペクトルは、（ｉ）前記特定層のうちの１つの平面位置におけるベクトルニューロンの出力ベクトルの複数の要素値を、前記第３軸に沿った前記複数のチャンネルにわたって配列した第１種の特徴スペクトルと、（ｉｉ）前記第１種の特徴スペクトルの各要素値に、前記出力ベクトルのベクトル長に相当するアクティベーション値を乗じることによって得られる第２種の特徴スペクトルと、（ｉｉｉ）前記特定層のうちの１つの平面位置における前記アクティベーション値を、前記第３軸に沿った前記複数のチャンネルにわたって配列した第３種の特徴スペクトルと、のうちのいずれかであるものとしてもよい。
このクラス分類装置によれば、特徴スペクトルを容易に求めることができる。

（６）本開示の第２の形態によれば、複数のベクトルニューロン層を有するベクトルニューラルネットワークを含む機械学習モデルを用いて被分類データのクラス分類処理を実行する方法が提供される。この方法は、（ａ）前記機械学習モデルをメモリーから読み出す工程であって、前記機械学習モデルは、入力層と、中間層と、前記中間層から分岐する第１出力層及び第２出力層と、を有し、前記第１出力層は、第１活性化関数を使用するように構成されており、前記第２出力層は、前記第１活性化関数と異なる第２活性化関数を使用するように構成されている、工程と、（ｂ）前記機械学習モデルに複数の教師データが入力されたときに前記第２出力層の出力から得られた既知特徴スペクトル群を前記メモリーから読み出す工程と、（ｃ）前記機械学習モデルを用いて、前記被分類データの該当クラスを決定する工程と、を含む。前記工程（ｃ）は、（ｃ１）前記機械学習モデルに前記被分類データが入力されたときに前記第２出力層の出力から得られる特徴スペクトルと、前記既知特徴スペクトル群との類似度を演算し、前記類似度を、前記被分類データのクラス分類における説明情報として作成する工程と、（ｃ２）前記第１出力層の出力と、前記第２出力層の出力と、前記類似度と、のいずれかに応じて、前記被分類データの前記該当クラスを決定する工程と、（ｃ３）前記被分類データの前記該当クラスと、前記説明情報とを表示する工程と、を含む。
この方法によれば、第２出力層の出力から得られる特徴スペクトルと既知特徴スペクトル群とのクラス別の類似度を、信頼性の高い説明情報として利用できる。

（７）本開示の第３の形態によれば、複数のベクトルニューロン層を有するベクトルニューラルネットワークを含む機械学習モデルを用いて被分類データのクラス分類処理をプロセッサーに実行させるコンピュータープログラムが提供される。このコンピュータープログラムは、（ａ）前記機械学習モデルをメモリーから読み出す処理であって、前記機械学習モデルは、入力層と、中間層と、前記中間層から分岐する第１出力層及び第２出力層と、を有し、前記第１出力層は、第１活性化関数を使用するように構成されており、前記第２出力層は、前記第１活性化関数と異なる第２活性化関数を使用するように構成されている、処理と、（ｂ）前記機械学習モデルに複数の教師データが入力されたときに前記第２出力層の出力から得られた既知特徴スペクトル群を前記メモリーから読み出す処理と、（ｃ）前記機械学習モデルを用いて、前記被分類データの該当クラスを決定する処理と、を前記プロセッサーに実行させる。前記処理（ｃ）は、（ｃ１）前記機械学習モデルに前記被分類データが入力されたときに前記第２出力層の出力から得られる特徴スペクトルと、前記既知特徴スペクトル群との類似度を演算し、前記類似度を、前記被分類データのクラス分類における説明情報として作成する処理と、（ｃ２）前記第１出力層の出力と、前記第２出力層の出力と、前記類似度と、のいずれかに応じて、前記被分類データの前記該当クラスを決定する処理と、（ｃ３）前記被分類データの前記該当クラスと、前記説明情報とを表示する処理と、を含む。

本開示は、上記以外の種々の形態で実現することも可能である。例えば、クラス分類装置の機能を実現するためのコンピュータープログラム、そのコンピュータープログラムを記録した一時的でない記録媒体（non-transitory storage medium）等の形態で実現することができる。

１００…情報処理装置、１１０…プロセッサー、１１２…学習実行部、１１４…クラス分類処理部、１２０…メモリー、１３０…インターフェイス回路、１４０…入力デバイス、１５０…表示デバイス、２００…機械学習モデル、２１０…入力層、２２０…畳み込み層、２３０…プライマリーベクトルニューロン層、２４０…第１畳み込みベクトルニューロン層、２５０…第２畳み込みベクトルニューロン層、２６０…分類ベクトルニューロン層、２７０…分岐出力層、２７１…プレ分岐分類ベクトルニューロン層、２７２…ポスト分岐分類ベクトルニューロン層、２８０…中間層、２９０…出力層、３１０…類似度演算部、３２０…クラス判別部、４００…カメラ

Claims

複数のベクトルニューロン層を有するベクトルニューラルネットワークを含む機械学習モデルを用いて被分類データのクラス分類処理を実行するクラス分類装置であって、
前記機械学習モデルは、入力層と、中間層と、前記中間層から分岐する第１出力層及び第２出力層と、を有し、
前記第１出力層は、第１活性化関数を使用するように構成されており、
前記第２出力層は、前記第１活性化関数と異なる第２活性化関数を使用するように構成されている、クラス分類装置。
請求項１に記載のクラス分類装置であって、
前記第１活性化関数はソフトマックス関数である、クラス分類装置。
請求項２に記載のクラス分類装置であって、
前記第２出力層は、最下位側のプレ層と最上位側のポスト層とを含み、
前記プレ層は前記第２活性化関数を使用するように構成され、前記ポスト層は前記ソフトマックス関数を使用するように構成されている、クラス分類装置。
請求項１～３のいずれか一項に記載のクラス分類装置であって、
前記機械学習モデルを用いて前記クラス分類処理を実行するクラス分類処理部と、
前記機械学習モデルに複数の教師データが入力されたときに前記第２出力層の出力から得られた既知特徴スペクトル群と、前記機械学習モデルとを記憶するメモリーと、
を備え、
前記クラス分類処理部は、
（ａ）前記機械学習モデルを前記メモリーから読み出す処理と、
（ｂ）前記既知特徴スペクトル群を前記メモリーから読み出す処理と、
（ｃ）前記機械学習モデルを用いて、前記被分類データの該当クラスを決定する処理と、
実行するように構成されており、
前記処理（ｃ）は、
（ｃ１）前記機械学習モデルに前記被分類データが入力されたときに前記第２出力層の出力から得られる特徴スペクトルと、前記既知特徴スペクトル群との類似度を演算し、前記類似度を、前記被分類データのクラス分類結果に関する説明情報として作成する処理と、
（ｃ２）前記第１出力層の出力と、前記第２出力層の出力と、前記類似度と、のいずれかに応じて、前記被分類データの前記該当クラスを決定する処理と、
（ｃ３）前記被分類データの前記該当クラスと、前記説明情報とを表示する処理と、
を含む、クラス分類装置。
請求項４に記載のクラス分類装置であって、
前記第２出力層に含まれる特定層は、第１軸と第２軸の２つの軸で規定された平面に配置されたベクトルニューロンが、前記２つの軸とは異なる方向の第３軸に沿って複数のチャンネルとして配置されている構成を有し、
前記特徴スペクトルは、
（ｉ）前記特定層のうちの１つの平面位置におけるベクトルニューロンの出力ベクトルの複数の要素値を、前記第３軸に沿った前記複数のチャンネルにわたって配列した第１種の特徴スペクトルと、
（ｉｉ）前記第１種の特徴スペクトルの各要素値に、前記出力ベクトルのベクトル長に相当するアクティベーション値を乗じることによって得られる第２種の特徴スペクトルと、
（ｉｉｉ）前記特定層のうちの１つの平面位置における前記アクティベーション値を、前記第３軸に沿った前記複数のチャンネルにわたって配列した第３種の特徴スペクトルと、
のうちのいずれかである、クラス分類装置。
複数のベクトルニューロン層を有するベクトルニューラルネットワークを含む機械学習モデルを用いて被分類データのクラス分類処理を実行する方法であって、
（ａ）前記機械学習モデルをメモリーから読み出す工程であって、前記機械学習モデルは、入力層と、中間層と、前記中間層から分岐する第１出力層及び第２出力層と、を有し、前記第１出力層は、第１活性化関数を使用するように構成されており、前記第２出力層は、前記第１活性化関数と異なる第２活性化関数を使用するように構成されている、工程と、
（ｂ）前記機械学習モデルに複数の教師データが入力されたときに前記第２出力層の出力から得られた既知特徴スペクトル群を前記メモリーから読み出す工程と、
（ｃ）前記機械学習モデルを用いて、前記被分類データの該当クラスを決定する工程と、
を含み、
前記工程（ｃ）は、
（ｃ１）前記機械学習モデルに前記被分類データが入力されたときに前記第２出力層の出力から得られる特徴スペクトルと、前記既知特徴スペクトル群との類似度を演算し、前記類似度を、前記被分類データのクラス分類結果に関する説明情報として作成する工程と、
（ｃ２）前記第１出力層の出力と、前記第２出力層の出力と、前記類似度と、のいずれかに応じて、前記被分類データの前記該当クラスを決定する工程と、
（ｃ３）前記被分類データの前記該当クラスと、前記説明情報とを表示する工程と、
を含む、方法。
複数のベクトルニューロン層を有するベクトルニューラルネットワークを含む機械学習モデルを用いて被分類データのクラス分類処理をプロセッサーに実行させるコンピュータープログラムであって、
前記コンピュータープログラムは、
（ａ）前記機械学習モデルをメモリーから読み出す処理であって、前記機械学習モデルは、入力層と、中間層と、前記中間層から分岐する第１出力層及び第２出力層と、を有し、前記第１出力層は、第１活性化関数を使用するように構成されており、前記第２出力層は、前記第１活性化関数と異なる第２活性化関数を使用するように構成されている、処理と、
（ｂ）前記機械学習モデルに複数の教師データが入力されたときに前記第２出力層の出力から得られた既知特徴スペクトル群を前記メモリーから読み出す処理と、
（ｃ）前記機械学習モデルを用いて、前記被分類データの該当クラスを決定する処理と、
を前記プロセッサーに実行させ、
前記処理（ｃ）は、
（ｃ１）前記機械学習モデルに前記被分類データが入力されたときに前記第２出力層の出力から得られる特徴スペクトルと、前記既知特徴スペクトル群との類似度を演算し、前記類似度を、前記被分類データのクラス分類結果に関する説明情報として作成する処理と、
（ｃ２）前記第１出力層の出力と、前記第２出力層の出力と、前記類似度と、のいずれかに応じて、前記被分類データの前記該当クラスを決定する処理と、
（ｃ３）前記被分類データの前記該当クラスと、前記説明情報とを表示する処理と、
を含む、コンピュータープログラム。