JP2023005937A

JP2023005937A - 機械学習モデルを用いて被判別データのクラス判別処理を実行する方法、情報処理装置、及び、コンピュータープログラム

Info

Publication number: JP2023005937A
Application number: JP2021108236A
Authority: JP
Inventors: 秦西村; Shin Nishimura; 光倉沢; Hikaru Kurasawa
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-01-18

Abstract

【課題】判別精度が低いクラスに起因するクラス判別精度の低下を抑制する技術を提供する。【解決手段】本開示の方法は、（ａ）Ｎ個の高精度クラスとＭ個の低精度クラスに関する教師データとを用いて機械学習モデルの学習を実行する工程と、（ｂ）Ｎ個の高精度クラスに関する既知特徴スペクトル群を準備する工程と、（ｃ）被判別データのクラス判別処理を実行する工程と、を含む。工程（ｃ）は、（ｃ１）被判別データに対する特徴スペクトルを算出する工程と、（ｃ２）特徴スペクトルと既知特徴スペクトル群との類似度を演算する工程と、（ｃ３）少なくとも１つの高精度クラスに関する類似度が予め設定された閾値以上の場合にはそれらから選択された１つのクラスを被判別データの判別クラスと判定し、すべての高精度クラスに関する類似度が閾値未満の場合には被判別データの判別クラスを未知と判定する工程と、を含む。【選択図】図７

Description

本開示は、機械学習モデルを用いて被判別データのクラス判別処理を実行する方法、情報処理装置、及び、コンピュータープログラムに関する。

特許文献１には、ベクトルニューロンを用いるベクトルニューラルネットワーク型の機械学習モデルとして、カプセルネットワークと呼ばれるものが開示されている。ベクトルニューロンとは、入出力がベクトルであるニューロンを意味する。カプセルネットワークは、カプセルと呼ばれるベクトルニューロンをネットワークのノードとする機械学習モデルである。カプセルネットワークなどのベクトルニューラルネットワーク型の機械学習モデルは、入力データのクラス判別に利用することができる。

米国特許第５２１０７９８号公報

しかしながら、従来技術では、判別処理の精度が高いクラスと、判別処理の精度が低いクラスが存在する場合には、判別精度が低いクラスについて正しい判別結果を得ることが困難であり、クラス判別処理全体の精度が低下してしまうという問題があった。

本開示の第１の形態によれば、複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを用いて、被判別データのクラス判別処理を実行する方法が提供される。この方法は、（ａ）Ｎ，Ｍをそれぞれ１以上の整数としたとき、Ｎ個のクラスに関する教師データと、前記Ｎ個のクラスに比べて前記機械学習モデルを用いた前記クラス判別処理の精度が低いＭ個のクラスに関する教師データとを用いて前記機械学習モデルの学習を実行する工程と、（ｂ）学習済みの前記機械学習モデルに前記Ｎ個のクラスの教師データが入力されたときに前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から得られる既知特徴スペクトル群を、前記Ｎ個のクラスのそれぞれについて準備する工程と、（ｃ）前記学習済みの前記機械学習モデルと前記既知特徴スペクトル群とを用いて、前記被判別データの前記クラス判別処理を実行する工程と、を含む。前記工程（ｃ）は、（ｃ１）前記機械学習モデルへの前記被判別データの入力に応じて、前記特定層の出力から特徴スペクトルを算出する工程と、（ｃ２）前記特徴スペクトルと、前記Ｎ個のクラスのそれぞれに関する前記既知特徴スペクトル群との類似度を演算する工程と、（ｃ３）前記Ｎ個のクラスのうちの少なくとも１つクラスに関する前記類似度が予め設定された閾値以上の場合には前記類似度が前記閾値以上であるクラスから選択された１つのクラスを前記被判別データの判別クラスと判定し、前記Ｎ個のクラスのすべてに関する前記類似度が前記閾値未満の場合には前記被判別データの判別クラスを未知と判定する工程と、を含む。

本開示の第２の形態によれば、複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを用いて、被判別データのクラス判別処理を実行する情報処理装置が提供される。この情報処理装置は、前記機械学習モデルを記憶するメモリーと、前記機械学習モデルを用いた演算を実行するプロセッサーと、を備える。前記プロセッサーは、（ａ）Ｎ，Ｍをそれぞれ１以上の整数としたとき、Ｎ個のクラスに関する教師データと、前記Ｎ個のクラスに比べて前記機械学習モデルを用いた前記クラス判別処理の精度が低いＭ個のクラスに関する教師データとを用いて前記機械学習モデルの学習を実行する処理と、（ｂ）学習済みの前記機械学習モデルに前記Ｎ個のクラスの教師データが入力されたときに前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から得られる既知特徴スペクトル群を、前記Ｎ個のクラスのそれぞれについて準備する処理と、（ｃ）前記学習済みの前記機械学習モデルと前記既知特徴スペクトル群とを用いて、前記被判別データの前記クラス判別処理を実行する処理と、を実行する。前記処理（ｄ）は、（ｃ１）前記機械学習モデルへの前記被判別データの入力に応じて、前記特定層の出力から特徴スペクトルを算出する処理と、（ｃ２）前記特徴スペクトルと、前記Ｎ個のクラスのそれぞれに関する前記既知特徴スペクトル群との類似度を演算する処理と、（ｃ３）前記Ｎ個のクラスのうちの少なくとも１つクラスに関する前記類似度が予め設定された閾値以上の場合には前記類似度が前記閾値以上であるクラスから選択された１つのクラスを前記被判別データの判別クラスと判定し、前記Ｎ個のクラスのすべてに関する前記類似度が前記閾値未満の場合には前記被判別データの判別クラスを未知と判定する処理と、を含む。

本開示の第３の形態によれば、複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを用いて、被判別データのクラス判別処理をプロセッサーに実行させるコンピュータープログラムが提供される。このコンピュータープログラムは、（ａ）Ｎ，Ｍをそれぞれ１以上の整数としたとき、Ｎ個のクラスに関する教師データと、前記Ｎ個のクラスに比べて前記機械学習モデルを用いた前記クラス判別処理の精度が低いＭ個のクラスに関する教師データとを用いて前記機械学習モデルの学習を実行する処理と、（ｂ）学習済みの前記機械学習モデルに前記Ｎ個のクラスの教師データが入力されたときに前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から得られる既知特徴スペクトル群を、前記Ｎ個のクラスのそれぞれについて準備する処理と、（ｃ）前記学習済みの前記機械学習モデルと前記既知特徴スペクトル群とを用いて、前記被判別データの前記クラス判別処理を実行する処理と、を前記プロセッサーに実行させるコンピュータープログラムである。前記処理（ｃ）は、（ｃ１）前記機械学習モデルへの前記被判別データの入力に応じて、前記特定層の出力から特徴スペクトルを算出する処理と、（ｃ２）前記特徴スペクトルと、前記Ｎ個のクラスのそれぞれに関する前記既知特徴スペクトル群との類似度を演算する処理と、（ｃ３）前記Ｎ個のクラスのうちの少なくとも１つクラスに関する前記類似度が予め設定された閾値以上の場合には前記類似度が前記閾値以上であるクラスから選択された１つのクラスを前記被判別データの判別クラスと判定し、前記Ｎ個のクラスのすべてに関する前記類似度が前記閾値未満の場合には前記被判別データの判別クラスを未知と判定する処理と、を含む。

良否判定システムのブロック図。機械学習モデルの他の構成を示す説明図。機械学習モデルの準備工程を示すフローチャート。検査対象品の例を示す説明図。特徴スペクトルを示す説明図。既知特徴スペクトル群の構成を示す説明図。クラス判別工程の処理手順を示すフローチャート。被判別データに関するクラス別類似度を求める様子を示す説明図。高精度クラスと低精度クラスのクラス判別精度を比較的して示すグラフ。高精度クラスと低精度クラスの類似度を比較して示すグラフ。クラス別類似度の第１の演算方法を示す説明図。クラス別類似度の第２の演算方法を示す説明図。クラス別類似度の第３の演算方法を示す説明図。

A. 実施形態：
図１は、実施形態における良否判定システムを示すブロック図である。この良否判定システムは、情報処理装置１００と、カメラ４００とを備える。カメラ４００は、検査対象品の画像を撮影するためのものである。カメラ４００としては、カラー画像を撮影するカメラを用いても良く、或いは、モノクロ画像や分光画像を撮影するカメラを用いても良い。本実施形態では、カメラ４００で撮影された画像を教師データや被判別データとして使用するが、画像以外のデータを教師データや被判別データとして使用してもよい。この場合には、カメラ４００の代わりに、データの種類に応じた被判別データ取得装置が使用される。

情報処理装置１００は、プロセッサー１１０と、メモリー１２０と、インターフェイス回路１３０と、インターフェイス回路１３０に接続された入力デバイス１４０及び表示部１５０と、を有している。インターフェイス回路１３０には、カメラ４００も接続されている。限定されないが例えば、プロセッサー１１０は、以下で詳述される処理を実行する機能を有するだけでなく、表示部１５０に、当該処理によって得られるデータ、および当該処理の過程で生成されるデータを表示する機能も有する。

プロセッサー１１０は、被判別データのクラス判別処理を実行するクラス判別処理部１１２として機能する。クラス判別処理部１１２は、類似度演算部３１０とクラス判別部３２０とを含む。クラス判別処理部１１２は、メモリー１２０に格納されたコンピュータープログラムをプロセッサー１１０が実行することによって実現される。但し、クラス判別処理部１１２をハードウェア回路で実現してもよい。本明細書のプロセッサーは、このようなハードウェア回路をも含む用語である。また、クラス判別処理を実行するプロセッサーは、ネットワークを介して情報処理装置１００に接続されたリモートコンピューターに含まれるプロセッサーであってもよい。

メモリー１２０には、機械学習モデル２００と、教師データ群ＴＤと、既知特徴スペクトル群ＫＳｐと、が格納される。機械学習モデル２００は、クラス判別処理部１１２による処理に使用される。機械学習モデル２００の構成例や動作については後述する。教師データ群ＴＤは、機械学習モデル２００の学習に使用されるラベル付きのデータの集合である。本実施形態では、教師データ群ＴＤは画像データの集合である。既知特徴スペクトル群ＫＳｐは、学習済みの機械学習モデル２００に教師データ群ＴＤを入力した際に得られる特徴スペクトルの集合である。特徴スペクトルについては後述する。

図２は、機械学習モデル２００の構成を示す説明図である。この機械学習モデル２００は、入力データＩＭの側から順に、畳み込み層２１０と、プライマリーベクトルニューロン層２２０と、第１畳み込みベクトルニューロン層２３０と、第２畳み込みベクトルニューロン層２４０と、分類ベクトルニューロン層２５０とを備える。これらの５つの層２１０～２５０のうち、畳み込み層２１０が最も下位の層であり、分類ベクトルニューロン層２５０が最も上位の層である。以下の説明では、層２１０～２５０を、それぞれ「Conv層２１０」、「PrimeVN層２２０」、「ConvVN1層２３０」、「ConvVN2層２４０」、及び「ClassVN層２５０」とも呼ぶ。

図２の例では２つの畳み込みベクトルニューロン層２３０，２４０を用いているが、畳み込みベクトルニューロン層の数は任意であり、畳み込みベクトルニューロン層を省略してもよい。但し、１つ以上の畳み込みベクトルニューロン層を用いることが好ましい。

図２の各層２１０～２５０の構成は、以下のように記述できる。
＜機械学習モデル２００の構成の記述＞
・Conv層２１０：Conv[32,5,2]
・PrimeVN層２２０：PrimeVN[16,1,1]
・ConvVN1層２３０：ConvVN1[12,3,2]
・ConvVN2層２４０：ConvVN2[6,3,1]
・ClassVN層２５０：ClassVN[Nm,4,1]
・ベクトル次元ＶＤ：VD=16
これらの各層２１０～２５０の記述において、括弧前の文字列はレイヤー名であり、括弧内の数字は、順に、チャンネル数、カーネルの表面サイズ、及び、ストライドである。例えば、Conv層２１０のレイヤー名は「Conv」であり、チャンネル数は３２、カーネルの表面サイズは５×５、ストライドは２である。図２では、各層の下にこれらの記述が示されている。各層の中に描かれているハッチングを付した矩形は、隣接する上位層の出力ベクトルを算出する際に使用されるカーネルの表面サイズを表している。本実施形態では、入力データＩＭが画像データなので、カーネルの表面サイズも２次元である。なお、各層２１０～２５０の記述で用いたパラメーターの値は例示であり、任意に変更可能である。

Conv層２１０は、スカラーニューロンで構成された層である。他の４つの層２２０～２５０は、ベクトルニューロンで構成された層である。ベクトルニューロンは、ベクトルを入出力とするニューロンである。上記の記述では、個々のベクトルニューロンの出力ベクトルの次元は１６で一定である。以下では、スカラーニューロン及びベクトルニューロンの上位概念として「ノード」という語句を使用する。

図２では、Conv層２１０について、ノード配列の平面座標を規定する第１軸ｘ及び第２軸ｙと、奥行きを表す第３軸ｚとが示されている。また、Conv層２１０のｘ，ｙ，ｚ方向のサイズが１３，１３，３２であることが示されている。ｘ方向のサイズとｙ方向のサイズを「解像度」と呼ぶ。ｚ方向のサイズは、チャンネル数である。これらの３つの軸ｘ，ｙ，ｚは、他の層においても各ノードの位置を示す座標軸として使用する。但し、図２では、Conv層２１０以外の層では、これらの軸ｘ，ｙ，ｚの図示が省略されている。

よく知られているように、畳み込み後の解像度Ｗ１は、次式で与えられる。
W1=Ceil{(W0-Wk+1)/S} （１）
ここで、Ｗ０は畳み込み前の解像度、Ｗｋはカーネルの表面サイズ、Ｓはストライド、Ceil｛Ｘ｝はＸの小数点以下を切り上げる演算を行う関数である。
図２に示した各層の解像度は、入力データＩＭの解像度を２９とした場合の例であり、実際の各層の解像度は入力データＩＭのサイズに応じて適宜変更される。

ClassVN層２５０は、Ｎｍ個のチャンネルを有している。図２の例ではＮｍ＝２である。一般に、Ｎｍは２以上の整数であり、機械学習モデル２００を用いて判別可能なクラスの数である。判別可能なクラス数Ｎｍは、機械学習モデル２００毎に異なる値を設定可能である。ClassVN層２５０の２つのチャンネルからは、２つのクラスに対する判定値Class1～Class2が出力される。通常は、これらの判定値Class1～Class2のうちで最も大きな値を有するクラスが、入力データＩＭのクラス判別結果として使用される。また、判定値Class1～Class2のうちで最も大きな値が予め定められた閾値未満である場合には、入力データＩＭのクラスが未知であるものと判定することも可能である。

本開示では、後述するように、出力層であるClassVN層２５０の判定値Class1～Class2を使用する代わりに、特定のベクトルニューロン層の出力から算出される類似度を使用して、判別クラスを決定する手法を使用する。

図２では、更に、各層２１０，２２０，２３０，２４０，２５０における部分領域Ｒｎが描かれている。部分領域Ｒｎの添え字「ｎ」は、各層の符号である。例えば、部分領域Ｒ２１０は、Conv層２１０における部分領域を示す。「部分領域Ｒｎ」とは、各層において、第１軸ｘの位置と第２軸ｙとの位置で規定される平面位置（ｘ，ｙ）で特定され、第３軸ｚに沿った複数のチャンネルを含む領域である。部分領域Ｒｎは、第１軸ｘ、第２軸ｙ、および第３軸ｚに対応する「Ｗｉｄｔｈ」×「Ｈｅｉｇｈｔ」×「Ｄｅｐｔｈ」の次元を有する。本実施形態では、１つの「部分領域Ｒｎ」に含まれるノードの数は「１×１×デプス数」、すなわち「１×１×チャンネル数」である。

図２に示すように、ConvVN1層２３０の出力から後述する特徴スペクトルSp_ConvVN1が算出されて、類似度演算部３１０に入力される。同様に、ConvVN2層２４０とClassVN層２５０の出力から特徴スペクトルSp_ConvVN2，Sp_ClassVNがそれぞれ算出されて類似度演算部３１０に入力される。類似度演算部３１０は、これらの特徴スペクトルSp_ConvVN1，Sp_ConvVN，Sp_ClassVNと、予め作成されていた既知特徴スペクトル群KSpとを用いて、後述するクラス別類似度を算出する。

本開示において、類似度の算出に使用されるベクトルニューロン層を、「特定層」とも呼ぶ。特定層としては、１つ以上の任意の数のベクトルニューロン層を使用可能である。なお、特徴スペクトルの構成と、特徴スペクトルを用いた類似度や信頼度の演算方法については後述する。

図３は、機械学習モデルの準備工程の処理手順を示すフローチャートである。ステップＳ１１０では、複数のサンプルを撮影することによって、複数のサンプルデータを生成する。

図４は、検査対象品の例を示す説明図である。ここでは、クラックＣＲを含む第１種のサンプルＰＤａと、ホコリＤＳを含む第２種のサンプルＰＤｂの例を示している。この検査対象品に関しては、ホコリＤＳは不良の原因とはならないが、クラックＣＲは不良として判断される。ステップＳ１１０で撮影されるサンプルは、クラックＣＲなどの不具合のある複数のサンプルＰＤａと、クラックＣＲなどの不具合の無い複数のサンプルＰＤｂと、を含むように選択される。

クラックＣＲはホコリＤＳやヨゴレに比べて認識し易いので、第１種のサンプルＰＤａは、機械学習モデル２００を用いたクラス判別の精度が比較的高い。一方、ホコリＤＳやヨゴレはクラックＣＲに比べて認識し難いので、第２種のサンプルＰＤｂは、第１種のサンプルＰＤａに比べてクラス判別の精度が低い。ここで、「クラス判別の精度が低い」という語句は、図２に示した機械学習モデル２００の出力層であるClassVN層２５０２５０から出力される判定値Class1又はClass2の期待値がより低いことを意味する。

ステップＳ１２０では、サンプルデータに対して前処理を適用する。前処理としては、例えば、サイズ調整や、データの正規化(min-max normalization)等の処理を行うことが可能である。図４では、サイズ調整として、第１種のサンプルＰＤａの画像を、破線で示す分割線によって複数のパッチ画像ＰＰＤａに分割した例を示している。これらの個々のパッチ画像ＰＰＤａがそれぞれ１つのサンプルＰＤａのサンプルデータとして使用される。第２種のサンプルＰＤｂの画像も同様である。但し、前処理を省略してもよい。

図３のステップＳ１３０では、サンプルデータにラベルを割り当てることによって、複数の教師データ群を作成する。本実施形態では、第１種のサンプルＰＤａのサンプルデータに対して、ラベル「１」を割り当てるとともに、第２種のサンプルＰＤｂのサンプルデータに対してラベル「２」をそれぞれ割り当てることによって、２つの教師データ群を作成する。これらのラベルは、図２に示した機械学習モデル２００の２つのクラスClass1～Class2に対応している。本開示において、「ラベル」と「クラス」は同じものを意味する。

なお、本実施形態では、図４に示した第１種のサンプルＰＤａと第２種のサンプルＰＤｂから２つのクラスの教師データ群を作成したが、一般には、Ｎ，Ｍをそれぞれ１以上の整数としたとき、クラス判別処理の精度が比較的高いＮ個のクラスに関する教師データ群と、Ｎ個のクラスに比べてクラス判別処理の精度が低いＭ個のクラスに関する教師データ群とが作成される。以下では、これらのＮ個のクラスを「高精度クラス」と呼び、Ｍ個のクラスを「低精度クラス」と呼ぶ。前述したように、図４の第１種のサンプルＰＤａからは高精度クラスに関する教師データ群が作成され、第２種のサンプルＰＤｂからは低精度クラスに関する教師データ群が作成される。なお、本実施形態において、ホコリＤＳを有するサンプルと、ヨゴレを有するサンプルは、いずれも低精度クラスに分類されるが、これらのサンプルを互いに異なるクラスとして分類することが好ましい。このように、クラスをより詳細に分類すれば、機械学習モデル２００の内部における処理の精度が高まるので、後述する類似度の精度も高めることが可能である。Ｎ，Ｍは、いずれも１以上の任意の整数に設定可能であるが、Ｍ＝１とすることが好ましく、Ｎは２以上とすることが好ましい。

ステップＳ１４０では、クラス判別処理部１１２が、複数の教師データ群を用いて機械学習モデル２００の学習を実行する。複数の教師データ群を用いた学習が終了すると、学習済みの機械学習モデル２００がメモリー１２０に保存される。

ステップＳ１５０では、学習済みの機械学習モデル２００に高精度クラスの複数の教師データを再度入力して、既知特徴スペクトル群KSpを生成する。既知特徴スペクトル群KSpは、以下で説明する特徴スペクトルの集合である。低精度クラスについては、既知特徴スペクトル群を作成する必要は無い。

図５は、学習済みの機械学習モデル２００に任意の入力データを入力することによって得られる特徴スペクトルSpを示す説明図である。ここでは、ConvVN1層２３０の出力から得られる特徴スペクトルSpについて説明する。図５の横軸は、ConvVN1層２３０の１つの部分領域Ｒ２３０に含まれる複数のノードの出力ベクトルに関するベクトル要素の位置である。このベクトル要素の位置は、各ノードにおける出力ベクトルの要素番号ＮＤと、チャンネル番号ＮＣとの組み合わせで表される。本実施形態では、ベクトル次元が１６（各ノードが出力する出力ベクトルの要素の数）なので、出力ベクトルの要素番号ＮＤは０から１５までの１６個である。また、ConvVN1層２３０のチャンネル数は１２なので、チャンネル番号ＮＣは０から１１までの１２個である。換言すれば、この特徴スペクトルSpは、１つの部分領域Ｒ２３０に含まれる各ベクトルニューロンの出力ベクトルの複数の要素値を、第３軸ｚに沿った複数のチャンネルにわたって配列したものである。

図５の縦軸は、各スペクトル位置での特徴値Ｃ_Vを示す。この例では、特徴値Ｃ_Vは、出力ベクトルの各要素の値Ｖ_NDである。なお、特徴値Ｃ_Vとしては、出力ベクトルの各要素の値Ｖ_NDと、後述する正規化係数とを乗算した値を使用してもよく、或いは、正規化係数をそのまま使用してもよい。後者の場合には、特徴スペクトルSpに含まれる特徴値Ｃ_Vの数はチャンネル数に等しく、１２個である。なお、正規化係数は、そのノードの出力ベクトルのベクトル長さに相当する値である。

１つの入力データに対してConvVN1層２３０の出力から得られる特徴スペクトルSpの数は、ConvVN1層２３０の平面位置（ｘ，ｙ）の数、すなわち、部分領域Ｒ２３０の数に等しいので、３６個である。同様に、１つの入力データに対して、ConvVN2層２４０の出力から１６個の特徴スペクトルSpが得られ、ClassVN層２５０の出力から１個の特徴スペクトルSpが得られる。

類似度演算部３１０は、学習済みの機械学習モデル２００に教師データが再度入力されたときに、図５に示す特徴スペクトルSpを算出して、既知特徴スペクトル群KSpとしてメモリー１２０に登録する。

図６は、既知特徴スペクトル群KSpの構成を示す説明図である。この例では、機械学習モデル２００のConvVN1層２３０の出力から得られた既知特徴スペクトル群KSp_ConvVN1が示されている。ConvVN2層２４０の出力から得られた既知特徴スペクトル群KSp_ConvVN2と、ClassVN層２５０の出力から得られた既知特徴スペクトル群KSp_ConvVN1も同様の構成を有しているが、図６では図示が省略されている。なお、既知特徴スペクトル群KSpとしては、すくなくとも１つのベクトルニューロン層の出力から得られたものが登録されていればよい。

既知特徴スペクトル群KSp_ConvVN1の個々のレコードは、ラベルまたはクラスの順序を示すパラメーターｉと、特定層の順序を示すパラメーターｊと、部分領域Ｒｎの順序を示すパラメーターｋと、データ番号を示すパラメーターｑと、既知特徴スペクトルKSpとを含んでいる。既知特徴スペクトルKSpは、図５の特徴スペクトルSpと同じものである。

クラスのパラメーターｉは、ラベルと同じ値を取る。本実施形態では、１つの高精度クラスについての既知特徴スペクトル群のみが作成されるので、ｉ＝１のデータのみが登録されている。特定層のパラメーターｊは、３つの特定層２３０，２４０，２５０のいずれであるかを示す１～３の値を取る。部分領域Ｒｎのパラメーターｋは、個々の特定層に含まれる複数の部分領域Ｒｎのいずれであるか、すなわち、平面位置（ｘ，ｙ）のいずれであるかを示す値を取る。ConvVN1層２３０については部分領域Ｒ２３０の数が３６個なので、ｋ＝１～３６である。データ番号のパラメーターｑは、同じラベルが付された教師データの番号を示しており、１～max1の値を取る。

なお、ステップＳ１５０で使用される複数の教師データＴＤは、ステップＳ１４０で使用された高精度クラスの教師データと同じものである必要は無い。但し、ステップＳ１５０においても、ステップＳ１４０で使用された高精度クラスの教師データの一部又は全部を利用すれば、新たな教師データを準備する必要が無いという利点がある。

図７は、学習済みの機械学習モデルを用いたクラス判別工程の処理手順を示すフローチャートである。ステップＳ２１０では、クラス判別処理部１１２が、カメラ４００に検査対象品を撮影させることによって、被判別データを取得する。ステップＳ２２０では、クラス判別処理部１１２が、被判別データに前処理を適用する。この前処理は、図３のステップＳ１２０で使用された前処理と同じ処理である。図４で説明したように、本実施形態では、前処理において、１つの検査対象品の画像を複数のパッチ画像に分割し、それぞれのパッチ画像を被判別データとして作成する。

ステップＳ２３０では、クラス判別処理部１１２が、学習済みの機械学習モデル２００に被判別データを入力して、機械学習モデル２００の出力から特徴スペクトルSpを算出する。ステップＳ２４０では、類似度演算部３１０が、被判別データの入力に応じて得られた特徴スペクトルSpと、登録済みの既知特徴スペクトル群KSpから、高精度クラスに関する被判別データの類似度を算出する。以下では、この類似度を「クラス別類似度」と呼ぶ。

図８は、被判別データに関するクラス別類似度Sclassを求める様子を示す説明図である。被判別データが機械学習モデル２００に入力されると、クラス判別処理部１１２が、機械学習モデル２００のConvVN1層２３０とConvVN2層２４０とClassVN層２５０の出力から、特徴スペクトルSp_ConvVN1，Sp_ConvVN2，Sp_ClassVNをそれぞれ算出する。類似度演算部３１０は、ConvVN1層２３０の出力から得られた特徴スペクトルSp_ConvVN1と、既知特徴スペクトル群KSp_ConvVN1とを用いてクラス別類似度Sclass_ConvVN1を算出する。クラス別類似度の具体的な算出方法については後述する。ConvVN2層２４０とClassVN層２５０についても、同様にしてクラス別類似度Sclass_ConvVN2，Sclass_ClassVNが算出される。

３つのベクトルニューロン層２３０，２４０．２５０をそれぞれ用いてクラス別類似度Sclass_ConvVN1，Sclass_ConvVN2，Sclass_ClassVNをすべて生成する必要はないが、これらのうちの１つ以上のベクトルニューロン層を用いてクラス別類似度を算出することが好ましい。前述したように、本開示において、類似度の算出に使用されるベクトルニューロン層を、「特定層」と呼ぶ。

類似度演算部３１０は、これらのクラス別類似度Sclass_ConvVN1，Sclass_ConvVN2，Sclass_ClassVNの少なくとも１つを用いて最終的なクラス別類似度Sclass(i)を算出する。例えば、３つのクラス別類似度Sclass_ConvVN1，Sclass_ConvVN2，Sclass_ClassVNのうちの予め選択された１つを最終的なクラス類似度Sclass(i)としてもよい。或いは、３つのクラス別類似度Sclass_ConvVN1，Sclass_ConvVN2，Sclass_ClassVNの適切な統計処理の結果を、最終的なクラス別類似度Sclass(i)としてもよい。「適切な統計処理の結果」とは、統計的な代表値である。統計的な代表値としては、例えば、最大値と平均値と最小値のうちのいずれかを用いることが可能であり、あるいは、層ごとの類似度の範囲から決定した重みによる重み付き平均などを用いることも可能である。但し、本実施形態では、複数の特定層から得られた複数のクラス別類似度のうちの最小値を採用することが好ましい。このクラス別類似度Sclass(i)は、被判別データが、高精度クラスｉに関する教師データに類似する程度を示す指標である。

ステップＳ２５０では、クラス判別部３２０が、高精度クラスに対するクラス別類似度Sclass(i)が、予め定められた閾値以上であるか否かを判定する。ステップＳ２５０の判定では、以下の２つの判定方法のいずれかを採用することができる。
＜判定方法Ｊ１＞
Ｎ個の高精度クラスのうちの少なくとも１つクラスに関するクラス別類似度Sclass(i)が閾値以上の場合には、クラス別類似度Sclass(i)が最も高いクラスを被判別データの判別クラスと判定する。
＜判定方法Ｊ２＞
Ｎ個の高精度クラスのうちの少なくとも１つクラスに関するクラス別類似度Sclass(i)が閾値以上の場合には、クラス別類似度Sclass(i)が閾値以上であるクラスのうち、被判別データに対する機械学習モデル２００の出力であるクラス判定値Class1, Class2が最も大きなクラスを被判別データの判別クラスと判定する。
上記判定方法Ｊ１では、類似度を用いて高い精度でクラス判別を行うことができる。また、上記判定方法Ｊ２では、類似度と機械学習モデルの判別結果の両方を利用して、高い精度でクラス判別を行うことができる。これらの説明から理解できるように、少なくとも１つの高精度クラスに関するクラス別類似度Sclass(i)が閾値以上である場合には、クラス別類似度Sclass(i)が閾値以上であるクラスから選択された１つのクラスを被判別データの判別クラスとして採用することが可能である。

ステップＳ２５０において、少なくとも１つの高精度クラスに対するクラス別類似度Sclass(i)が閾値以上である場合には、ステップＳ２６０に進み、上記判定方法Ｊ１，Ｊ２のいずれかに応じて被判別データの判別クラスが決定される。一方、すべての高精度クラスに関するクラス別類似度Sclass(i)が閾値未満の場合には、ステップＳ２７０に進み、被判別データのクラスが未知であるものと判定される。なお、図４で説明したように、１つのサンプルの画像を複数のパッチ画像に分割した場合には、そのすべてのパッチ画像について、高精度クラスに対するクラス別類似度Sclass(i)が閾値以上である場合に、そのサンプルが高精度クラスに属するものと判定される。ステップＳ２７０では、被判別データが低精度クラスに属するものと判定してもよいが、低精度クラスが複数のクラスに分類されている場合にも、複数の低精度クラスのいずれに属するものかについては判定されない。この理由は、低精度クラスはそもそもクラス判別精度が低いので、複数の低精度クラスを区別するのが困難だからである。

図９は、高精度クラスと低精度クラスのクラス判別精度を比較的して示すグラフである。高精度クラスのサンプルとしては、図４に示したクラックＣＲを含む複数のサンプルを用い、低精度クラスのサンプルとしてはクラックＣＲを含まずホコリＤＳを含む複数のサンプルを用いている。図９の横軸はサンプル番号の序数であり、縦軸は機械学習２００の出力層から出力される判定値Class(i)に応じた集計結果である。なお、この例では、個々のサンプルについての１枚の画像から小さなストライドで多数枚のパッチ画像を抽出し、各パッチ画像の判定値Class(i)に応じて、高精度クラスに属するものと判定されたら＋１を加算し、低精度クラスに属するものと判定されたら－１を加算することによって、集計結果を算出した。前述したように、高精度サンプルは、判定値Class(i)の期待値が十分に高いので、その被判別データのクラスを正しく判定することが可能である。なお、「判定値Class(i)の期待値」は、任意に選択された多数の被判別データについての判定値Class(i)の平均値である。一方、低精度サンプルは、判定値Class(i)の期待値が低いので、その被判別データのクラスを正しく判定することが困難な場合が多い。そこで、本実施形態では、判定値Class(i)を用いる代わりに、クラス別類似度Sclass(i)を用いてクラス判別を実行する。

図１０は、高精度クラスと低精度クラスの類似度を比較して示すグラフである。サンプルとしては、図９に示した例と同じものを使用している。図１０の横軸はサンプル番号の序数であり、縦軸は機械学習２００の高精度クラスに関するクラス別類似度Sclass(i=1)である。クラス別類似度Sclass(i=1)が閾値Ｔｈ以上の場合には、その被判別データが高精度クラスに属するものと判定され、閾値Ｔｈ未満の場合には、その被判別データのクラスが未知であるものと判定される。この例からも理解できるように、高精度クラスに関するクラス別類似度Sclass(i=1)を用いて被判別データが高精度クラスに属するか否かを判定すれば、クラス判別処理全体の精度を高めることができる。

以上のように、本実施形態では、Ｎ個の高精度クラスのうちの少なくとも１つクラスに関する類似度が予め設定された閾値以上の場合には、その類似度が最も高いクラスを被判別データの判別クラスと判定し、Ｎ個の高精度クラスのすべてに関する類似度が閾値未満の場合には被判別データの判別クラスを未知と判定するので、クラス判別処理全体の精度を高めることができる。

B. 類似度の算出方法：
上述したクラス別類似度の演算方法としては、例えば、以下の３つの方法のいずれかを採用可能である。
（１）特徴スペクトルSpと既知特徴スペクトル群KSpにおける部分領域Ｒｎの対応を考慮せずにクラス別類似度を求める第１の演算方法Ｍ１
（２）特徴スペクトルSpと既知特徴スペクトル群KSpの対応する部分領域Ｒｎ同士でクラス別類似度を求める第２の演算方法Ｍ２
（３）部分領域Ｒｎを全く考慮せずにクラス別類似度を求める第３の演算方法Ｍ３
以下では、これらの３つの演算方法Ｍ１，Ｍ２，Ｍ３に従って、ConvVN1層２３０の出力からクラス別類似度Sclass_ConvVN1を算出する方法について順次説明する。なお、以下の説明では、被判別データのパラメーターｑは省略している。

図１１は、クラス別類似度の第１の演算方法Ｍ１を示す説明図である。第１の演算方法Ｍ１では、まず、特定層であるConvVN1層２３０の出力から、部分領域ｋ毎に各クラスｉに対する類似度を示す局所類似度S(i,j,k)が算出される。なお、図１１では図示を簡略化するために部分領域ｋの数を６としているが、図２の機械学習モデル２００ではｋ＝３６である。これらの局所類似度S(i,j,k)から、図１１の右側に示す３種類のクラス別類似度Sclass(i,j)のいずれかが算出される。クラス別類似度Sclass(i,j)は、図８に示したクラス別類似度Sclass_ConvVN1と同じものである。

第１の演算方法Ｍ１において、局所類似度S(i,j,k)は次式を用いて算出される。
S(i,j,k)=max[G{Sp(j,k), KSp(i,j,k=all,q=all)}] （ｃ１）
ここで、
ｉは、クラスを示すパラメーター、
ｊは、特定層を示すパラメーター、
ｋは、部分領域Ｒｎを示すパラメーター、
ｑは、データ番号を示すパラメーター、
G{a,b}は、ａとｂの類似度を求める関数、
Sp(j,k)は、被判別データに応じて、特定層ｊの特定の部分領域ｋの出力から得られる特徴スペクトル、
KSp(i,j,k=all,q=all)は、図６に示した既知特徴スペクトル群KSpのうち、クラスｉに関連付けられた、特定層ｊのすべての部分領域ｋにおけるすべてのデータ番号ｑの既知特徴スペクトル、
max[X]は、Ｘの値のうちの最大値を取る論理演算である。
なお、類似度を求める関数G{a,b}としては、例えば、コサイン類似度を求める式や、距離に応じた類似度を求める式を使用できる。

図１１の右側に示す３種類のクラス別類似度Sclass(i,j)は、クラスｉ毎に、複数の部分領域ｋについての局所類似度S(i,j,k)の最大値、平均値、又は、最小値を取ることによって得られたものである。最大値、平均値、又は、最小値のいずれの演算を使用するかは、クラス判別処理の使用目的に応じて異なるが、通常は、最小値を使用することが好ましいと考えられる。但し、これらの３種類の演算のいずれを使用するかは、実験的または経験的にユーザーによって予め設定される。

以上のように、クラス別類似度の第１の演算方法Ｍ１では、
（１）被判別データに応じて、特定層ｊの特定の部分領域ｋの出力から得られる特徴スペクトルSpと、その特定層ｊ及び各クラスｉに関連付けられたすべての既知特徴スペクトルKSpとの類似度である局所類似度S(i,j,k)を求め、
（２）クラスｉ毎に、複数の部分領域ｋについての局所類似度S(i,j,k)の最大値、平均値、又は、最小値を取ることによってクラス別類似度Sclass(i,j)を求める。
この第１の演算方法Ｍ１によれば、比較的簡単な演算及び手順により、クラス別類似度Sclass(i,j)を求めることができる。

図１２は、クラス別類似度の第２の演算方法Ｍ２を示す説明図である。第２の演算方法Ｍ２では、上述した（ｃ１）式の代わりに次式を用いて局所類似度S(i,j,k)を算出する。
S(i,j,k)=max[G{Sp(j,k), KSp(i,j,k,q=all)}] （ｃ２）
ここで、
KSp(i,j,k,q=all)は、図６に示した既知特徴スペクトル群KSpのうち、クラスｉに関連付けられた、特定層ｊの特定の部分領域ｋにおけるすべてのデータ番号ｑの既知特徴スペクトルである。

上述した第１の演算方法Ｍ１では、特定層ｊのすべての部分領域ｋにおける既知特徴スペクトルKSp(i,j,k=all,q=all)を用いていたのに対して、第２の演算方法Ｍ２では、特徴スペクトルSp(j,k)の部分領域ｋと同じ部分領域ｋに対する既知特徴スペクトルKSp(i,j,k,q=all)のみを用いている。第２の演算方法Ｍ２における他の方法は、第１の演算方法Ｍ１と同じである。

クラス別類似度の第２の演算方法Ｍ２では、
（１）被判別データに応じて、特定層ｊの特定の部分領域ｋの出力から得られる特徴スペクトルSpと、その特定層ｊの特定の部分領域ｋ及び各クラスｉに関連付けられたすべての既知特徴スペクトルKSpとの類似度である局所類似度S(i,j,k)を求め、
（２）クラスｉ毎に、複数の部分領域ｋについての局所類似度S(i,j,k)の最大値、平均値、又は、最小値を取ることによって、クラス別類似度Sclass(i,j)を求める。
この第２の演算方法Ｍ２によっても、比較的簡単な演算及び手順により、クラス別類似度Sclass(i,j)を求めることができる。

図１３は、クラス別類似度の第３の演算方法Ｍ３を示す説明図である。第３の演算方法Ｍ３では、局所類似度S(i,j,k)を求めることなく、特定層であるConvVN1層２３０の出力からクラス別類似度Sclass(i,j)が算出される。

第３の演算方法Ｍ３で得られるクラス別類似度Sclass(i,j)は、次式を用いて算出される。
Sclass(i,j)=max[G{Sp(j,k=all), KSp(i,j,k=all,q=all)}] （ｃ３）
ここで、
Sp(j,k=all)は、被判別データに応じて、特定層ｊのすべての部分領域ｋの出力から得られる特徴スペクトルである。

以上のように、クラス別類似度の第３の演算方法Ｍ３では、
（１）被判別データに応じて特定層ｊの出力から得られるすべての特徴スペクトルSpと、その特定層ｊ及び各クラスｉに関連付けられたすべての既知特徴スペクトルKSpとの類似度であるクラス別類似度Sclass(i,j)をクラス毎にそれぞれ求める。
この第３の演算方法Ｍ３によれば、更に簡単な演算及び手順により、クラス別類似度Sclass(i,j)を求めることができる。

C. 機械学習モデルの各層の出力ベクトルの演算方法：
図２に示した機械学習モデル２００における各層の出力の演算方法は、以下の通りである。

PrimeVN層２２０の各ノードは、Conv層２１０の１×１×３２個のノードのスカラー出力を３２次元のベクトルとみなして、このベクトルに変換行列を乗ずることによってそのノードのベクトル出力を得る。この変換行列は、表面サイズが１×１のカーネルの要素であり、機械学習モデル２００の学習によって更新される。なお、Conv層２１０とPrimeVN層２２０の処理を統合して、１つのプライマリーベクトルニューロン層として構成することも可能である。

PrimeVN層２２０を「下位層Ｌ」と呼び、その上位側に隣接するConvVN1層２３０を「上位層Ｌ＋１」と呼ぶとき、上位層Ｌ＋１の各ノードの出力は、以下の式を用いて決定される。

ここで、
Ｍ^L _iは、下位層Ｌにおけるｉ番目のノードの出力ベクトル、
Ｍ^L+1 _jは、上位層Ｌ＋１におけるｊ番目のノードの出力ベクトル、
ｖ_ijは、出力ベクトルＭ^L+1 _jの予測ベクトル、
Ｗ^L _ijは、下位層Ｌの出力ベクトルＭ^L _iから予測ベクトルｖ_ijを算出するための予測行列、
ｕ_jは、予測ベクトルｖ_ijの和、すなわち線形結合、である和ベクトル、
ａ_jは、和ベクトルｕ_jのノルム|ｕ_j|を正規化することによって得られる正規化係数であるアクティベーション値、
Ｆ（Ｘ）は、Ｘを正規化する正規化関数である。

正規化関数Ｆ（Ｘ）としては、例えば以下の（Ｅ３ａ）式または（Ｅ３ｂ）式を使用できる。

ここで、
ｋは、上位層Ｌ＋１のすべてのノードに対する序数、
βは、任意の正の係数である調整パラメーターであり、例えばβ＝１である。

上記（Ｅ３ａ）式では、上位層Ｌ＋１のすべてのノードに関して和ベクトルｕ_jのノルム|ｕ_j|をソフトマックス関数で正規化することによってアクティベーション値ａ_jが得られる。一方、（Ｅ３ｂ）式では、和ベクトルｕ_jのノルム|ｕ_j|を、上位層Ｌ＋１のすべてのノードに関するノルム|ｕ_j|の和で除算することによってアクティベーション値ａ_jが得られる。なお、正規化関数Ｆ（Ｘ）としては、（Ｅ３ａ）式や（Ｅ３ｂ）式以外の他の関数を用いてもよい。

上記（Ｅ２）式の序数ｉは、上位層Ｌ＋１におけるｊ番目のノードの出力ベクトルＭ^L+1 _jを決めるために使用される下位層Ｌのノードに便宜上割り振られるものであり、１～ｎの値をとる。また、整数ｎは、上位層Ｌ＋１におけるｊ番目のノードの出力ベクトルＭ^L+1 _jを決めるために使用される下位層Ｌのノードの数である。従って、整数ｎは次式で与えられる。
n=Nk×Nc （Ｅ５）
ここで、Ｎｋはカーネルの表面サイズであり、Ｎｃは下位層であるPrimeVN層２２０のチャンネル数である。図２の例ではＮｋ＝９、Ｎｃ＝１６なので、ｎ＝１４４である。

ConvVN1層２３０の出力ベクトルを求めるために使用される１つのカーネルは、カーネルサイズ３×３を表面サイズとし、下位層のチャンネル数１６を深さとする３×３×１６＝１４４個の要素を有しており、これらの要素のそれぞれは予測行列Ｗ^L _ijである。また、ConvVN1層２３０の１２個のチャンネルの出力ベクトルを生成するためには、このカーネルが１２組必要である。従って、ConvVN1層２３０の出力ベクトルを求めるために使用されるカーネルの予測行列Ｗ^L _ijの数は、１４４×１２＝１７２８個である。これらの予測行列Ｗ^L _ijは、機械学習モデル２００の学習により更新される。

上述した（Ｅ１）～（Ｅ４）式から分かるように、上位層Ｌ＋１の個々のノードの出力ベクトルＭ^L+1 _jは、以下の演算によって求められる。
（ａ）下位層Ｌの各ノードの出力ベクトルＭ^L _iに予測行列Ｗ^L _ijを乗じて予測ベクトルｖ_ijを求め、
（ｂ）下位層Ｌの各ノードから得られた予測ベクトルｖ_ijの和、すなわち線形結合、である和ベクトルｕ_jを求め、
（ｃ）和ベクトルｕ_jのノルム|ｕ_j|を正規化することによって正規化係数であるアクティベーション値ａ_jを求め、
（ｄ）和ベクトルｕ_jをノルム|ｕ_j|で除算し、更に、アクティベーション値ａ_jを乗じる。

なお、アクティベーション値ａ_jは、上位層Ｌ＋１のすべてのノードに関してノルム|ｕ_j|を正規化することによって得られる正規化係数である。従って、アクティベーション値ａ_jは、上位層Ｌ＋１内の全ノードの中における各ノードの相対的な出力強度を示す指標と考えることができる。（Ｅ３）式，（Ｅ３ａ）式、（Ｅ３ｂ）式、及び（４）式で使用されるノルムは、典型的な例ではベクトル長さを表すＬ２ノルムである。このとき、アクティベーション値ａ_jは、出力ベクトルＭ^L+1 _jのベクトル長さに相当する。アクティベーション値ａ_jは、上述した（Ｅ３）式と（Ｅ４）式で使用されるだけなので、ノードから出力される必要は無い。但し、アクティベーション値ａ_jを外部に出力するように上位層Ｌ＋１を構成することも可能である。

ベクトルニューラルネットワークの構成は、カプセルネットワークの構成とほぼ同じであり、ベクトルニューラルネットワークのベクトルニューロンがカプセルネットワークのカプセルに相当する。但し、ベクトルニューラルネットワークで使用される上述の（Ｅ１）～（Ｅ４）式による演算は、カプセルネットワークで使用される演算と異なる。両者の最も大きな違いは、カプセルネットワークでは、上記（Ｅ２）式の右辺の予測ベクトルｖ_ijにそれぞれ重みが乗じられており、その重みが、動的ルーティングを複数回繰り返すことによって探索される点である。一方、本実施形態のベクトルニューラルネットワークでは、上述した（Ｅ１）～（Ｅ４）式を順番に１回計算することによって出力ベクトルＭ^L+1 _jが得られるので、動的ルーティングを繰り返す必要が無く、演算がより高速であるという利点がある。また、本実施形態のベクトルニューラルネットワークは、カプセルネットワークよりも演算に必要とするメモリー量がカプセルネットワークより少なく、本開示の発明者の実験によれば、約１／２～１／３のメモリー量で済むという利点もある。

ベクトルを入出力とするノードを使用するという点では、ベクトルニューラルネットワークはカプセルネットワークと同じである。従って、ベクトルニューロンを使用する利点もカプセルネットワークと共通している。また、複数の層２１０～２５０は、上位に行くほどより大きな領域の特徴を表現し、下位に行くほどより小さな領域の特徴を表現する、という点は、通常の畳み込みニューラルネットワークと同じである。ここで、「特徴」とは、ニューラルネットワークへの入力データに含まれている特徴的な部分を意味する。ベクトルニューラルネットワークやカプセルネットワークでは、或るノードの出力ベクトルが、そのノードが表現する特徴の空間的な情報を表す空間情報を含む点で、通常の畳み込みニューラルネットワークよりも優れている。すなわち、或るノードの出力ベクトルのベクトル長さは、そのノードが表現する特徴の存在確率を表し、ベクトル方向がその特徴の方向やスケール等の空間情報を表している。従って、同じ層に属する２つのノードの出力ベクトルのベクトル方向は、それぞれの特徴の位置関係を表す。あるいは、当該２つのノードの出力ベクトルのベクトル方向は、特徴のバリエーションを表わすとも言える。例えば、「目」の特徴に対応するノードなら、出力ベクトルの方向は、目の細さ、吊り上がり方、などのバリエーションを表し得る。通常の畳み込みニューラルネットワークでは、プーリング処理によって特徴の空間情報が消失してしまうと言われている。この結果、ベクトルニューラルネットワークやカプセルネットワークは、通常の畳み込みニューラルネットワークに比べて入力データを識別する性能に優れているという利点がある。

ベクトルニューラルネットワークの利点は、以下のように考えることも可能である。すなわち、ベクトルニューラルネットワークでは、ノードの出力ベクトルが、入力データの特徴を連続空間内の座標として表現すること、に利点がある。従って、ベクトル方向が近ければ特徴が似ている、というように出力ベクトルを評価できる。また、入力データに含まれている特徴が教師データではカバーできていなくても、補間してその特徴を判別できる、などの利点もある。一方、通常の畳み込みニューラルネットワークは、プーリング処理によって無秩序な圧縮がかかるため、入力データの特徴を連続空間内の座標として表現できない、という欠点がある。

ConvVN2層２４０とClassVN層２５０の各ノードの出力も、上述した（Ｅ１）～（Ｅ４）式を用いて同様に決定されるので、詳細な説明は省略する。最上位層であるClassVN層２５０の解像度は１×１であり、チャンネル数はＮｍである。

ClassVN層２５０の出力は、既知のクラスに対する複数の判定値Class0～Class2に変換される。これらの判定値は、通常はソフトマックス関数によって正規化された値である。具体的には、例えば、ClassVN層２５０の各ノードの出力ベクトルから、その出力ベクトルのベクトル長さを算出し、更に、各ノードのベクトル長さをソフトマックス関数で正規化する、という演算を実行することによって、個々のクラスに対する判定値を得ることができる。上述したように、上記（Ｅ３）式で得られるアクティベーション値ａ_jは、出力ベクトルＭ^L+1 _jのベクトル長さに相当する値であり、正規化されている。従って、ClassVN層２５０の各ノードのそれぞれにおけるアクティベーション値ａ_jを出力して、そのまま各クラスに対する判定値として使用してもよい。

上述の実施形態では、機械学習モデル２００として、上記（Ｅ１）式～（Ｅ４）式の演算によって出力ベクトルを求めるベクトルニューラルネットワークを用いていたが、この代わりに、米国特許第５２１０７９８号公報や国際公開２００９／０８３５５３号公報に開示されているカプセルネットワークを用いてもよい。

・他の実施形態：
本開示は、上述した実施形態に限られるものではなく、その趣旨を逸脱しない範囲において種々の形態で実現することができる。例えば、本開示は、以下の形態（aspect）によっても実現可能である。以下に記載した各形態中の技術的特徴に対応する上記実施形態中の技術的特徴は、本開示の課題の一部又は全部を解決するために、あるいは、本開示の効果の一部又は全部を達成するために、適宜、差し替えや、組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することが可能である。

（１）本開示の第１の形態によれば、複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを用いて、被判別データのクラス判別処理を実行する方法が提供される。この方法は、（ａ）Ｎ，Ｍをそれぞれ１以上の整数としたとき、Ｎ個のクラスに関する教師データと、前記Ｎ個のクラスに比べて前記機械学習モデルを用いた前記クラス判別処理の精度が低いＭ個のクラスに関する教師データとを用いて前記機械学習モデルの学習を実行する工程と、（ｂ）学習済みの前記機械学習モデルに前記Ｎ個のクラスの教師データが入力されたときに前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から得られる既知特徴スペクトル群を、前記Ｎ個のクラスのそれぞれについて準備する工程と、（ｃ）前記学習済みの前記機械学習モデルと前記既知特徴スペクトル群とを用いて、前記被判別データの前記クラス判別処理を実行する工程と、を含む。前記工程（ｃ）は、（ｃ１）前記機械学習モデルへの前記被判別データの入力に応じて、前記特定層の出力から特徴スペクトルを算出する工程と、（ｃ２）前記特徴スペクトルと、前記Ｎ個のクラスのそれぞれに関する前記既知特徴スペクトル群との類似度を演算する工程と、（ｃ３）前記Ｎ個のクラスのうちの少なくとも１つクラスに関する前記類似度が予め設定された閾値以上の場合には前記類似度が前記閾値以上であるクラスから選択された１つのクラスを前記被判別データの判別クラスと判定し、前記Ｎ個のクラスのすべてに関する前記類似度が前記閾値未満の場合には前記被判別データの判別クラスを未知と判定する工程と、を含む。
この方法によれば、クラス判別処理の精度が高いＮ個のクラスの教師データと、クラス判別処理の精度が低いＭ個のクラスの教師データとを用いて機械学習モデルの学習を行い、学習済みの機械学習モデルとＮ個のクラスに関する既知特徴スペクトル群とを用いて算出される類似度を使用して被判別データのクラス判別処理を行うので、クラス判別処理全体の精度を高めることができる。

（２）上記方法は、前記工程（ｃ３）において、前記Ｎ個のクラスのうちの少なくとも１つクラスに関する前記類似度が前記閾値以上の場合には、前記類似度が最も高いクラスを前記被判別データの前記判別クラスと判定するものとしてもよい。
この方法によれば、類似度を用いて高い精度でクラス判別を行うことができる。

（３）上記方法は、前記工程（ｃ３）において、前記Ｎ個のクラスのうちの少なくとも１つクラスに関する前記類似度が前記閾値以上の場合には、前記類似度が前記閾値以上であるクラスのうち、前記被判別データに対する前記機械学習モデルの出力であるクラス判定値が最も大きなクラスを前記被判別データの前記判別クラスと判定するものとしてもよい。
この方法によれば、類似度と機械学習モデルの判別結果の両方を利用して、高い精度でクラス判別を行うことができる。

（４）上記方法において、前記特定層は、第１軸と第２軸の２つの軸で規定された平面に配置されたベクトルニューロンが、前記２つの軸とは異なる方向の第３軸に沿って複数のチャンネルとして配置されている構成を有し、前記特定層において、前記第１軸の位置と前記第２軸の位置で規定される平面位置で特定され、前記第３軸に沿った前記複数のチャンネルを含む領域を、部分領域と呼ぶとき、前記特徴スペクトルは、前記特定層に含まれる複数の部分領域のうちの各部分領域について、（ｉ）当該部分領域に含まれる各ベクトルニューロンの出力ベクトルの複数の要素値を、前記第３軸に沿った前記複数のチャンネルにわたって配列した第１種の特徴スペクトルと、（ｉｉ）前記第１種の特徴スペクトルの各要素値に、前記出力ベクトルのベクトル長さに相当する正規化係数を乗じることによって得られる第２種の特徴スペクトルと、（ｉｉｉ）前記正規化係数を、前記第３軸に沿った前記複数のチャンネルにわたって配列した第３種の特徴スペクトルと、のうちのいずれかとして求められるものとしてもよい。
この方法によれば、特定層の出力ベクトルから得られる３種の特徴スペクトルのいずれかを用いて類似度を求めることができる。

（５）上記方法において、前記工程（ｃ２）は、前記検査データに応じて、前記特定層の特定の部分領域の出力から得られる前記特徴スペクトルと、前記特定層及び各クラスに関連付けられたすべての前記既知特徴スペクトルとの類似度である局所類似度を求めることによって、前記特定層の前記複数の部分領域に関して各クラスに対する類似度を示す複数の局所類似度を求める工程と、前記クラス毎に、前記複数の部分領域に関する前記複数の局所類似度の最大値、平均値、又は、最小値を取ることによって、前記クラス毎の前記類似度であるクラス別類似度を求める工程と、を含むものとしてもよい。
この方法によれば、比較的簡単な演算によって、クラス別類似度を演算できる。

（６）上記方法において、前記工程（ｃ２）は、前記検査データに応じて、前記特定層の特定の部分領域の出力から得られる前記特徴スペクトルと、前記特定層の前記特定の部分領域及び各クラスに関連付けられたすべての前記既知特徴スペクトルとの類似度である局所類似度を求めることによって、前記特定層の前記複数の部分領域に関して各クラスに対する類似度を示す複数の局所類似度を求める工程と、前記クラス毎に、前記複数の部分領域に関する前記複数の局所類似度の最大値、平均値、又は、最小値を取ることによって、前記クラス毎の前記類似度であるクラス別類似度を求める工程と、を含むものとしてもよい。
この方法によれば、比較的簡単な演算によって、クラス別類似度を演算できる。

（７）上記方法において、前記工程（ｃ２）は、前記検査データに応じて、前記特定層の出力から得られるすべての前記特徴スペクトルと、前記特定層及び各クラスに関連付けられたすべての前記既知特徴スペクトルとの類似度をクラス毎にそれぞれ求めることによって、前記クラス毎の前記類似度であるクラス別類似度を求める工程を含むものとしてもよい。
この方法によれば、更に簡単な演算によって、クラス別類似度を演算できる。

（８）本開示の第２の形態によれば、複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを用いて、被判別データのクラス判別処理を実行する情報処理装置が提供される。この情報処理装置は、前記機械学習モデルを記憶するメモリーと、前記機械学習モデルを用いた演算を実行するプロセッサーと、を備える。前記プロセッサーは、（ａ）Ｎ，Ｍをそれぞれ１以上の整数としたとき、Ｎ個のクラスに関する教師データと、前記Ｎ個のクラスに比べて前記機械学習モデルを用いた前記クラス判別処理の精度が低いＭ個のクラスに関する教師データとを用いて前記機械学習モデルの学習を実行する処理と、（ｂ）学習済みの前記機械学習モデルに前記Ｎ個のクラスの教師データが入力されたときに前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から得られる既知特徴スペクトル群を、前記Ｎ個のクラスのそれぞれについて準備する処理と、（ｃ）前記学習済みの前記機械学習モデルと前記既知特徴スペクトル群とを用いて、前記被判別データの前記クラス判別処理を実行する処理と、を実行する。前記処理（ｃ）は、（ｃ１）前記機械学習モデルへの前記被判別データの入力に応じて、前記特定層の出力から特徴スペクトルを算出する処理と、（ｄ２）前記特徴スペクトルと、前記Ｎ個のクラスのそれぞれに関する前記既知特徴スペクトル群との類似度を演算する処理と、（ｃ３）前記Ｎ個のクラスのうちの少なくとも１つクラスに関する前記類似度が予め設定された閾値以上の場合には前記類似度が前記閾値以上であるクラスから選択された１つのクラスを前記被判別データの判別クラスと判定し、前記Ｎ個のクラスのすべてに関する前記類似度が前記閾値未満の場合には前記被判別データの判別クラスを未知と判定する処理と、を含む。
この情報処理装置によれば、クラス判別処理の精度が高いＮ個のクラスの教師データと、クラス判別処理の精度が低いＭ個のクラスの教師データとを用いて機械学習モデルの学習を行い、学習済みの機械学習モデルとＮ個のクラスに関する既知特徴スペクトル群とを用いて算出される類似度を使用して被判別データのクラス判別処理を行うので、クラス判別処理全体の精度を高めることができる。

（９）本開示の第３の形態によれば、複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを用いて、被判別データのクラス判別処理をプロセッサーに実行させるコンピュータープログラムが提供される。このコンピュータープログラムは、（ａ）Ｎ，Ｍをそれぞれ１以上の整数としたとき、Ｎ個のクラスに関する教師データと、前記Ｎ個のクラスに比べて前記機械学習モデルを用いた前記クラス判別処理の精度が低いＭ個のクラスに関する教師データとを用いて前記機械学習モデルの学習を実行する処理と、（ｂ）学習済みの前記機械学習モデルに前記Ｎ個のクラスの教師データが入力されたときに前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から得られる既知特徴スペクトル群を、前記Ｎ個のクラスのそれぞれについて準備する処理と、（ｃ）前記学習済みの前記機械学習モデルと前記既知特徴スペクトル群とを用いて、前記被判別データの前記クラス判別処理を実行する処理と、を前記プロセッサーに実行させるコンピュータープログラムである。前記処理（ｃ）は、（ｃ１）前記機械学習モデルへの前記被判別データの入力に応じて、前記特定層の出力から特徴スペクトルを算出する処理と、（ｃ２）前記特徴スペクトルと、前記Ｎ個のクラスのそれぞれに関する前記既知特徴スペクトル群との類似度を演算する処理と、（ｃ３）前記Ｎ個のクラスのうちの少なくとも１つクラスに関する前記類似度が予め設定された閾値以上の場合には前記類似度が前記閾値以上であるクラスから選択された１つのクラスを前記被判別データの判別クラスと判定し、前記Ｎ個のクラスのすべてに関する前記類似度が前記閾値未満の場合には前記被判別データの判別クラスを未知と判定する処理と、を含む。
このコンピュータープログラムによれば、クラス判別処理の精度が高いＮ個のクラスの教師データと、クラス判別処理の精度が低いＭ個のクラスの教師データとを用いて機械学習モデルの学習を行い、学習済みの機械学習モデルとＮ個のクラスに関する既知特徴スペクトル群とを用いて算出される類似度を使用して被判別データのクラス判別処理を行うので、クラス判別処理全体の精度を高めることができる。

本開示は、上記以外の種々の形態で実現することも可能である。例えば、クラス判別装置の機能を実現するためのコンピュータープログラム、そのコンピュータープログラムを記録した一時的でない記録媒体（non-transitory storage medium）等の形態で実現することができる。

１００…情報処理装置、１１０…プロセッサー、１１２…クラス判別処理部、１２０…メモリー、１３０…インターフェイス回路、１４０…入力デバイス、１５０…表示部、２００…機械学習モデル、２１０…畳み込み層、２２０…プライマリーベクトルニューロン層、２３０…第１畳み込みベクトルニューロン層、２４０…第２畳み込みベクトルニューロン層、２５０…分類ベクトルニューロン層、３１０…類似度演算部、３２０…クラス判別部、４００…カメラ

Claims

複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを用いて、被判別データのクラス判別処理を実行する方法であって、
（ａ）Ｎ，Ｍをそれぞれ１以上の整数としたとき、Ｎ個のクラスに関する教師データと、前記Ｎ個のクラスに比べて前記機械学習モデルを用いた前記クラス判別処理の精度が低いＭ個のクラスに関する教師データとを用いて前記機械学習モデルの学習を実行する工程と、
（ｂ）学習済みの前記機械学習モデルに前記Ｎ個のクラスの教師データが入力されたときに前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から得られる既知特徴スペクトル群を、前記Ｎ個のクラスのそれぞれについて準備する工程と、
（ｃ）前記学習済みの前記機械学習モデルと前記既知特徴スペクトル群とを用いて、前記被判別データの前記クラス判別処理を実行する工程と、
を含み、
前記工程（ｃ）は、
（ｃ１）前記機械学習モデルへの前記被判別データの入力に応じて、前記特定層の出力から特徴スペクトルを算出する工程と、
（ｃ２）前記特徴スペクトルと、前記Ｎ個のクラスのそれぞれに関する前記既知特徴スペクトル群との類似度を演算する工程と、
（ｃ３）前記Ｎ個のクラスのうちの少なくとも１つクラスに関する前記類似度が予め設定された閾値以上の場合には前記類似度が前記閾値以上であるクラスから選択された１つのクラスを前記被判別データの判別クラスと判定し、前記Ｎ個のクラスのすべてに関する前記類似度が前記閾値未満の場合には前記被判別データの判別クラスを未知と判定する工程と、
を含む、方法。
請求項１に記載の方法であって、
前記工程（ｃ３）において、前記Ｎ個のクラスのうちの少なくとも１つクラスに関する前記類似度が前記閾値以上の場合には、前記類似度が最も高いクラスを前記被判別データの前記判別クラスと判定する、方法。
請求項１に記載の方法であって、
前記工程（ｃ３）において、前記Ｎ個のクラスのうちの少なくとも１つクラスに関する前記類似度が前記閾値以上の場合には、前記類似度が前記閾値以上であるクラスのうち、前記被判別データに対する前記機械学習モデルの出力であるクラス判定値が最も大きなクラスを前記被判別データの前記判別クラスと判定する、方法。
請求項１～３のいずれか一項に記載の方法であって、
前記特定層は、第１軸と第２軸の２つの軸で規定された平面に配置されたベクトルニューロンが、前記２つの軸とは異なる方向の第３軸に沿って複数のチャンネルとして配置されている構成を有し、
前記特定層において、前記第１軸の位置と前記第２軸の位置で規定される平面位置で特定され、前記第３軸に沿った前記複数のチャンネルを含む領域を、部分領域と呼ぶとき、
前記特徴スペクトルは、前記特定層に含まれる複数の部分領域のうちの各部分領域について、
（ｉ）当該部分領域に含まれる各ベクトルニューロンの出力ベクトルの複数の要素値を、前記第３軸に沿った前記複数のチャンネルにわたって配列した第１種の特徴スペクトルと、
（ｉｉ）前記第１種の特徴スペクトルの各要素値に、前記出力ベクトルのベクトル長さに相当する正規化係数を乗じることによって得られる第２種の特徴スペクトルと、
（ｉｉｉ）前記正規化係数を、前記第３軸に沿った前記複数のチャンネルにわたって配列した第３種の特徴スペクトルと、
のうちのいずれかとして求められる、方法。
請求項４に記載の方法であって、
前記工程（ｃ２）は、
前記被判別データに応じて、前記特定層の特定の部分領域の出力から得られる前記特徴スペクトルと、前記特定層及び各クラスに関連付けられたすべての前記既知特徴スペクトルとの類似度である局所類似度を求めることによって、前記特定層の前記複数の部分領域に関して各クラスに対する類似度を示す複数の局所類似度を求める工程と、
前記クラス毎に、前記複数の部分領域に関する前記複数の局所類似度の最大値、平均値、又は、最小値を取ることによって、前記クラス毎の前記類似度であるクラス別類似度を求める工程と、
を含む、方法。
請求項４に記載の方法であって、
前記工程（ｃ２）は、
前記被判別データに応じて、前記特定層の特定の部分領域の出力から得られる前記特徴スペクトルと、前記特定層の前記特定の部分領域及び各クラスに関連付けられたすべての前記既知特徴スペクトルとの類似度である局所類似度を求めることによって、前記特定層の前記複数の部分領域に関して各クラスに対する類似度を示す複数の局所類似度を求める工程と、
前記クラス毎に、前記複数の部分領域に関する前記複数の局所類似度の最大値、平均値、又は、最小値を取ることによって、前記クラス毎の前記類似度であるクラス別類似度を求める工程と、
を含む、方法。
請求項４に記載の方法であって、
前記工程（ｃ２）は、
前記被判別データに応じて、前記特定層の出力から得られるすべての前記特徴スペクトルと、前記特定層及び各クラスに関連付けられたすべての前記既知特徴スペクトルとの類似度をクラス毎にそれぞれ求めることによって、前記クラス毎の前記類似度であるクラス別類似度を求める工程を含む、方法。
複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを用いて、被判別データのクラス判別処理を実行する情報処理装置であって、
前記機械学習モデルを記憶するメモリーと、
前記機械学習モデルを用いた演算を実行するプロセッサーと、
を備え、
前記プロセッサーは、
（ａ）Ｎ，Ｍをそれぞれ１以上の整数としたとき、Ｎ個のクラスに関する教師データと、前記Ｎ個のクラスに比べて前記機械学習モデルを用いた前記クラス判別処理の精度が低いＭ個のクラスに関する教師データとを用いて前記機械学習モデルの学習を実行する処理と、
（ｂ）学習済みの前記機械学習モデルに前記Ｎ個のクラスの教師データが入力されたときに前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から得られる既知特徴スペクトル群を、前記Ｎ個のクラスのそれぞれについて準備する処理と、
（ｃ）前記学習済みの前記機械学習モデルと前記既知特徴スペクトル群とを用いて、前記被判別データの前記クラス判別処理を実行する処理と、
を実行し、
前記処理（ｃ）は、
（ｃ１）前記機械学習モデルへの前記被判別データの入力に応じて、前記特定層の出力から特徴スペクトルを算出する処理と、
（ｃ２）前記特徴スペクトルと、前記Ｎ個のクラスのそれぞれに関する前記既知特徴スペクトル群との類似度を演算する処理と、
（ｃ３）前記Ｎ個のクラスのうちの少なくとも１つクラスに関する前記類似度が予め設定された閾値以上の場合には前記類似度が前記閾値以上であるクラスから選択された１つのクラスを前記被判別データの判別クラスと判定し、前記Ｎ個のクラスのすべてに関する前記類似度が前記閾値未満の場合には前記被判別データの判別クラスを未知と判定する処理と、
を含む、情報処理装置。
複数のベクトルニューロン層を有するベクトルニューラルネットワーク型の機械学習モデルを用いて、被判別データのクラス判別処理をプロセッサーに実行させるコンピュータープログラムであって、
（ａ）Ｎ，Ｍをそれぞれ１以上の整数としたとき、Ｎ個のクラスに関する教師データと、前記Ｎ個のクラスに比べて前記機械学習モデルを用いた前記クラス判別処理の精度が低いＭ個のクラスに関する教師データとを用いて前記機械学習モデルの学習を実行する処理と、
（ｂ）学習済みの前記機械学習モデルに前記Ｎ個のクラスの教師データが入力されたときに前記複数のベクトルニューロン層のうちの少なくとも１つの特定層の出力から得られる既知特徴スペクトル群を、前記Ｎ個のクラスのそれぞれについて準備する処理と、
（ｃ）前記学習済みの前記機械学習モデルと前記既知特徴スペクトル群とを用いて、前記被判別データの前記クラス判別処理を実行する処理と、
を前記プロセッサーに実行させるコンピュータープログラムであり、
前記処理（ｃ）は、
（ｃ１）前記機械学習モデルへの前記被判別データの入力に応じて、前記特定層の出力から特徴スペクトルを算出する処理と、
（ｃ２）前記特徴スペクトルと、前記Ｎ個のクラスのそれぞれに関する前記既知特徴スペクトル群との類似度を演算する処理と、
（ｃ３）前記Ｎ個のクラスのうちの少なくとも１つクラスに関する前記類似度が予め設定された閾値以上の場合には前記類似度が前記閾値以上であるクラスから選択された１つのクラスを前記被判別データの判別クラスと判定し、前記Ｎ個のクラスのすべてに関する前記類似度が前記閾値未満の場合には前記被判別データの判別クラスを未知と判定する処理と、
を含む、コンピュータープログラム。