JP2022108260A

JP2022108260A - 異常検出及び分類のための装置、プログラム、及び方法

Info

Publication number: JP2022108260A
Application number: JP2021200390A
Authority: JP
Inventors: 祐輔樋田; Yusuke Toida
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-01-12
Filing date: 2021-12-09
Publication date: 2022-07-25
Also published as: EP4027300A1; US20220262108A1; EP4027300B1

Abstract

【課題】画像内の異常を識別及び分類するよう構成されるコンピュータ装置、システム、方法及び記憶媒体を提供する。【解決手段】分類人工ニューラルネットワーク（ＡＮＮ）及び処理命令メモリハードウェアと、処理命令を実行するプロセッサハードウェアと、を有するコンピュータ装置は、画像の入力データセットに対して教師なし異常検出を実行し、異常部分を検出し、データセット内の画像毎に、画像内のあらゆる検出された１つ以上の異常部分を伝えて異常なし部分をブロックする対応するマスク画像を生成することと、分類ＡＮＮを訓練することと、を実行させる。コンピュータ装置は、訓練条件を満足するまで繰り返し訓練エポックを実行し、入力データセットの画像毎に、各検出された異常部分の識別を、当該異常部分が分類ＡＮＮによって分類される対応する分類とともに出力する。【選択図】図２

Description

本願は、生産環境における品質制御の分野にあり、具体的には、画像内の異常の自動識別及びラベル付けに関係がある。

異常検出は、製造及び医薬等の様々な分野にとって有益であるということで、関心のある研究トピックである。しかし、欠陥は極めてまれであるから、現実世界のアプリケーションから異常なデータを取得することは困難である。故に、異常検出の教師なし方法は、特に関心が持たれている（すなわち、教師あり方法では、優れた品質の訓練データを取得することが困難であるため）。人工ニューラルネットワーク（artificial neural networks，ＡＮＮ）による教師なし異常検出のための現在の方法は、画像から異常の位置のみを検出する。これは、それらの方法が画像内のピクセルごとに優劣しか識別しないことを意味し、クラック、スクラッチ、及び屈曲等の欠陥のソートを認識することはできない。セマンティックセグメンテーションは、明らかに異なっているオブジェクトをセグメント化することができるが、異常はしばしば複雑であり、形状及び色に関して欠陥なし領域と類似しているので、欠陥領域を欠陥なし領域から分離することは困難である。生産環境では、異常の原因及び理由が詳しく調べられて、それらは、他のプロセスへのフィードバックによって生産を改善する。そのため、異常を適切に識別し分類することは、製品及びプロセスの品質を改善することにおける重要な要素である。

製造会社は、非常に厳しい規準の下で制約されている。常により複雑なコンポーネントを生産しながら可能な限り最高の品質を提供するために、製造会社は自身の製品を効率的に制御する必要がある。そうするために、非破壊検査（non-destructive testing，ＮＤＴ）が集中的に使用されている。それは、ダメージを引き起こさずに、製品、コンポーネント又はシステムの特性を評価するために科学において使用されている解析技術である。しかし、自動化された生産レーン環境では、検査プロセスはボトルネックである。製造会社は製品から大量のデータを捕捉するが、それらはラベル付けされない。従って、検査プロセスを自動化することは難しい。一般的な教師なし技術は、ラベル付けなしで、記憶されたデータのみを用いて作動することができるが、既存の方法は、異常のラベル付け（どのような異常か）を提供することができなかった。この情報は、製品、プロセス、人間の教育の品質を日々改善するので、実際の製造現場で有用である。実施形態は、異常の位置の検出及び異常の分類を可能にする教師なし技術を提供することによって既存の技術の欠点に対処する。

実施形態は、画像内の異常を識別及び分類するよう構成されるコンピュータ装置を含み、コンピュータ装置はメモリハードウェア及びプロセッサハードウェアを有し、前記メモリハードウェアは分類人工ニューラルネットワーク（ＡＮＮ）及び処理命令を記憶し、前記プロセッサハードウェアは前記処理命令を実行するよう構成され、前記処理命令は、実行されるときに、前記コンピュータ装置に、
画像の入力データセットに対して教師なし異常検出を実行して前記画像から異常部分を検出して、前記データセット内の画像ごとに、当該画像内のあらゆる検出された１つ以上の異常部分を伝えて異常なし部分をブロックする対応するマスク画像を生成することと、
前記分類ＡＮＮを訓練することと
を実行させ、
前記訓練することは、各訓練エポックにおいて、
第１プロセスで、
前記分類ＡＮＮにより前記入力データセットのマスキングされたバージョンを処理し、該マスキングされたバージョンが、前記対応するマスク画像によってマスキングされた前記入力データセットの各画像を有し、そして、自動生成されたラベルをグラウンドトゥルースとして使用して交差エントロピ損失関数を最小化することによって異常部分を複数の分類のうちの１つに分類するよう前記分類ＡＮＮを訓練することと、
前記分類ＡＮＮから、前記入力データセットの前記マスキングされたバージョンの各画像の潜在的な特徴表現を抽出することと、
第２プロセスで、
前記入力データセットの各画像に対応する疑似ラベルを取得するために、前記潜在的な特徴表現の夫々を、異なった関連する疑似ラベルを夫々有している複数のクラスタのうちの１つにクラスタ化するよう教師なしクラスタリングアルゴリズムを前記潜在的な特徴表現に適用することによって前記入力データセットの前記マスキングされたバージョンに対応する疑似ラベルの組を生成することと、
前記入力データセットの各画像が当該画像の疑似ラベルをグラウンドトゥルースとして使用して前記分類ＡＮＮによって分類される分類間の損失関数を最小化するよう前記分類ＡＮＮを訓練することと
を含み、
前記コンピュータ装置は、訓練条件を満足するまで繰り返し前記訓練エポックを実行させられ、前記入力データセットの画像ごとに、各検出された異常部分の識別を、当該異常部分が前記分類ＡＮＮによって分類される対応する分類とともに出力させられる。

実施形態は、入力画像からの異常検出のための教師なしセマンティックセグメンテーションを実行する。実施形態は、異常位置検出部及び特徴抽出部を含むいくつかの機能を具現する。実施形態は、入力画像から知識を抽出し、欠陥の画像による訓練を必要とせずに、可能性のある欠陥のタイプを識別することができる。

材料製造会社は、非常に厳しい規準の下で制約されている。常により複雑なコンポーネントを生産しながら可能な限り最高の品質を提供するために、製造会社は自身の製品を効率的に制御する必要がある。そうするために、非破壊検査（ＮＤＴ）が集中的に使用されている。ＮＤＴは、ダメージを引き起こさずに、材料、コンポーネント又はシステムの特性を評価するために科学及び技術産業において使用されている様々な解析技術を網羅している。しかし、自動化された生産レーン環境では、検査プロセスはボトルネックであるから、生産コストを増大させる。

製造会社は製品を撮影することによって大量のデータを捕捉するが、それらはラベル付けされないということで、人間による入力が検査プロセスでは必要とされる。

材料表面検査を自動化する既存の技術は、二通りに分類可能である：
● 第１に、人間によってラベル付けされた画像の大規模データセットを生成することであるが、これは面倒であり、注釈者の経験によって制限される。
● 第２に、ハンドクラフテッド（hand crafted）アルゴリズムを生成することである。この技術は、ラベルなしデータセットにコンピュータビジョン方法を適用し、小規模のラベルありデータセットに評価アルゴリズムを適用する。かような技術には、有効なアルゴリズムを設計することが難しいという欠点がある。

実施形態は、ニューラルネットワークによる異常検出に対する従前のアプローチが異常の位置に焦点を当てておらず、そのために、異常の位置を検出することはできるが異常を分類しないという課題に対処する。ネットワークは、理論上は、ネットワークによって色及び形状によって識別可能な異なった特徴を有しているオブジェクトを分類／セグメント化するために、畳み込みレイヤ及びプーリング等を用いて画像全体を見る。例えば、異常は、図６に示されるような中央が曲がった金属物体であることがある。図６において、左手の画像は、欠陥のない製品であり、右手の画像は、中央の金属コネクタに欠陥がある製品を示す。その異常がグラウンドトゥルース又は知識なしでは未知であった場合には、先行技術のネットワークはそのような欠陥を認識することができない（曲がった金属はそれ自体が欠陥ではなく、曲がった金属が発生する場所／位置が欠陥を引き起こすため）。図６のトランジスタの例では、先行技術のネットワークは背景及びトランジスタを認識することができる。先行技術のネットワークは、しかしながら、それらを良品／異常で分類することができない。これは、両方の画像が曲がった金属の特徴を有しているからである。実施形態は、第１の異常検出ステップで生成されたマスクを使用して、異常が発生している画像の部分を見るように分類人工ニューラルネットワークを訓練する。言い換えると、実施形態は、既存の教師なし異常検出から取得された異常位置情報を用いて画像内の異常部分のみを見る。その結果、分類人工ニューラルネットワークは、セグメンテーション等のピクセル単位の解析により画像を分類することができる。

実施形態は、ラベル付けされた訓練データによらずに異常の位置及びタイプを識別することができる異常検出のための教師なしセマンティックセグメンテーション方法を提供する。

ディープラーニングは、大規模なラベル付きデータセットを使用した従来の方法よりも優れたパフォーマンスを発揮することで知られている。実施形態は、教師なしディープラーニングを活用して、異常の検出及び分類を達成する。異常検出及び自動検査は、教師なしディープラーニング技術テクノロジーに役立つ。これは、代替手段、つまり大規模なデータセットのラベル付けが非常にコスト及び時間がかかるためである。

最先端技術として、オートエンコーダ／ＧＡＮを使用することは一般的な方法である。そのようなアプローチは、欠陥なしデータのみを訓練することによって異常な画像から欠陥を除く。しかし、これらの方法は、異常の位置しか検出することができず、異常の種類を検出することはできない。それらは、異常をタイプに分類する能力を有さない。他方で、一般的なクラスタリングアルゴリズムは、異常のタイプを分類することができるが、それらは、画像上の異常の位置を検出しない。よって、技術的なタスクは、異常のタイプ及び位置の両方を認識することができる異常検出のためのセマンティックセグメンテーションである。一般的なセマンティックセグメンテーションは、オブジェクトのセグメントを検出することに焦点を当てる。先行技術のＡＩセマンティックセグメンテーションアルゴリズムは、色及び形状によりオブジェクト又はセグメントを認識する。有用性は、色により検出することが容易である異常に限定されるが、先行技術のアルゴリズムは、異常が背景と類似した色及び形状を有しているシナリオでは効果がない。実施形態は、異常の位置を識別するためだけではなく、図１３で強調表示されるように、セマンティックセグメンテーション等の異常のクラスタを生成するためにもセグメント化において有効である。

セマンティックセグメンテーションのためにディープラーニングを使用する際の問題は、ニューラルネットワークが異常を検出するときに画像上でどこを見るかである。先行技術の（教師あり）ニューラルネットワークは、大規模データセットによる訓練フェーズで特徴を抽出する。教師あり学習を通じて、ニューラルネットワークは異常の特徴を学ぶことができる。しかし、教師なし学習によれば、ニューラルネットワークは、同じようにして異常を指し示すことはない。ニューラルネットワークがどこを見るか、つまり、ニューラルネットワークの出力にフィードするピクセルの画像上の位置は、Ｇｒａｄ－ＣＡＭ＋＋等の解析ツールによって説明できる。図１４は、既存の教師なし技術において、ニューラルネットワークが、異常に焦点を当てるのはなく、画像全体から入力を取っていることを表す。異常の位置のための教師なし学習をサポートするための入力データとしては２つのタイプがある。入力は、欠陥なし領域及び異常領域の両方を有しているロー（raw）画像である。他方は、異常の位置のみのマスキングされた画像である。既存の教師なし学習は、異常の周りの広い範囲を調べるが、教師あり学習は、特に、グラウンドトゥルース（ｇｆ）のような異常を調べる。実施形態は、教師なし機械学習が、異常に対して局所的なピクセルに基づいた分類によって、異常を適切に分類することを可能にする。

実施形態に従って、前記第１プロセスで前記分類ＡＮＮによって処理された前記入力データセットの前記マスキングされたバージョンは、前記対応するマスクによってマスキングされることに加えて、画像フィルタによってフィルタ処理されてもよく、あるいは、画像変換アルゴリズムによって変換されてもよい。

有利なことに、入力データセットのマスキングされたバージョンの変換されたバージョンは、第１プロセスで分類ＡＮＮを訓練するための追加の画像を提供する。更には、変換されたバージョンは、異常の特性を強調し得る。

任意に、前記自動生成されたラベルは、各画像変換アルゴリズム又は画像フィルタがラベルにマッピングするように、前記バージョンに適用されている前記画像変換アルゴリズム又は画像フィルタによって決定され、前記ラベルの値は、互いに異なる任意の値である。第１プロセスは、マスクの適用によって画像の関連部分を見るように分類ＡＮＮに有効に教示する。故に、ラベル付けは、画像を文類似するための基礎を提供することであるが、重要な機能的側面は、異常が起こっている画像領域を“見る”（すなわち、そのような領域からの値に基づいてパラメータにより高い重み付けを適用する）ようにＡＮＮ２１０を調整するのに役立つマスキングである。

任意に、前記画像フィルタは、エンボス画像フィルタであり、あるいは、前記画像変換アルゴリズムは、エンボス加工画像変換アルゴリズムである。

エンボル加工（embossing）は、ピクセル値（すなわち、色）の変動がさもなければ検出するのが困難であるデプスを有している異常を強調するので、特に有利である。

任意に、前記入力データセットの前記マスキングされたバージョンは、前記入力データセットの各メンバーの複数のバージョンを有し、該複数のバージョンは、複数の画像変換アルゴリズム又は画像フィルタの選択の夫々が適用された前記画像である。

この場合に、複数のバージョンは、第１プロセスで分類ＡＮＮを訓練するための追加のコンテンツを提供し、そして、特定の変換の対象となるときに分類ＡＮＮに多かれ少なかれ明らかな特定の異常が存在する可能性がある。

任意に、前記教師なし異常検出は、画像の欠陥なし部分を生成するよう、かつ、前記入力データセットからの画像の欠陥なしバージョンを生成し、当該画像を前記生成された欠陥なしバージョンと比較して前記マスクを生成することによって、当該画像に対応するマスク画像を生成するよう事前訓練されたオートエンコーダ又は生成ニューラルネットワークにより実行される。前記生成ニューラルネットワークは、敵対的生成ニューラルネットワークである。

このようにして構成されたオートエンコーダ及びＧＡＮは、教師なし異常検出を実行するための効率的かつ正確なメカニズムを提供する。更には、予め教育することは、取得するのが容易であって、取得するのが難しい欠陥画像に依存しない欠陥なし画像を必要とする。

任意に、前記第１プロセスでの前記損失関数は、ピクセル単位の交差エントロピ損失である。他の交差エントロピ損失関数が利用されてもよい。損失関数は交差エントロピ損失であってもよい。損失関数は、バイナリ（binary）交差エントロピ損失、微分（derivative）交差エントロピ損失、シグモイド（sigmoid）交差エントロピ損失、又はカテゴリ的（categorical）交差エントロピ損失であってもよい。

任意に、各訓練エポックは、第３プロセスで、前記入力データセットの前記マスキングされたバージョンの各々の画像にノイズデータを加えることによって（、及び変換又はフィルタを適用することによって）、前記入力データセットの前記マスキングされたバージョンの各画像の変更されたバージョンを、変更されたマスキングされた入力データセットとして生成することと、前記マスキングされた入力データセットである入力データセットＡを前記分類ＡＮＮが処理すること、及び前記変更されたマスキングされた入力データセットである入力データセットＢを前記分類ＡＮＮが処理することに基づいて、損失関数として相互情報を最大化するよう前記分類ＡＮＮを更に訓練することとを更に含む。

有利なことに、３つのプロセスを組み合わせることは、３つのプロセスの総損失が分類ＡＮＮを訓練する際に使用されることを可能にし、それにより、各訓練エポックで、分類ＡＮＮは、どこを見るべきか、及びどのように分類すべきかを教示される。

要約すると、３つの損失があり、それらは、分類ＡＮＮを訓練するために合算され得る。第１プロセスの交差エントロピのＬｏｓｓ１、第２プロセスの交差エントロピのＬｏｓｓ２、及び第３プロセスの相互情報のＬｏｓｓ３を用いて、Ｔｏｔａｌ＿ｌｏｓｓ＝ａ×Ｌｏｓｓ１＋ｂ×Ｌｏｏｓ２＋ｃ×Ｌｏｓｓ３である。

Ｌｏｓｓ１は、入力データの変換により生成されたグラウンドトゥルースを必要とする。それらは画像及びラベルである。

Ｌｏｓｓ２は、（ｒａｗ＊ｍａｓｋ）と比較してグラウンドトゥルースとして疑似ラベルを必要とする。

Ｌｏｓｓ３は、相互情報によって（ｒａｗ＊ｍａｓｋ）を（ｒａｗ＊ｍａｓｋ＊ａｆｆｉｎ＋ｎｏｉｓｅ）と比較する。

他の態様の実施形態は、コンピュータ装置の実施形態と、画像を生成し、前記コンピュータ装置による処理のために前記生成された画像を入力データセットとして記憶するよう構成されるイメージング装置とを有するシステムを含む。

任意に、前記画像は生産サンプルの画像であり、システムは、製品又は材料を生産サンプルとして生産する生産環境を更に有してもよい。

他の態様の実施形態は、画像内の異常を識別及び分類する方法を含み、方法は、
画像の入力データセットに対して教師なし異常検出を実行して前記画像から異常部分を検出して、前記データセット内の画像ごとに、当該画像内のあらゆる検出された１つ以上の異常部分を伝えて異常なし部分をブロックする対応するマスク画像を生成することと、
分類人工ニューラルネットワーク（ＡＮＮ）を訓練することと
を有し、
前記訓練することは、各訓練エポックにおいて、
第１プロセスで、
前記分類ＡＮＮにより前記入力データセットのマスキングされたバージョンを処理し、該マスキングされたバージョンが、前記対応するマスク画像によってマスキングされた前記入力データセットの各画像を有し、そして、自動生成されたラベルをグラウンドトゥルースとして使用して交差エントロピ損失関数を最小化することによって異常部分を複数の分類のうちの１つに分類するよう前記分類ＡＮＮを訓練することと、
前記分類ＡＮＮから、前記入力データセットの前記マスキングされたバージョンの各画像の潜在的な特徴表現を抽出することと、
第２プロセスで、
前記入力データセットの各画像に対応する疑似ラベルを取得するために、前記潜在的な特徴表現の夫々を、異なった関連する疑似ラベルを夫々有している複数のクラスタのうちの１つにクラスタ化するよう教師なしクラスタリングアルゴリズムを前記潜在的な特徴表現に適用することによって前記入力データセットの前記マスキングされたバージョンに対応する疑似ラベルの組を生成することと、
前記入力データセットの各画像が当該画像の疑似ラベルをグラウンドトゥルースとして使用して前記分類ＡＮＮによって分類される分類間の損失関数を最小化するよう前記分類ＡＮＮを訓練することと
を含み、
前記方法は、訓練条件を満足するまで繰り返し前記訓練エポックを実行し、前記入力データセットの画像ごとに、各検出された異常部分の識別を、当該異常部分が前記分類ＡＮＮによって分類される対応する分類とともに出力することを有する。

他の態様の実施形態は、プロセッサハードウェア及びメモリハードウェアを備えたコンピュータ装置によって実行される場合に、コンピュータ装置に、上述された又は本明細書のどこかで記載されている方法の実施形態を実行させるコンピュータプログラムを含む。

任意に、コンピュータプログラムは、非一時的なコンピュータ記憶媒体に記憶されている。

実施形態は、添付の図面を参照して記載される。

実施形態のハードウェアアーキテクチャを表す。実施形態における処理フローを表す。実施形態においてデータセット及びデータアーチファクトによる処理フロー及びインタラクションを表す。教師なし異常検出のためのニューラルネットワークが事前訓練されるプロシージャを表す。実施形態においてデータセット及びデータアーチファクトによる処理フロー及びインタラクションを表す。欠陥の有無による生産サンプルの画像を表す。実施形態における処理のフローを表す。実施形態における処理のフローを表す。第１プロセスをより詳細に表す。ラベルを自動生成するプロシージャをより詳細に表す。実施において訓練エポックによる特徴マップの工程を表す。トランジスタ画像データセットによる実施における特徴マップを表す。先行技術の方法と比較して１５個の異なった入力データセットによる実施における結果の表である。実施形態を先行技術のアルゴリズムと比較する。実施形態を先行技術のアルゴリズムと比較する。本発明を具現するコンピューティングデバイスのブロック図である。

図１は、実施形態のハードウェア配置の概略図である。ハードウェアは、プロセッサハードウェア１００及びメモリハードウェア２００を有する。メモリハードウェア上での分類（classifier）ＡＮＮ２１０の記憶が表されている。プロセッサハードウェア１００及びメモリハードウェア２００は、例えば、品質制御メカニズムの部分として、生産環境に置かれ得る、ことが知られている。代替的に、プロセッサハードウェア１００及びメモリハードウェア２００は、生産環境から離れていてもよいが、入力データセットとして生産環境から生産サンプルの画像を供給される。

プロセッサハードウェア１００及びメモリハードウェア２００は、コンピュータシステムのコンポーネントであってもよい。プロセッサハードウェア１００は、１つ又は複数の相互接続されたＣＰＵであってもよい。メモリハードウェア２００は、揮発性メモリ、不揮発性メモリ、又は季節性及び不揮発性メモリの組み合わせを有してもよい。メモリハードウェア２００は、プロセッサハードウェア１００による実行のための処理命令を記憶している。加えて、メモリハードウェア２００は、図２及び図３に表されているようなステップ又はプロセスがメモリハードウェア２００と協働してプロセッサハードウェア１００によって実行されている間に、データセットを記憶してもよい。

分類ＡＮＮ２１０は、画像の分類のための人工ニューラルネットワークである。そのようなＡＮＮの例はＡｌｅｘＮｅｔである。実施形態のプロセッサは、分類ＡＮＮ２１０を訓練及び実装する。分類ＡＮＮ２１０は、ディープニューラルネットワーク（Deep Neural Network，ＤＮＮ）であってもよい。

図２は、実施形態のプロセスを表す。プロセスは、図１に表されているようなハードウェアによって実行されてもよい。図２は、訓練が続くかどうか、又は方法が出力ステップＳ１０６に進むかどうかを制御するロジックを表す。ロジックは図３において同じであるが、実例を簡単にしかつデータセット及び他のアーチファクトが強調表示されることを可能にするために表されていない。図３は、図２のプロセスを表し、各ステップで処理、生成、又は訓練されるデータセット及び他のアーチファクト（人工ニューラルネットワークを含む）を強調表示する。

Ｓ１０１で、教師なし異常検出が、生産環境からの生産サンプルの複数の画像を含む入力データセットＤ１０１に対して実行される。生産サンプルは、例えば、生産環境で製造される工業製品であってもよい。生産サンプルは、生産環境で製造されるか又はそのたの方法で加工（切断、研削、研磨、洗浄）される自然又は工業材料の部分であってもよい。実施形態は、生産サンプルの画像上で異常の位置を識別し、その識別された異常を複数のグループのうちの１つに分類することによって、品質制御メカニズムに関与する。実施形態のプロセスは教師なしであるから、人間の専門家による異常のラベル付けが、ニューラルネットワークに学習させるために必要とされる。

教師なし異常検出Ｓ１０１は、比較アルゴリズムに加えて、事前訓練されたオートエンコーダ又は敵対的生成（generative adversarial）ニューラルネットワーク２２０を利用する。事前訓練（「事前」とは、図２及び図３で表されているプロセスとは別のプロセスであって、生成（generator）ニューラルネットワーク２２０がＳ１０１で利用される前に実行されることを意味する。）は、欠陥なし画像（又は主に欠陥のない画像）を生成ニューラルネットワーク２２０（プロセスにおいて後で導入される分類ニューラルネットワーク２１０との混乱を避けるために生成ニューラルネットワーク２２０と呼ぶ。）へフィードすることによって達成される。訓練は、ノイズ又は人工的欠陥を欠陥のない訓練画像に有効に付加し、生成ニューラルネットワーク２２０に画像又は画像部分を再構成することを学ばせて、弁別器が元の欠陥のない訓練画像から再構成を区別することができないようにする。教師なし異常検出を実行するように生成ニューラルネットワーク２２０を訓練することに関する更なる詳細は、例えば、ＥＰ３７３９５１３、又はhttps://www.fujitsu.com/global/about/resources/publications/technicalreview/2020-02/article03.htmlで提供されている。

Ｓ１０１は、製品サンプル画像ごとにマスク画像を生成するために、異常領域を見つけることができるあらゆる異常検出方法によって実行されてもよい。例えば、ＧＡＮ（Generative Adversarial Network）又はＣＮＮ（Convolutional Neural Network）がある。予備処理ステップとして、これらのネットワークは、Ｓ１０１で利用される前に訓練される必要があり得る。

図４は、生産サンプルの画像の欠陥なし部分を生成するよう訓練されている（これは事前訓練である）生成ニューラルネットワークアーキテクチャの例である。Ｓ１０１で使用される生成ニューラルネットワークは、例えば、生成ニューラルネットワーク２２０が弁別（discriminator）ニューラルネットワーク２２１による実際のデータからの弁別のためにデータを生成する敵対的生成ニューラルネットワークであってもよい。生成ニューラルネットワーク２２０の目標は、弁別ニューラルネットワーク２２１が実際のデータから弁別することができないデータを生成することである。弁別ニューラルネットワーク２２１からの出力（生成データは実際のデータであるか又はそうでない。）は、例えば、後方誤差伝播（backwards error propagation）によって、生成ニューラルネットワーク２２０を訓練する。生成ニューラルネットワーク２２０は、弁別ニューラルネットワーク２２１が実際のデータから区別することができないデータを生成するよう訓練される。弁別ニューラルネットワーク２２１も、他方で訓練されるが、生成されたデータと実際のデータとを区別するよう訓練される。例えば、弁別ニューラルネットワーク２２１は、実際のデータと生成されたデータとを区別することに成功したか否かを通知され、例えば、後方誤差伝播によって、弁別することに成功するよう訓練される。従って、人間又は手動による介入なしで、生成ニューラルネットワーク２２０及び弁別ニューラルネットワーク２２１は互いを訓練する。訓練データがラベル付けされる必要性がないので、人間の専門家からの入力の必要性は排除される。

事前訓練において、実際のデータは生産サンプル（例えば、材料表面）の画像であってもよい。任意に、実際の画像は、ｎ個の領域に（例えば、格子状に）分割される場合に、欠陥がない領域が閾比率よりも多い生産サンプルの画像であってもよい。閾比率は、例えば、０．９９、０．９５、０．９０であってよく、あるいは、０．９よりも大きく１以下である範囲内にあってもよい。例えば、訓練画像は、実施形態で処理されることになる入力データセットの画像と同じ製品／材料の生産サンプルの画像であってもよい。

事前訓練ステップは、欠陥を低減された生産サンプルの画像として欠陥を含む生産サンプルの画像をどのように再生すべきかを学ぶよう、図２に表されているような敵対的生成ネットワーク技術を利用する。

Ｓ１０１で、入力データセットからの画像は、欠陥を除くよう事前訓練で訓練されている生成ニューラルネットワーク２２０によって処理される。画像の処理済みバージョンと画像の元の入力バージョンとの間の生成されたエラー、すなわち、差（予備処理にかかわらず）は、欠陥の位置で大きくなる。従って、入力画像のそれら２つのバージョンの間のピクセル値の比較（比較アルゴリズムによる）は、欠陥の位置が識別されることを可能にする。例えば、２つのバージョンの等価なピクセル間のピクセル値の差の比率は、エラーとして登録されてもよく、所与のサイズの領域で閾比率よりも大きいエラーは、欠陥として登録されてもよい。Ｓ１０１は、このように、画像の元の入力バージョンと画像の生成されたバージョンとの比較を実行する比較アルゴリズムと連携して、事前訓練された生成ニューラルネットワーク２２０によって実行される。

特に、Ｓ１０１で、プロセッサハードウェア１００は、生産サンプルの画像の入力データセットに対して教師なし異常検出を実行してそれらの画像から異常部分を検出して、データセット内の画像ごとに、その画像内のあらゆる検出された１つ以上の異常部分を伝えて異常なし部分をブロックする対応するマスク画像を生成するよう構成される。

Ｓ１０１の出力は、入力データセットＤ１０１の各画像のマスクであり、各画像を対応するマスクと組み合わせることで、入力データセットのマスキングされたバージョンＤ１０２ａを生成する（すなわち、入力データセットＤ１０１が画像Ａ、画像Ｂ、画像Ｃ、等である場合に、マスキングされたバージョンＤ１０２ａはマスクＡ＊画像Ａ、マスクＢ＊画像Ｂ、マスクＣ＊画像Ｃ、等である。）。

入力された未加工の画像ごとに、ステップＳ１０１では、対応するマスク画像が生成される。ステップＳ１０２では、いくつかの画像処理が２つを組み合わせるよう実行され、それにより、未加工の画像ＡはマスクＡと組み合わされ、未加工の画像ＢはマスクＢと組み合わされる、等。Ｄ１０１から「未加工の入力画像Ａ」（少なくとも１つの欠陥領域を含む）を有するとき、教師なし異常検出Ｓ１０１では、教師なし方法を用いて異常が取り除かれている「未加工の入力画像Ａ」である「再構成された画像Ａ」が取得される。次いで、「異常マスク画像Ａ」が、「未加工の入力画像Ａ」を「再構成された画像Ａ」と比較することによって取得される。Ｄ１０２ａを生成するために、実施形態は「未加工の入力画像Ａ」と「異常マスク画像Ａ」とを組み合わせる。以降同様に、入力データセットＤ１０１全体によりＤ１０２ａを生成する。

Ｄ１０１からの未加工の入力画像：欠陥領域及び欠陥なし領域（すなわち、良及び不良ピクセル）を含む元の画像。

Ｓ１０１によって供給されるマスク画像：黒（通常）／白（異常）による異常の位置（すなわち、通常のピクセルをブロックして異常を伝える）。

変換された画像（入力画像のマスキングされたバージョン）Ｄ１０２ａ：元の画像の異常の位置のみ。

実施形態において、訓練フェーズとライブフェーズとの厳密な分離はない（例外は、図４を参照して上述されたように、生成ニューラルネットワーク２２０の事前訓練が別個のプロセスであることである。）。分類ＡＮＮ２１０は、ライブデータを用いて教師なしで（すなわち、手動（すなわち、専門家）による入力又は訓練プロセスの監督は不要である。）訓練される。エポックは、分類ＡＮＮ２１０がそこで訓練されるため、訓練エポックと呼ばれるが、訓練はライブデータに基づいているため、単にエポックと呼ばれることがある。訓練エポックは、訓練条件が満足されるまで繰り返される。例えば、訓練条件は、固定数のエポックであってもよく、あるいは、それは、分類ＡＮＮ２１０での調整可能な重み及びバイアスの収束の程度に到達していることであってもよい。

各訓練エポックは２つの別個のプロセスを含み、任意に、第３のプロセスを含む。それらの夫々は、分類ＡＮＮ２１０の調整可能な重み及びバイアスのいくらかの調整（すなわち、訓練）を含む。各プロセスはそれ自体の損失関数を有している（第１及び第２のプロセスでは交差エントロピ、第３のプロセスでは相互情報）。訓練は、３つの損失関数を合算し（任意に３つ全てに重みが適用される）、和を最小化するよう後方誤差伝播によって分類ＡＮＮで調整可能な重み及びバイアスを調整することによってもよい。第１のプロセスはステップＳ１０１からＳ１０３を有する。第２のプロセスはステップＳ１０４からＳ１０５を有する。よって、訓練エポックはステップＳ１０２からＳ１０５を有し、一連のステップは、必要とされる訓練エポックの数に応じて繰り返される。各プロセスは、訓練エポックごとに一度実行される。プロセスは、実施形態の理解を助けるために異なるプロセスとして記載される。各プロセスは分類ＡＮＮ２１０のいくらかの訓練を実行するので、これは、分類ＡＮＮ２１０が第１のプロセス後に分類ＡＮＮ２１０ａになり、第２のプロセスの後に分類ＡＮＮ２１０ｂになることによって示される。実施において、複数の訓練エポックが存在してもよく、それにより、エポックｎからの分類ＡＮＮ２１０ｂは、エポックｎ＋１の開始時の開始分類ＡＮＮ２１０である。同様に、訓練エポックごとに３つのプロセスがある場合に、エポックｎからの分類ＡＮＮ２１０ｃは、エポックｎ＋１の開始時の開始分類ＡＮＮ２１０である。訓練（すなわち、各々の損失関数を最小化／最大化するための調整可能な重み及びバイアスの調整）は、各プロセスごとに、あるいは、２つ／３つの全ての損失関数の和に基づきエポックごとに一度、行われ得る。

訓練エポックは、訓練条件が満足されるまで続く。例えば、条件は、訓練エポックの予め定義された数が満足されることであってよい。あるいは、条件は、分類ＡＮＮ２１０での調整可能な重み及びパラメータが、収束条件を満足する程度に収束することであってよい。例えば、収束条件は、単一の又は予め定義された数の訓練エポックにわたる調整可能なパラメータの最大の変化（全ての調整可能な重み及びパラメータの合計による）であってよく、それにより、そのような変化が最大の変化を下回る場合に、収束条件は満足される。当然、移動平均（rolling average）等のより複雑なメトリックが、収束を定量化するために使用されてもよい。同様に、ここでの条件は、訓練を停止するために満たす必要のある条件として提示される（そして、処理はステップＳ１０６に進む）が、実施は、逆論理を使用して、訓練を続けるために満たす必要がある条件を有してもよい。

Ｓ１０２で、分類ＡＮＮ２１０は、入力データセットのマスキングされたバージョンＤ１０２ａを処理する。Ｓ１０２で、入力データセットのマスキングされたバージョンＤ１０２ａは分類ＡＮＮ２１０により処理され、マスキングされたバージョンＤ１０２ａは、対応するマスク画像によってマスキングされた入力データセットＤ１０１の各メンバーを含み、分類ＡＮＮ２１０は、交差エントロピ損失関数を最小化することによって異常部分を複数の分類のうちの１つに分類するよう訓練される。分類ＡＮＮ２１０は、入力データセットのマスキングされたバージョンＤ１０２ａを構成するマスキングされた画像を分類する。分類ＡＮＮ２１０が次のエポックで損失関数を低減し得るように、いくらかの訓練（すなわち、交差エントロピ損失関数を最小化しようとする後方誤差伝播による分類ＡＮＮ２１０での調整可能な重み及びバイアスの調整）が実行される。分類ＡＮＮ２１０ａは、いくらかの訓練が分類器２１０に対して行われた可能性があることを示す。

分類ＡＮＮ２１０は、ディープニューラルネットワーク（ＤＮＮ）と呼ばれることがあり、損失関数としての交差エントロピ及び後方誤差伝播を用いて訓練される。分類ＡＮＮ２１０は、交差エントロピを最小化するよう訓練され、グラウンドトゥルースは、画像と、入力データの変換によって生成されたラベルとである。グラウンドトゥルースは画像及びラベルである。これは、グラウンドトゥルースが異常の一種ではなく、専門家によって提供された情報である必要があるので、教師なし又は自己教師あり（self-supervised）学習と呼ばれる。第１の例では、グラウンドトゥルースは自己生成された（又は自動化された）ラベルであり、画像に適用された変換又は異常の位置を表す。故に、例えば、ラベルは、同じ画像の各バージョンに異なるラベルを適用することによって生成され得る。これは図９Ｂに表されている。最初に、未加工の画像及びマスク画像の両方を用いて、異常部分のみのマスキングされた未加工の画像（Ａ）が作られる（入力データセットからの入力画像のマスキングされたバージョン）。次いで、１つ以上の変換されたマスキングされた画像が、異なる変換又はフィルタを用いて（Ａ）から作られる。変換されていないマスキングされたバージョン及び１つ以上の変換されたバージョンは全て、分類ＡＮＮ２１０を訓練するための入力データである。各バージョンには異なるラベルが割り当てられる。すなわち、ラベルは、画像に適用された変換によって決定されるが、ラベルに対する変換のマッピングは任意である（故に、例えば、マスキングされた未加工の画像が“０”であり、エンボスが“１”である理由は、それが異なるラベルである限りはない。）。画像にラベルを付す方法は、単にそれらを数えることである。故に、それらにどのようなラベルを付けることでき、例えば、（Ａ）＝‘０’、（Ｂ）＝‘１’、及び（Ｃ）＝‘２’である。当然、‘Ａ’、‘Ｂ’及び‘Ｃ’も使うことができる。それらのラベルの名称には意味がない。画像に適用されるラベルは、その画像を生成するために適用された変換（又は変換の欠如）に依存する。故に、ラベルが分離されている限りは、どのようなラベルも使用することができる。

例示的な方法は、生データなしで異常部分の色を変更することによって画像を作成することである。これは、分類ＡＮＮ２１０が異常部分を学習するのに依然として役立つからである（この例では、各色が異なるラベルに対応することになる）。ただし、生データを使用すると、分類ＡＮＮ２１０が異常な特徴の小さな違いを学習するのに役立つ。更には、状況によっては背景色（通常部分）が変更されてもよい。全ての異常が黒色の場合、黒よりも白の方が良い場合がある。

入力された（未加工の）画像及び対応するマスクは、分類ＡＮＮ２１０による分類前に変換されてもよい。マスキングされた画像の変換されたバージョン及び変換されていないバージョンの両方が分類ＡＮＮ２１０によって分類され得る。いずれの場合にも、グラウンドトゥルースは、画像のバージョンを生成するために適用された変換（又は変換の欠如）を表す自己生成された（又は自動化された）ラベルである。ここで、ラベルは、夫々の異なった変換（又は変換なし）を異なるラベルにマッピングすることによって生成される。ラベルは、「自己生成された」又は「自動化された」又は「自動的に生成された」と言われるが、これは、それらが、手動／専門家入力なしでシステム／アルゴリズム／プロセス／プログラム／メソッドによって生成されるからである。

分類１：
入力：変換済み（Transformed）＊未加工（Raw）＊マスク（Mask）
グラウンドトゥルース：自己生成された（自動化された）ラベル
損失１：交差エントロピ

ネットワークは、異常を分類するために訓練される。なお、目的は、異常の特徴を抽出することである。未加工の画像の欠陥なし領域（異常がない）は、それらがマスキングされているので、ほとんど同じである。故に、差は異常部分のみである。ネットワーク（すなわち、分類ＡＮＮ２１０）は、異常領域（位置）のみを見ることによって学習する。これは、ネットワークが基本的に差を探してそれらを分類するからである。同じニューラルネットワークが第２（及び第３）のプロセスで使用されるので、第２及び第３のプロセスはこの第１のプロセスの影響を受ける。

ステップＳ１０２での訓練は、画像（すなわち、異常）間の差を強調／抽出／ハイライトする特徴セットを生成するようネットワークを訓練し、類似性（すなわち、欠陥なし部分）を無視する。

入力データセット１０２ａのマスキングされたバージョンＤ１０２ａは、Ｓ１０２での分類ＡＮＮ２１０による処理の前に変換されてもよい。如何なるフィルタ／変換も選択されてもよく、変換の目的は異常を強調することであるから、選択は、画像化される生産サンプルにいくらか特有である。例示的な変換／フィルタはエンボスであり、これは、深さの違いを強調し、分類ＡＮＮ２１０が異なるタイプの異常の間の差を認識するのを助ける。変換されたバージョンは、変換されていないバージョンの代わりに、又はそれに加えて、入力されてもよい。同様に、１つよりも多い変換されたバージョンが入力されてもよい（夫々異なった変換を適用されている）。

分類ＡＮＮ２１０は、訓練プロセスで調整可能である重み及びバイアスを含むパラメータによって一部が影響を及ぼされる一連の動作により、１つ以上の入力画像を潜在的な特徴表現にマッピングする。訓練において、重み及びバイアスを変更することは、潜在的な特徴表現に対する画像表現のマッピングを変更し、更には出力分類を変更する。分類は、潜在的な特徴表現から取得された最終的な観測可能な表現である。

入力画像の潜在的な特徴表現は、画像を表す特徴セットであって、分類ＡＮＮ２１０が入力画像を分類することができる特徴の組を提供する。実施形態において、ステップＳ１０３は、入力画像のマスキングされたバージョンＤ１０２ａの潜在的な特徴表現を分類ＡＮＮ２１０から抽出するステップである。抽出は、２つの方法のうちの１つで達成され得る。アルゴリズムは、分類ＡＮＮ２１０が入力画像のマスキングされたバージョンＤ１０２ａを処理する場合に分類ＡＮＮ２１０をモニタし、そのプロセス中に各画像の潜在的な特徴表現を抽出するよう構成され得る（すなわち、分類ＡＮＮ２１０は、各画像の潜在的な特徴表現を出力するよう構成され、そのような出力は記憶され、出力及び記憶はアルゴリズムである）。代替的に、入力と潜在的な特徴表現との間の分類ＡＮＮ２１０のレイヤは、分離され、入力画像のマスキングされたバージョンＤ１０２ａに適用される（すなわち、マスキングされたバージョンＤ１０２ａは分類ＡＮＮ２１０によって処理されるが、処理は分類の前に止まり、それにより、出力は各々の入力画像の潜在的な特徴表現である）。

潜在的な特徴表現Ｄ１０３は、記憶され、Ｓ１０４で教師なしクラスタリングアルゴリズムにアクセス可能にされる。教師なしクラスタリングアルゴリズムは、入力データセットの各メンバーに対応する疑似ラベルを取得するために、潜在的な特徴表現の夫々を、異なった関連する疑似ラベルを夫々有している複数のクラスタのうちの１つにクラスタ化するよう教師なしクラスタリングアルゴリズムを潜在的な特徴表現に適用することによって、入力データセットのマスキングされたバージョンに対応する疑似ラベルの組を生成するために使用される。このように、ステップＳ１０４は、各潜在的な特徴表現をクラスタにマッピングするために教師なしクラスタリングアルゴリズムを使用する。各クラスタは疑似ラベル（例えば、疑似ラベルＡ、疑似ラベルＢ、疑似ラベルＣ）と関連付けられる。各潜在的な特徴表現は、入力データセットのマスキングされたバージョンＤ１０２ａの異なるメンバーを表すので、入力データセットＤ１０１の各メンバーは特定の疑似ラベルと関連付けられることが理解され得る。

教師なしクラスタリングアルゴリズムは、例えば、ｋ－ｍｅａｎｓであってもよいが、如何なる教師なしクラスタリングアルゴリズムも利用され得る。

生産サンプルの単一の入力画像の処理をチャート化する：Ｓ１０１で、教師なし異常検出が行われ、入力画像の対応するマスキングされたバージョンが取得される。Ｓ１０２で、マスキングされたバージョンは分類ＡＮＮ２１０によって処理され、Ｓ１０３で、マスキングされたバージョンの潜在的な特徴表現が抽出される。Ｓ１０４で、潜在的な特徴表現の教師なしクラスタリングが実行され、潜在的な特徴表現がクラスタにマッピングされる。クラスタは疑似ラベルに対応する。従って、ステップＳ１０１からＳ１０４を介して、各入力画像は疑似ラベルにマッピングされる。

Ｓ１０５で、分類ＡＮＮ２１０ａは、分類ＡＮＮ２１０ａによって出力された分類間の損失を最小限とするための損失関数である損失関数と、グラウンドトゥルースとして対応する画像と関連付けられた疑似ラベルＤ１０４とを用いて、入力データセットのマスキングされたバージョンＤ１０２ａを分類するよう訓練される。Ｓ１０５は、入力データセットのマスキングされたバージョンＤ１０２ａの各メンバーが、そのメンバーの疑似ラベルをグラウンドトゥルースとして使用して分類ＡＮＮ２１０ａによって分類される分類間の損失関数を最小化するよう、分類ＡＮＮ２１０ａを訓練することを有する。すなわち、疑似ラベルＤ１０４は、入力データセットの各々のマスキングされたバージョンＤ１０２ａをラベル付けするためのグラウンドトゥルースとして使用され、分類ＡＮＮ２１０ａによって生成された入力データセットのマスキングされたバージョンの分類は、（例えば、後方誤差伝播により）損失関数を最小化するよう訓練（すなわち、分類ＡＮＮ２１０ａでの調整可能な重み及びパラメータの調整）を実行しながら、損失関数でグラウンドトゥルースと比較される。それによって、分類ＡＮＮ２１０ａは、分類ＡＮＮ２１０ｂになるよう変更される。

ステップＳ１０２からＳ１０５は単一の訓練エポックを形成し、上述されたように、訓練条件が満足されるまで繰り返し実行される。訓練エポックの完了時の分類ＡＮＮ２１０ｂは、図５で分類ＡＮＮ２１０ｂと分類ＡＮＮ２１０との間の上向き矢印によって表されるように、次の訓練エポックのための開始時の開始分類ＡＮＮ２１０になる。

Ｓ１０６は、訓練条件が満足されると実行される最終的な出力ステップである。どのようなデータがどのようなフォーマットでどの出力あて先へ出力されるかの厳密な構成は、実施要件に応じて設定可能である。Ｓ１０６は、入力データセットＤ１０１のメンバーごとに、各検出された異常部分の識別を、その異常部分が分類ＡＮＮ２１０ｂによって（具体的には、訓練条件を満足する形式の分類ＡＮＮによって）分類される対応する分類とともに、出力することを含んでもよい。

出力は、表示ユニットでの表示によっても、スピーカによるオーディオ形式を取っても、ユーザインターフェースに書き出すことによっても、１つ以上のアプリケーション又はユーザインターフェースによるアクセスのためにメモリ位置に書き込まれることによっても、メッセージ受信者等の定義されたデータあて先への伝送によっても、生産環境内の他のデバイスへの伝送によっても、あるいは、予め定義されたメモリ値での記憶によってもよい。効果は、生産サンプルでの異常の位置を識別し、その異常に分類ラベルを適用することである。分類ラベルの適用は、単一の分類ラベルが入力データセットＤ１０１にわたって複数の異常に適用され得るので、分類ラベルの適用は有用であり、故に、分類への意味論的意味の割り当ては複数の異常に対して一度実行される（分類がない場合には、異常ごとに一度である）。

図５は、各訓練エポックに第３のプロセスを含めることを含む実施形態を表す。例えば、第３のプロセスは、入力データセットのマスキングされたバージョンの各々のメンバーにノイズデータを加えることによって（及び変換又はフィルタを適用することによって）、入力データセットのマスキングされたバージョンの各々のメンバーの変更されたバージョンＤ１０２ｂを、変更されたマスキングされた入力データセットＤ１０２ａとして生成し、入力データセットのマスキングされたバージョンＤ１０２ａである入力データセットＡを分類ＡＮＮが処理すること、及び入力されたデータセットの変更されたマスキングされたバージョンＤ１０２ｂ入力データセットである入力データセットＢを分類ＡＮＮが処理することに基づいて、損失関数としての相互情報を最大化するよう分類ＡＮＮを更に訓練するステップＳ１１５を有してもよい。第３のプロセスは、訓練エポックごとに３つのプロセスのうちの最初、２番目、又は３番目に実行されてもよい。第２のプロセスは第２のプロセッサによって生成されたデータに依存する一方で、第３のプロセスにはそのような依存性がないことが分かる。

第３のプロセスで、分類ＡＮＮ２１０は更に訓練される。これは、図５において分類ＡＮＮ２１０に適用される参照符号２１０ｃによって表され、訓練エポックごとに３つの訓練プロセスを介した分類ＡＮＮ２１０の進化が強調されており、そのようなものとして、分類ＡＮＮ２１０ａa、分類ＡＮＮ２１０ｂ、及び分類ＡＮＮ２１０ｃとして表されている。上記のように、３つのプロセスの順序は変更されてもよく、分類ＡＮＮ２１０ｃは実際に、分類ＡＮＮ２１０ａの前に生成されてもよいので、分類ＡＮＮ２１０ａは分類器２１０ｃの変更されたバージョンとなり、あるいはその逆のしかりである。図５においての分類ＡＮＮ２１０ｃと分類ＡＮＮ２１０との間の上向き矢印で示されているように、訓練エポックの完了時の分類ＡＮＮ２１０ｃは、次の訓練エポックのための開始分類ＡＮＮ２１０になる。

例において、第３のプロセスに入力される２つのデータセットは、入力データセットのマスキングされたバージョンＤ１０２ａ、すなわち、未加工の画像×マスクである入力データセットＡと、未加工の画像×マスク×アフィン（すなわち、変換）＋ノイズである入力データセットＢとである。変換は、例えば、エンボス画像処理変換であってもよい。

図５に表されている順序では、分類ＡＮＮ２１０ｂは第３のプロセスを実行するために使用され、その分類ＡＮＮ２１０ｂは、分類ＡＮＮ２１０ｃを実現するよう第３のプロセス中に訓練される。訓練は、例えば、この例では相互情報である損失関数の最大化からの後方誤差伝播による分類ＡＮＮ２１０ｂでの調整可能な重み及びバイアスの調整を含む。

相互情報損失は、不変情報クラスタリング（invariant information clustering，ＩＩＣ）を利用する（https://arxiv.org/pdf/1807.06653.pdfを参照されたい。）入力データセットは、入力データセットのマスキングされたバージョンＤ１０２ａ、すなわち、未加工の画像×マスクである入力データセットＡと、未加工の画像×マスク×アフィン（すなわち、変換）＋ノイズである入力データセットＢとである。ＩＩＣは教師なし技術であるから、このプロセスではグラウンドトゥルースは不要である。両方の入力データセットＡ及びＢを使用して、相互情報は、訓練が最大化しようとする損失関数として計算される。これは第２プロセスとは対照的である。第２プロセスは、損失関数として交差エントロピを使用し、よって、グラウンドトゥルースを必要とする（グラウンドトゥルースはＳ１０４から疑似ラベルの形で供給される）。第２プロセスでの訓練方法は、例えば、https://arxiv.org/pdf/1807.05520.pdfで記載されるようなＤｅｅｐＣｌｕｓｔｅｒであってもよい。

プロセス３：相互情報損失を計算する：入力はＡ（未加工×マスク×（フィルタ））及びＢ（未加工×マスク×（フィルタ）×アフィン（任意の変換）＋ノイズ）の両方である：それは教師なしクラスタリングからの疑似ラベルを使用しない。

入力：Ａ，Ｂ
出力：Ｐ（Ａ），Ｐ（Ｂ）
損失：Ｉ（Ｐ（Ａ），Ｐ（Ｂ））：相互情報

プロセス２：交差エントロピ損失を計算する：入力はＡ（未加工×マスク×（フィルタ））のみであるが、教師なしクラスタリングによって与えられる疑似ラベルがグラウンドトゥルースとして使用される。

入力：Ａ
特徴セット：ｆ（Ａ）
疑似ラベル：Ｑ（ｆ（Ａ））
損失：Ｌ（Ａ＿ｌａｂｅｌ，Ｑ（ｆ（Ａ）））：交差エントロピ

ノイズは、例えば、画像データに付加されたランダム若しくは疑似ランダムピクセル又は黒ピクセル（あるいは、形状等のピクセルのグループ）等のノイズの多いデータであってよい。分類器ＡＮＮ２１０は、不完全な画像データ、又は不完全であるか、そうでなければ同様に分類された異常の他の画像から逸脱している異常の画像の場合に適切に分類することを学習している。

Ｓ１１５での訓練の完了に続いて、分類ＡＮＮ２１０ｃは、図３のＳ１０５に関連して上述されたように、訓練条件が満足されているかどうかを決定するよう評価される。

図５で、二重ボックスは、問題のデータセットが分類ＡＮＮによって処理される前に、予備処理ステップとして変換又はフィルタが適用される可能性のあるデータセットに適用されている。各データセットに適用する変換又はフィルタは、予め決定された（つまり固定された）パラメータであるか、あるいは、方法全体に適用するパラメータとして決定されてもよい。特定のフィルタ又は変換が異なる生産サンプルタイプにより適している可能性があるため、例えば、適切なフィルタ又は変換を選択することにより、訓練の速度及び／又は分類の精度及び／又は異常検出の精度は向上し得る。二重ボックスが図５に示されているが、他の図、例えば、図３の同等のデータセットにも同様に適用される。

図７は、例えば、図２、図３及び図５の実施形態の代替の表示である。異なる回路図及びダイアグラムが同じ手順を示し、異なる特徴を強調することで理解を助けることは、コンピュータ実装技術の性質である。実施形態は、異常の種類を分類するよう分類ＡＮＮ２１０を同時に訓練及び試験するので、訓練フェーズ及び試験フェーズは分割されない。すなわち、分類ＡＮＮ２１０を訓練するために使用される入力データセットＤ１０１は、生産環境からのライブ画像のデータセットである。入力データセットＤ１０１は、様々なタイプの異常を含む画像である。教師なし異常検出Ｓ１０１は、上述されたように、システムの事前訓練された側面であり、入力画像から異常の位置をセグメント化することができる。次いで、ピクセル単位のＯＫ／ＮＧ（良又は不良）のマスキングされた画像Ｄ１０２ａが取得される。特徴アトラクタ７０１及び特徴抽出器７０２は、分類ＡＮＮ２１０から入力画像のマスキングされたバージョンＤ１０２ａの潜在的な特徴表現を抽出するステップＳ１０３を実行する。特徴は、Ｓ１０４で疑似ラベルを生成するために、よって、ステップＳ１０５で分類ＡＮＮ２１０を訓練するために、使用される。出力７０３として、入力画像ごとの異常の特徴マップ及び分類された異常タイプが取得される。

図８は、例えば、図２、図３、図５及び図７の実施形態の代替の表示である。図８は、対応する入力画像での欠陥の位置を示す対応するマスクＤ１０１ａを取得するよう、事前訓練されたニューラルネットワークによって入力画像Ｓ１０１（未加工の画像）が処理されることを表す。入力データセットＤ１０１及び対応するマスクＤ１０１ａは、入力データセットのマスキングされたバージョンＤ１０２ａを生成するよう結合される。変換器は、事実上、画像のバージョンを結合する画像プロセッサであり、任意に、分類ＡＮＮ２１０（本例では、ディープニューラルネットワーク（ＤＮＮ）である）への入力の前に、エンボス等の変換を適用する。

プロセス１は、参照符号１によって示され、異常を含む画像の部分を見るようＤＮＮ２１０を訓練するための異常位置のみの分類である。入力データは、エンボス等のフィルタリングされた未加工の画像である。分類ＡＮＮ２１０は、ディープニューラルネットワーク（ＤＮＮ）と呼ばれてもよく、Ｓ１０２で、損失関数としての交差エントロピ及び後方誤差伝播を使用して訓練される。Ｓ１０２での入力された（未加工の）画像及び対応するマスクは、分類ＡＮＮ２１０による分類の前に変換されてもよい。マスキングされた画像の変換されたバージョン及び変換されていないバージョンの両方が分類ＡＮＮ２１０によって分類され得る。いずれの場合にも、グラウンドトゥルースは、画像のバージョンを生成するよう適用される変換（又は変換の欠如）を表す自己生成された（自動化された）ラベルである。ここで、ラベルは、夫々の異なった変換（又は変換なし）を異なるラベルにマッピングすることによって生成される。ラベルは、「自己生成された」又は「自動化された」又は「自動的に生成された」と言われるが、これは、それらが、手動／専門家入力なしでシステム／アルゴリズム／プロセス／プログラム／メソッドによって生成されるからである。分類ＡＮＮ２１０は、交差エントロピを最小化するよう、つまり、グラウンドトゥルースに可能な限り近い分類を達成するよう、訓練される。入力は、入力データセットのマスキングされたバージョンＤ１０２ａ、又はその変換若しくはフィルタリングされた（例えば、エンボス加工された）バージョン（あるいは、変換されたバージョン及び変換されていないバージョン）のどれかである。

プロセス２は、参照符号２によって示されるが、第３のプロセスも図８に表されていることが分かる。Ｓ１０３で、特徴セットが、マスキングされたバージョンＤ１０２ａの潜在的な特徴表現Ｄ１０３を取得するよう抽出される。Ｓ１０４で、潜在的な特徴表現Ｄ１０３の教師なしクラスタリングが、潜在的な特徴表現Ｄ１０３をクラスタにマッピングするよう実行され、クラスタは疑似ラベルＤ１０４に対応する。Ｓ１０５で、ＤＮＮ２１０は、ＤｅｅｐＣｌｕｓｔｅｒに基づき、損失関数としての交差エントロピにより、グラウンドトゥルースとして疑似ラベルを用いて異常をグループに分類するよう訓練される。

第３のプロセスＳ１１５で、ＤＮＮ２１０による分類が実行される。分類は、マスキングされたバージョンＤ１０２ａとその更に変更されたバージョンＤ１０２ｂ（ノイズを加えることによる）との間の相互情報を最大化して、エントロピ最小化及びノイズがあるデータに伴う問題による確実性を持って単一の分類を予測することを回避することができる。第３のプロセスは、不変情報クラスタリングを利用する。

Ｓ１０６は、上述されたように、出力ステップであり、入力画像が、検出されたそれらの各々の異常の位置及び検出された異常に適用された分類とともに出力される。

図９Ａは、図８の第１プロセスを更に詳細に示す。未加工の画像及び異常位置のマスク画像が入力データとして使用される。それらは、未加工の画像をマスキングした後でいくつかのフィルタにより変換される。図の場合には、フィルタリングなし、エンボス、及び未加工がＤＮＮのための入力データとして使用される。ＤＮＮは、それらのラベルを交差エントロピにより分類する。従って、ネットワークは、他のエリアが同じ特徴であるということで、異常のみを見ることができるものであることができる。図９Ａは、損失１（すなわち、第１プロセスでの交差エントロピ損失）を計算するプロセスを示す。それは、変換された生データ（未加工＊マスク）を入力として、そして、それらのラベル（図９Ａでは０，１，２）を必要とする。ラベルはグラウンドトゥルースであり、（図９Ｂに表されるように）画像のバージョンを生成するよう適用された変換（又は変換の欠如）を表す自己生成されたラベルである。ラベルは、夫々の異なった変換（又は変換なし）を異なるラベルにマッピングすることによって生成される。ラベルは、「自己生成された」又は「自動化された」又は「自動的に生成された」と言われるが、これは、それらが、手動／専門家入力なしでシステム／アルゴリズム／プロセス／プログラム／メソッドによって生成されるからである。入力された（未加工の）画像及び対応するマスクは、分類ＡＮＮ２１０による分類の前に変換されてもよい。マスキングされた画像の変換されたバージョン及び変換されていないバージョンの両方が分類ＡＮＮ２１０によって分類され得る。入力画像の複数のバージョンを生成し、分類ＡＮＮ２１０による処理に備えてそれらのバージョンにラベルを付すプロセスは、入力データセット内の画像ごとに繰り返される。

これより、実施形態の実施を説明する。

実施において、現実のアプリケーションからのテスクチャ及びオブジェクトに分割された１５個の異なるカテゴリを持つＭＶＴｅｃＡＤデータセットが、使用される。予備処理段階で、画像は、２５６×２５６個のピクセルにラスタライズ及び正規化される。データセットは、マスク画像として異常の位置について対応するグラウンドトゥルースデータセットを持つ。この実施は、この技術を評価するための入力データとしてこれらのグラウンドトゥルースマスク画像を用いて適用される。

訓練及び試験は、ＰｙＴｏｒｃｈで実装される。１６個の画像のバッチサイズが、ネットワークを試験するために使用される。モデルは、学習率＝１×１０、モメンタム（momentum）＝０．９、荷重減衰（weight decay）＝０及びダンプニング（dampening）＝ネステロフ（nesterov）＝偽（False）を有するＳＧＤオプティマイザを用いて最適化される。

図１０は、この技術による各エポックの結果を表す。それらは、ネットワークから２次元のＰＣＡによって計算された抽出された特徴マップであり、ｋ－ｍｅａｎｓによってクラスタ化される。左のグラフのラベルの色はグラウンドトゥルースであり、右のグラフのラベルの色は精度である。実施の目的は、特徴マップ上で距離によりグループを分離することである。エポック０は、訓練されていないネットワークによる例である。訓練なしでは、おおよそ２つのグループがある。ネットワークが訓練されると、これらのグループは他のグループから距離を置く。訓練を終了するタイミングについては、シルエット係数、疑似Ｆ及びデイビスボルディンインデックス（davies bouldin Index）がメトリックとして使用され得る。

図１１は、生産サンプルとしてのトランジスタの最良の結果を示す。左の特徴マップはサンプルピクチャとともに示されている。この場合に、異常の４つの分類と、優良（異常なし）とが存在する。予測されたクラスタリングが右のグラフに示されている。

図１２は、既存の方法（ＰＣＡ及び教師なしクラスタリング、転移学習、ディープクラスタhttps://arxiv.org/pdf/1807.05520.pdf）に対するベンチマーク入力として１５個のＭＶＴｅｃデータセットを使用した数値結果を示す。数値は正規化された相互情報であり、この研究で教師なしクラスタリングを評価するために広く普及している。全てのデータセットで、このテクノロジーは既存の方法よりも優れている。

図１５は、本発明を具現し、図１に表されているような、生産サンプルの画像において異常を識別及び分類するようされ、図２～５及び図７～９で表されている動作を実行するコンピュータ装置を実装するために使用され得る、コンピュータ装置又はサーバ等のコンピュータデバイスのブロック図である。コンピュータデバイスは、プロセッサ９９３及びメモリ９９４を有する。任意に、コンピュータデバイスは、コンピュータデバイスと、例えば、発明実施形態の他のコンピュータデバイスと通信するためのネットワークインターフェース９９７も含む。

例えば、実施形態は、そのようなコンピュータデバイスのネットワークから構成されてもよい。任意に、コンピュータ装置は、キーボード及びマウス９９６等の１つ以上の入力メカニズム、並びに１つ以上のモニタ９９５等の表示ユニットも含む。コンポーネントは、バス９９２を介して互いに接続可能である。コンピュータデバイスは、生産サンプルの画像を取得するカメラ等のイメージングデバイスを含んでも、あるいは、そのようなイメージングデバイスとデータ通信してもよい。

メモリ９９４はコンピュータ可読媒体を含んでもよい。コンピュータ可読記憶媒体という用語は、コンピュータ実行可能命令を運ぶよう構成されるか、又はデータ構造が記憶されている単一の媒体又は複数の媒体（例えば、中央集権型又は分散型データベース及び／又は関連するキャッシュ及びサーバ）を指し得る。コンピュータ実行可能命令は、例えば、汎用コンピュータ、特別目的のコンピュータ、又は特別目的のプロセッシングデバイス（例えば、１つのプロセッサ）によってアクセス可能であって、それらに１つ以上の機能又は動作を実行させる命令及びデータを含み得る。よって、「コンピュータ可読記憶媒体」という用語はまたは、マシンによって実行されて、マシンに本開示の方法のいずれか１つ以上を実行させる命令の組を記憶、エンコード、又は搬送することが可能なあらゆる媒体を含み得る。「コンピュータ可読記憶媒体」という用語は、従って、ソリッド・ステート・メモリ、光学媒体及び磁気媒体を含むと理解され得るが、これらに限られない。例として、限定としてではなく、そのようなコンピュータ可読媒体は、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリー・メモリ（ＲＯＭ）、電気的消去可能なプログラム可能リード・オンリー・メモリ（ＥＥＰＲＯＭ）、コンパクトディスク型リード・オンリー・メモリ（ＣＤ－ＲＯＭ）若しくは他の光ディスクストレージ、磁気ディスクストレージ若しくは他の磁気記憶デバイス、フラッシュメモリデバイス（例えば、ソリッド・ステート・メモリデバイス）を含む非一時的なコンピュータ可読記憶媒体を含んでもよい。

プロセッサ９９３は、コンピュータデバイスを制御して、プロッセシング演算を実行するよう、例えば、本明細書及び特許請求の範囲で記載される図１、図２、図３、図５及び図６の様々な異なるステップを実装するようメモリに記憶されたコードを実行するよう構成される。プロセッサ９９３は、生成ニューラルネットワーク２２０等の１つ以上のニューラルネットワークを実装するよう適応されたＧＰＵ（graphics processing unit）を含んでもよい。メモリ９９４は、プロセッサ９９３によって読み出されかつ書き込まれるデータを記憶する。本明細書で言及されているように、プロセッサは、マイクロプロセッサ、中央演算処理装置、等のような１つ以上の汎用のプロセッシングデバイスを含んでもよい。プロセッサは、複数命令セットコンピューティング（ＣＩＳＣ）マイクロプロセッサ、縮小命令セットコンピューティング（ＲＩＳＣ）マイクロプロセッサ、超長命令語（ＶＬＩＷ）マイクロプロセッサ、又は他の命令セットを実装するプロセッサ若しくは命令セットの組み合わせを実装するプロセッサを含んでもよい。プロセッサはまた、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、デジタル信号プロセッサ（ＤＳＰ）、ネットワークプロセッサ、等のような１つ以上の特別目的のプロセッシングデバイスを含んでもよい。１つ以上の実施形態において、プロセッサは、本明細書で説明されている動作及びステップを実行するための命令を実行するよう構成される。

表示ユニット９９７は、コンピュータデバイスによって記憶されているデータの表現を表示してもよく、また、カーソル及びダイアログボックス並びにユーザとコンピュータデバイスに記憶されているプログラム及びデータとの間のインタラクションを可能にする画面を表示してもよい。入力メカニズム９９６は、ユーザがデータ及び命令をコンピュータデバイスに入力を可能にし得る。

ネットワークインターフェース（ネットワークＩ／Ｆ）９９７は、インターネット等のネットワークへ接続されてもよく、他のかようなコンピュータへネットワークを介して接続可能である。ネットワークＩ／Ｆ９９７は、ネットワークを介した他の装置とのデータ入出力を制御し得る。マイクロホン、スピーカ、プリンタ、電源ユニット、ファン、ケース、スキャナ、トラックボール等の他の周辺デバイスがコンピュータデバイスに含まれてもよい。

本発明を具現する方法は、図１５に表されているようなコンピュータデバイスで実行されてもよい。そのようなコンピュータデバイスは、図１５に表されているあらゆるコンポーネントを備えていなくてもよく、それらのコンポーネントのサブセットから構成されてもよい。本発明を具現する方法は、ネットワークを介して１つ以上のデータ記憶サーバと通信する単一のコンピュータデバイスによって実行されてもよい。コンピュータデバイスは、分類ＡＮＮ２１０及びＳ１０６の出力をそれ自体に記憶するデータストレージであってもよい。

本発明を具現する方法は、互いに協働する複数のコンピュータデバイスによって実行されてもよい。複数のコンピュータデバイスのうちの１つ以上は、分類ＡＮＮ２１０の少なくとも一部と、Ｓ１０６からの以上の出力された識別及び分類とを記憶するデータ記憶サーバであってもよい。

上記に加えて、次の付記を開示する。
（付記１）
画像内の異常を識別及び分類するよう構成されるコンピュータ装置であって、メモリハードウェア及びプロセッサハードウェアを有し、前記メモリハードウェアが分類人工ニューラルネットワーク（ＡＮＮ）及び処理命令を記憶し、前記プロセッサハードウェアが前記処理命令を実行するよう構成される、前記コンピュータ装置において、
前記処理命令は、実行されるときに、前記コンピュータ装置に、
画像の入力データセットに対して教師なし異常検出を実行して前記画像から異常部分を検出して、前記データセット内の画像ごとに、当該画像内のあらゆる検出された１つ以上の異常部分を伝えて異常なし部分をブロックする対応するマスク画像を生成することと、
前記分類ＡＮＮを訓練することと
を実行させ、
前記訓練することは、各訓練エポックにおいて、
第１プロセスで、
前記分類ＡＮＮにより前記入力データセットのマスキングされたバージョンを処理し、該マスキングされたバージョンが、前記対応するマスク画像によってマスキングされた前記入力データセットの各画像を有し、そして、自動生成されたラベルをグラウンドトゥルースとして使用して交差エントロピ損失関数を最小化することによって異常部分を複数の分類のうちの１つに分類するよう前記分類ＡＮＮを訓練することと、
前記分類ＡＮＮから、前記入力データセットの前記マスキングされたバージョンの各画像の潜在的な特徴表現を抽出することと、
第２プロセスで、
前記入力データセットの各画像に対応する疑似ラベルを取得するために、前記潜在的な特徴表現の夫々を、異なった関連する疑似ラベルを夫々有している複数のクラスタのうちの１つにクラスタ化するよう教師なしクラスタリングアルゴリズムを前記潜在的な特徴表現に適用することによって前記入力データセットの前記マスキングされたバージョンに対応する疑似ラベルの組を生成することと、
前記入力データセットの各画像が当該画像の疑似ラベルをグラウンドトゥルースとして使用して前記分類ＡＮＮによって分類される分類間の損失関数を最小化するよう前記分類ＡＮＮを訓練することと
を含み、
前記コンピュータ装置は、訓練条件を満足するまで繰り返し前記訓練エポックを実行させられ、前記入力データセットの画像ごとに、各検出された異常部分の識別を、当該異常部分が前記分類ＡＮＮによって分類される対応する分類とともに出力させられる、
コンピュータ装置。
（付記２）
前記第１プロセスで前記分類ＡＮＮによって処理された前記入力データセットの前記マスキングされたバージョンは、前記対応するマスクによってマスキングされることに加えて、画像フィルタによってフィルタ処理されるか、又は画像変換アルゴリズムによって変換される、
付記１に記載のコンピュータ装置。
（付記３）
前記画像フィルタは、エンボス画像フィルタであり、あるいは、
前記画像変換アルゴリズムは、エンボス加工画像変換アルゴリズムである、
付記２に記載のコンピュータ装置。
（付記４）
前記入力データセットの前記マスキングされたバージョンは、前記入力データセットの各メンバーの複数のバージョンを有し、該複数のバージョンは、複数の画像変換アルゴリズム又は画像フィルタの選択の夫々が適用された前記画像である、
付記２に記載のコンピュータ装置。
（付記５）
前記自動生成されたラベルは、各画像変換アルゴリズム又は画像フィルタがラベルにマッピングするように、前記バージョンに適用されている前記画像変換アルゴリズム又は画像フィルタによって決定され、前記ラベルの値は、互いに異なる任意の値である、
付記４に記載のコンピュータ装置。
（付記６）
前記教師なし異常検出は、画像の欠陥なし部分を生成するよう、かつ、前記入力データセットからの画像の欠陥なしバージョンを生成し、当該画像を前記生成された欠陥なしバージョンと比較して前記マスクを生成することによって、当該画像に対応するマスク画像を生成するよう事前訓練されたオートエンコーダ又は生成ニューラルネットワークにより実行される、
付記１に記載のコンピュータ装置。
（付記７）
前記生成ニューラルネットワークは、敵対的生成ニューラルネットワークである、
付記６に記載のコンピュータ装置。
（付記８）
前記第１プロセスでの前記損失関数は、ピクセル単位の交差エントロピ損失である、
付記１に記載のコンピュータ装置。
（付記９）
各訓練エポックは、
第３プロセスで、
前記入力データセットの前記マスキングされたバージョンの各々の画像にノイズデータを加えることによって、及び変換又はフィルタを適用することによって、前記入力データセットの前記マスキングされたバージョンの各画像の変更されたバージョンを、変更されたマスキングされた入力データセットとして生成することと、
前記マスキングされた入力データセットである入力データセットＡを前記分類ＡＮＮが処理すること、及び前記変更されたマスキングされた入力データセットである入力データセットＢを前記分類ＡＮＮが処理することに基づいて、損失関数として相互情報を最大化するよう前記分類ＡＮＮを更に訓練することと
を更に含む、
付記１乃至８のうちいずれか１つに記載のコンピュータ装置。
（付記１０）
付記１に記載のコンピュータ装置と、
画像を生成し、前記コンピュータ装置による処理のために前記生成された画像を入力データセットとして記憶するよう構成されるイメージング装置と
を有するシステム。
（付記１１）
前記画像は生産サンプルの画像であり、
製品又は材料を生産サンプルとして生産する生産環境を更に有する、
付記１０に記載のシステム。
（付記１２）
画像内の異常を識別及び分類する方法であって、
画像の入力データセットに対して教師なし異常検出を実行して前記画像から異常部分を検出して、前記データセット内の画像ごとに、当該画像内のあらゆる検出された１つ以上の異常部分を伝えて異常なし部分をブロックする対応するマスク画像を生成することと、
分類人工ニューラルネットワーク（ＡＮＮ）を訓練することと
を有し、
前記訓練することは、各訓練エポックにおいて、
第１プロセスで、
前記分類ＡＮＮにより前記入力データセットのマスキングされたバージョンを処理し、該マスキングされたバージョンが、前記対応するマスク画像によってマスキングされた前記入力データセットの各画像を有し、そして、自動生成されたラベルをグラウンドトゥルースとして使用して交差エントロピ損失関数を最小化することによって異常部分を複数の分類のうちの１つに分類するよう前記分類ＡＮＮを訓練することと、
前記分類ＡＮＮから、前記入力データセットの前記マスキングされたバージョンの各画像の潜在的な特徴表現を抽出することと、
第２プロセスで、
前記入力データセットの各画像に対応する疑似ラベルを取得するために、前記潜在的な特徴表現の夫々を、異なった関連する疑似ラベルを夫々有している複数のクラスタのうちの１つにクラスタ化するよう教師なしクラスタリングアルゴリズムを前記潜在的な特徴表現に適用することによって前記入力データセットの前記マスキングされたバージョンに対応する疑似ラベルの組を生成することと、
前記入力データセットの各画像が当該画像の疑似ラベルをグラウンドトゥルースとして使用して前記分類ＡＮＮによって分類される分類間の損失関数を最小化するよう前記分類ＡＮＮを訓練することと
を含み、
前記方法は、訓練条件を満足するまで繰り返し前記訓練エポックを実行し、前記入力データセットの画像ごとに、各検出された異常部分の識別を、当該異常部分が前記分類ＡＮＮによって分類される対応する分類とともに出力することを有する、
方法。
（付記１３）
プロセッサハードウェア及びメモリハードウェアを備えたコンピュータ装置によって実行される場合に、該コンピュータ装置に、画像内の異常を識別及び分類する方法を実行させるコンピュータプログラムであって、
前記方法は、
画像の入力データセットに対して教師なし異常検出を実行して前記画像から異常部分を検出して、前記データセット内の画像ごとに、当該画像内のあらゆる検出された１つ以上の異常部分を伝えて異常なし部分をブロックする対応するマスク画像を生成することと、
分類人工ニューラルネットワーク（ＡＮＮ）を訓練することと
を有し、
前記訓練することは、各訓練エポックにおいて、
第１プロセスで、
前記分類ＡＮＮにより前記入力データセットのマスキングされたバージョンを処理し、該マスキングされたバージョンが、前記対応するマスク画像によってマスキングされた前記入力データセットの各画像を有し、そして、自動生成されたラベルをグラウンドトゥルースとして使用して交差エントロピ損失関数を最小化することによって異常部分を複数の分類のうちの１つに分類するよう前記分類ＡＮＮを訓練することと、
前記分類ＡＮＮから、前記入力データセットの前記マスキングされたバージョンの各画像の潜在的な特徴表現を抽出することと、
第２プロセスで、
前記入力データセットの各画像に対応する疑似ラベルを取得するために、前記潜在的な特徴表現の夫々を、異なった関連する疑似ラベルを夫々有している複数のクラスタのうちの１つにクラスタ化するよう教師なしクラスタリングアルゴリズムを前記潜在的な特徴表現に適用することによって前記入力データセットの前記マスキングされたバージョンに対応する疑似ラベルの組を生成することと、
前記入力データセットの各画像が当該画像の疑似ラベルをグラウンドトゥルースとして使用して前記分類ＡＮＮによって分類される分類間の損失関数を最小化するよう前記分類ＡＮＮを訓練することと
を含み、
前記方法は、訓練条件を満足するまで繰り返し前記訓練エポックを実行し、前記入力データセットの画像ごとに、各検出された異常部分の識別を、当該異常部分が前記分類ＡＮＮによって分類される対応する分類とともに出力することを有する、
コンピュータプログラム。
（付記１４）
付記１３に記載のコンピュータプログラムを記憶する非一時的なコンピュータ可読記憶媒体。

１００プロセッサハードウェア
２００メモリハードウェア
２１０分類ＡＮＮ
２２０生成ニューラルネットワーク
２２１弁別ニューラルネットワーク
９９３プロセッサ
９９４メモリ
９９７ネットワークインターフェース
Ｄ１０１入力データセット
Ｄ１０２ａマスキングされたバージョン
Ｄ１０２ｂ変更されたマスキングされたバージョン
Ｄ１０３潜在的な特徴表現
Ｄ１０４疑似ラベル

Claims

画像内の異常を識別及び分類するよう構成されるコンピュータ装置であって、メモリハードウェア及びプロセッサハードウェアを有し、前記メモリハードウェアが分類人工ニューラルネットワーク（ＡＮＮ）及び処理命令を記憶し、前記プロセッサハードウェアが前記処理命令を実行するよう構成される、前記コンピュータ装置において、
前記処理命令は、実行されるときに、前記コンピュータ装置に、
画像の入力データセットに対して教師なし異常検出を実行して前記画像から異常部分を検出して、前記データセット内の画像ごとに、当該画像内のあらゆる検出された１つ以上の異常部分を伝えて異常なし部分をブロックする対応するマスク画像を生成することと、
前記分類ＡＮＮを訓練することと
を実行させ、
前記訓練することは、各訓練エポックにおいて、
第１プロセスで、
前記分類ＡＮＮにより前記入力データセットのマスキングされたバージョンを処理し、該マスキングされたバージョンが、前記対応するマスク画像によってマスキングされた前記入力データセットの各画像を有し、そして、自動生成されたラベルをグラウンドトゥルースとして使用して交差エントロピ損失関数を最小化することによって異常部分を複数の分類のうちの１つに分類するよう前記分類ＡＮＮを訓練することと、
前記分類ＡＮＮから、前記入力データセットの前記マスキングされたバージョンの各画像の潜在的な特徴表現を抽出することと、
第２プロセスで、
前記入力データセットの各画像に対応する疑似ラベルを取得するために、前記潜在的な特徴表現の夫々を、異なった関連する疑似ラベルを夫々有している複数のクラスタのうちの１つにクラスタ化するよう教師なしクラスタリングアルゴリズムを前記潜在的な特徴表現に適用することによって前記入力データセットの前記マスキングされたバージョンに対応する疑似ラベルの組を生成することと、
前記入力データセットの各画像が当該画像の疑似ラベルをグラウンドトゥルースとして使用して前記分類ＡＮＮによって分類される分類間の損失関数を最小化するよう前記分類ＡＮＮを訓練することと
を含み、
前記コンピュータ装置は、訓練条件を満足するまで繰り返し前記訓練エポックを実行させられ、前記入力データセットの画像ごとに、各検出された異常部分の識別を、当該異常部分が前記分類ＡＮＮによって分類される対応する分類とともに出力させられる、
コンピュータ装置。
前記第１プロセスで前記分類ＡＮＮによって処理された前記入力データセットの前記マスキングされたバージョンは、前記対応するマスクによってマスキングされることに加えて、画像フィルタによってフィルタ処理されるか、又は画像変換アルゴリズムによって変換される、
請求項１に記載のコンピュータ装置。
前記画像フィルタは、エンボス画像フィルタであり、あるいは、
前記画像変換アルゴリズムは、エンボス加工画像変換アルゴリズムである、
請求項２に記載のコンピュータ装置。
前記入力データセットの前記マスキングされたバージョンは、前記入力データセットの各メンバーの複数のバージョンを有し、該複数のバージョンは、複数の画像変換アルゴリズム又は画像フィルタの選択の夫々が適用された前記画像である、
請求項２に記載のコンピュータ装置。
前記自動生成されたラベルは、各画像変換アルゴリズム又は画像フィルタがラベルにマッピングするように、前記バージョンに適用されている前記画像変換アルゴリズム又は画像フィルタによって決定され、前記ラベルの値は、互いに異なる任意の値である、
請求項４に記載のコンピュータ装置。
前記教師なし異常検出は、画像の欠陥なし部分を生成するよう、かつ、前記入力データセットからの画像の欠陥なしバージョンを生成し、当該画像を前記生成された欠陥なしバージョンと比較して前記マスクを生成することによって、当該画像に対応するマスク画像を生成するよう事前訓練されたオートエンコーダ又は生成ニューラルネットワークにより実行される、
請求項１に記載のコンピュータ装置。
前記生成ニューラルネットワークは、敵対的生成ニューラルネットワークである、
請求項６に記載のコンピュータ装置。
前記第１プロセスでの前記損失関数は、ピクセル単位の交差エントロピ損失である、
請求項１に記載のコンピュータ装置。
各訓練エポックは、
第３プロセスで、
前記入力データセットの前記マスキングされたバージョンの各々の画像にノイズデータを加えることによって、及び変換又はフィルタを適用することによって、前記入力データセットの前記マスキングされたバージョンの各画像の変更されたバージョンを、変更されたマスキングされた入力データセットとして生成することと、
前記マスキングされた入力データセットである入力データセットＡを前記分類ＡＮＮが処理すること、及び前記変更されたマスキングされた入力データセットである入力データセットＢを前記分類ＡＮＮが処理することに基づいて、損失関数として相互情報を最大化するよう前記分類ＡＮＮを更に訓練することと
を更に含む、
請求項１乃至８のうちいずれか一項に記載のコンピュータ装置。
請求項１に記載のコンピュータ装置と、
画像を生成し、前記コンピュータ装置による処理のために前記生成された画像を入力データセットとして記憶するよう構成されるイメージング装置と
を有するシステム。
前記画像は生産サンプルの画像であり、
製品又は材料を生産サンプルとして生産する生産環境を更に有する、
請求項１０に記載のシステム。
画像内の異常を識別及び分類する方法であって、
画像の入力データセットに対して教師なし異常検出を実行して前記画像から異常部分を検出して、前記データセット内の画像ごとに、当該画像内のあらゆる検出された１つ以上の異常部分を伝えて異常なし部分をブロックする対応するマスク画像を生成することと、
分類人工ニューラルネットワーク（ＡＮＮ）を訓練することと
を有し、
前記訓練することは、各訓練エポックにおいて、
第１プロセスで、
前記分類ＡＮＮにより前記入力データセットのマスキングされたバージョンを処理し、該マスキングされたバージョンが、前記対応するマスク画像によってマスキングされた前記入力データセットの各画像を有し、そして、自動生成されたラベルをグラウンドトゥルースとして使用して交差エントロピ損失関数を最小化することによって異常部分を複数の分類のうちの１つに分類するよう前記分類ＡＮＮを訓練することと、
前記分類ＡＮＮから、前記入力データセットの前記マスキングされたバージョンの各画像の潜在的な特徴表現を抽出することと、
第２プロセスで、
前記入力データセットの各画像に対応する疑似ラベルを取得するために、前記潜在的な特徴表現の夫々を、異なった関連する疑似ラベルを夫々有している複数のクラスタのうちの１つにクラスタ化するよう教師なしクラスタリングアルゴリズムを前記潜在的な特徴表現に適用することによって前記入力データセットの前記マスキングされたバージョンに対応する疑似ラベルの組を生成することと、
前記入力データセットの各画像が当該画像の疑似ラベルをグラウンドトゥルースとして使用して前記分類ＡＮＮによって分類される分類間の損失関数を最小化するよう前記分類ＡＮＮを訓練することと
を含み、
前記方法は、訓練条件を満足するまで繰り返し前記訓練エポックを実行し、前記入力データセットの画像ごとに、各検出された異常部分の識別を、当該異常部分が前記分類ＡＮＮによって分類される対応する分類とともに出力することを有する、
方法。
コンピュータプログラムを記憶する非一時的な記憶媒体であって、
前記コンピュータプログラムは、プロセッサハードウェア及びメモリハードウェアを備えたコンピュータ装置によって実行される場合に、該コンピュータ装置に、画像内の異常を識別及び分類する方法を実行させ、
前記方法は、
画像の入力データセットに対して教師なし異常検出を実行して前記画像から異常部分を検出して、前記データセット内の画像ごとに、当該画像内のあらゆる検出された１つ以上の異常部分を伝えて異常なし部分をブロックする対応するマスク画像を生成することと、
分類人工ニューラルネットワーク（ＡＮＮ）を訓練することと
を有し、
前記訓練することは、各訓練エポックにおいて、
第１プロセスで、
前記分類ＡＮＮにより前記入力データセットのマスキングされたバージョンを処理し、該マスキングされたバージョンが、前記対応するマスク画像によってマスキングされた前記入力データセットの各画像を有し、そして、自動生成されたラベルをグラウンドトゥルースとして使用して交差エントロピ損失関数を最小化することによって異常部分を複数の分類のうちの１つに分類するよう前記分類ＡＮＮを訓練することと、
前記分類ＡＮＮから、前記入力データセットの前記マスキングされたバージョンの各画像の潜在的な特徴表現を抽出することと、
第２プロセスで、
前記入力データセットの各画像に対応する疑似ラベルを取得するために、前記潜在的な特徴表現の夫々を、異なった関連する疑似ラベルを夫々有している複数のクラスタのうちの１つにクラスタ化するよう教師なしクラスタリングアルゴリズムを前記潜在的な特徴表現に適用することによって前記入力データセットの前記マスキングされたバージョンに対応する疑似ラベルの組を生成することと、
前記入力データセットの各画像が当該画像の疑似ラベルをグラウンドトゥルースとして使用して前記分類ＡＮＮによって分類される分類間の損失関数を最小化するよう前記分類ＡＮＮを訓練することと
を含み、
前記方法は、訓練条件を満足するまで繰り返し前記訓練エポックを実行し、前記入力データセットの画像ごとに、各検出された異常部分の識別を、当該異常部分が前記分類ＡＮＮによって分類される対応する分類とともに出力することを有する、
非一時的な記憶媒体。