JP2021057042A

JP2021057042A - 製品の分類システムおよび製品の分類方法

Info

Publication number: JP2021057042A
Application number: JP2020161399A
Authority: JP
Inventors: ジャンファンリ，; Janghwan Lee
Original assignee: Samsung Display Co Ltd
Current assignee: Samsung Display Co Ltd
Priority date: 2019-10-01
Filing date: 2020-09-25
Publication date: 2021-04-08
Also published as: US11710045B2; KR20210039927A; US20230316084A1; TW202129528A; US20210097400A1; EP3800588A1; CN112598017A

Abstract

【課題】製品の分類システムおよび製品の分類方法を提供する。【解決手段】方法は、第１分類器の少なくとも第１および第２インスタンスを生成する段階、入力データ集合に基づいてインスタンスを訓練させる段階と、入力データ集合に基づいて入力データ集合と関連した潜在空間の表現を学習する第２分類器を訓練させる段階と、潜在空間で未分類データ集合である第１追加データ集合を生成する段階と、第１分類器の第１インスタンスに基づいて第１追加データ集合を分類するための第１予測を生成する段階と、第１分類器の第２インスタンスに基づいて第１追加データ集合を分類するための第２予測を生成する段階第１予測および第２予測に基づいて第１追加データ集合用分類注釈を生成する段階と、少なくとも入力データ集合および注釈が付けられた第１データ集合に基づいて第３分類器を訓練させる段階と、を含む。【選択図】図３

Description

本発明は、製品分類システムおよび方法に関し、特に分類器を訓練させるシステムおよび方法に関する。

本出願は、２０１９年１０月１日に米国特許庁に出願した米国特許出願番号第６２／９０９，０５３号を優先権主張し、ここに引用することによって当該出願の全体内容を本願に含む。

最近の数年間、モバイル表示装置産業が急激に成長した。新しい類型の表示板モジュールと生産方法を使用することによって既存の方法だけでは表面欠陥を見つけ出すことが難しくなっている。製作した表示板モジュールが不良か否か［例えば「不良（ｎｏｇｏｏｄ）」に分類されるか、あるいは「優良（ｇｏｏｄ）」に分類されるか］を人工知能（ＡＩ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）を使用して自動的に予測することが好ましい。実際に、表示板モジュールだけでなく、他のハードウェア製品に対しても人工知能を使用して欠陥を予測することが好ましいだろう。

新しい、既存になかったデータに良好に適用され得るＡＩ／ＭＬ（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）モデル（「一般化ＭＬモデル」という）は、このような課題に適している。しかし、学習データ集合（ｔｒａｉｎｉｎｇｄａｔａｓｅｔ）が不十分で、非常に不均衡な場合には、一般化ＭＬモデルを作り出すことが難しい。データ集合の特性によって、不十分とクラス不均衡は避けられない課題であり、一般化された機械学習モデル（ｇｅｎｅｒａｌｉｚｅｄｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）を生成することは困難である。

したがって、２つのクラスに対して不均衡な学習データの限定された量からＡＩ／ＭＬモデルを持続的かつ安定的に構築するための向上したシステムおよび方法が必要である。

本発明の一実施形態による製品分類方法は、製造過程を通じて製造された製品の分類方法であって、処理装置（ｐｒｏｃｅｓｓｏｒ）によって、入力データ集合を受信する段階、前記処理装置によって、第１分類器の少なくとも第１および第２インスタンスを生成する段階、前記処理装置によって、前記入力データ集合に基づいて前記第１分類器の前記第１および第２インスタンスを訓練させる段階、前記処理装置によって、前記入力データ集合に基づいて前記入力データ集合と関連した潜在空間（ｌａｔｅｎｔｓｐａｃｅ）の表現を学習する第２分類器を訓練させる段階、前記処理装置によって、前記潜在空間で未分類データ集合である第１追加データ集合を生成する段階、前記処理装置によって、前記第１分類器の前記第１インスタンスに基づいて前記第１追加データ集合を分類するための第１予測を生成する段階、前記処理装置によって、前記第１分類器の前記第２インスタンスに基づいて前記第１追加データ集合を分類するための第２予測を生成する段階、前記処理装置によって、前記第１予測および前記第２予測に基づいて前記第１追加データ集合用分類注釈を生成する段階、そして前記処理装置によって、少なくとも前記入力データ集合および前記注釈が付けられた第１追加データ集合に基づいて第３分類器を訓練させる段階を含み、前記既訓練第３分類器は、分類する製品のデータを受信し、前記受信したデータに基づいて前記製品に対する予測を出力する。

本発明の一実施形態によれば、前記第１、第２および第３分類器のそれぞれは、ニューラルネットワークであり得る。

本発明の一実施形態によれば、前記第２分類器は、ＶＡＥ（ｖａｒｉａｔｉｏｎａｌａｕｔｏｅｎｃｏｄｅｒ）であり得る。

本発明の一実施形態によれば、前記潜在空間は、前記入力データ集合の圧縮表現を提供することができる。

本発明の一実施形態によれば、前記第１追加データ集合の生成段階は、前記潜在空間で任意データ要素を生成する段階を含むことができる。

本発明の一実施形態によれば、前記分類注釈の生成段階は、前記第１予測および前記第２予測に基づいて多数クラスを決定する段階、そして前記多数クラスに基づいて前記第１追加データ集合を分類する段階を含むことができる。

本発明の一実施形態によれば、前記分類注釈の生成段階は、前記第１予測の第１確率と前記第２予測の第２確率を決定する段階、前記第１確率と前記第２確率の平均を計算する段階、そして前記計算した平均に基づいて前記第１追加データ集合用クラスを定義する段階を含むことができる。

本発明の一実施形態によれば、前記分類注釈の生成段階は、前記第１予測に基づいて、多数クラスの第１確率および少数クラスの第２確率を決定する段階、前記第２予測に基づいて、前記多数クラスの第３確率および前記少数クラスの第４確率を決定する段階、前記第１確率と前記第３確率の第１平均を計算する段階、前記第２確率と前記第４確率の第２平均を計算する段階、そして前記計算した第１および第２平均に基づいて前記第１追加データ集合を分類する段階を含むことができる。

本発明の一実施形態によれば、前記潜在空間のオーバーサンプリングに基づいて第２追加データ集合を生成する段階、そして前記入力データ集合、前記注釈が付けられた第１追加データ集合および第２追加データ集合に基づいて前記第３分類器を訓練させる段階をさらに含むことができる。

本発明の一実施形態による分類システムは、製造過程を通じて製造された製品の分類システムであって、処理装置、そしてメモリを含み、前記メモリは、内部にインストラクションを保存しており、前記処理装置は、前記インストラクションを実行して、入力データ集合を受信し、第１分類器の少なくとも第１および第２インスタンスを生成し、前記入力データ集合に基づいて前記第１分類器の前記第１および第２インスタンスを訓練させ、前記入力データ集合に基づいて前記入力データ集合と関連した潜在空間（ｌａｔｅｎｔｓｐａｃｅ）の表現を学習する第２分類器を訓練させ、前記潜在空間で未分類データ集合である第１追加データ集合を生成し、前記第１分類器の前記第１インスタンスに基づいて前記第１追加データ集合を分類するための第１予測を生成し、前記第１分類器の前記第２インスタンスに基づいて前記第１追加データ集合を分類するための第２予測を生成し、前記第１予測および前記第２予測に基づいて前記第１追加データ集合用分類注釈を生成し、少なくとも前記入力データ集合および前記注釈が付けられた第１追加データ集合に基づいて第３分類器を訓練させ、前記既訓練第３分類器は、分類する製品のデータを受信し、前記受信したデータに基づいて前記製品に対する予測を出力する。

本発明の一実施形態による分類システムは、製造部品を優良または不良に分類するシステムであって、入力データ集合を収集するデータ収集回路、そして前記データ収集回路と連結され、ロジックを含む処理回路を含み、前記処理回路のロジックは、前記収集された入力データ集合を受信し、第１分類器の少なくとも第１および第２インスタンスを生成し、前記入力データ集合に基づいて前記第１分類器の前記第１および第２インスタンスを訓練させ、前記入力データ集合に基づいて前記入力データ集合と関連した潜在空間（ｌａｔｅｎｔｓｐａｃｅ）の表現を学習する第２分類器を訓練させ、前記潜在空間で未分類データ集合である第１追加データ集合を生成し、前記第１分類器の前記第１インスタンスに基づいて前記第１追加データ集合を分類するための第１予測を生成し、前記第１分類器の前記第２インスタンスに基づいて前記第１追加データ集合を分類するための第２予測を生成し、前記第１予測および前記第２予測に基づいて前記第１追加データ集合用分類注釈を生成し、少なくとも前記入力データ集合および前記注釈が付けられた第１追加データ集合に基づいて第３分類器を訓練させ、前記既訓練第３分類器は、分類する製品のデータを受信し、前記受信したデータに基づいて前記製品に対する予測を出力する。

これによって、２つのクラスに対して不十分で不均衡な訓練データを拡張して分類器を持続的かつ安定的に構築することができる。

本発明の一実施形態により部品を不良または優良に分類するシステムである。本発明の一実施形態による、図１の分類器エンジン概念のブロック図である。本発明の一実施形態により生徒モデルを生成して訓練させるために図２の分類器エンジンが実行する過程のフローチャートである。本発明の一実施形態による図２のＶＡＥ（ｖａｒｉａｔｉｏｎａｌａｕｔｏｅｎｃｏｄｅｒ）の詳細なブロック図である。本発明の一実施形態による潜在空間オーバーサンプリング過程を詳細に示すフローチャートである。（ａ）は深層学習モデルを訓練させることに使用され得る入力データ集合の一例を示す分布グラフであり、（ｂ）−（ｅ）は（ａ）の入力データ集合に基づいて互いに異なる判断範囲を生成する複数の分類器インスタンスの例を示すグラフである。（ａ）は追加データに拡張された入力データ集合の一例を示す分布グラフであり、（ｂ）は（ａ）の拡張訓練データ集合に基づいて互いに異なる判断範囲を生成する複数の分類器インスタンスのグラフを示す。

以下、添付した図面を参照して後述する詳細な説明は、データ拡張システムおよび方法の実施形態に関するものであり、本発明により具現または利用される形態を全て表現したものではない。次に、添付した図面を参照して本発明の実施形態について詳細に説明する。しかし、互いに異なる実施形態で具現されるものと同一または均等な機能と構造も本発明の範囲内に含まれる。明細書全体にわたって同一または類似の構成要素については同一の図面符号を付した。

モバイル表示装置の製造過程でモバイル表示装置を生産する間にデジタル痕跡データ（ｄｉｇｉｔａｌｔｒａｃｅｄａｔａ）を得ることができる。モバイル表示装置を例に挙げたが、本発明の実施形態は他のガラス製品およびガラスでない製品、例えばウエハーおよび半導体ガラスなどを生産する工程にも適用され得ることを当業者が知らなければならない。

痕跡データは、例えば生産過程で製品を運搬するコンベヤーの上に位置した一つ以上の感知器を通じて収集することができる。感知器は、感知した動き（ａｃｔｉｖｉｔｙ）を何でも記録する。感知器は、例えば生産過程で時間に応じた温度と圧力の測定値を探知する複数の温度および圧力感知器であり得る。各感知器は、多数回［チャンバーで製造する一つのガラス基板（ｇｌａｓｓ）またはウエハーに対して数秒毎に］サンプリングされ得る。

「優良」製品から不良製品を予測する分類器（ｃｌａｓｓｉｆｉｅｒ）を使用して痕跡データを自動的に分析することができる。したがって、データ標本を二つのクラス、つまり、「優良」および「不良」のうちの一つに割り当てるように分類器を学習させる必要がある。しかし、このような分類器に使用する学習データは深刻な不均衡状態にある。例えば、電子部品を製造する製造工程で、部品の大部分は容認（ａｃｃｅｐｔａｂｌｅ）または「優良」であり、一部だけが如何なる点で欠陥がある、又は「不良」である場合である。「優良」部品は不良品の１００倍乃至２００倍に至る。このような理由によって、データを製造および検査過程で得ると、大部分のデータは良品から出たものであるため、学習データに不均衡が生じる。また、製品モデルが急速に変わるため、深層学習モデルを訓練する十分な量のデータ集合を期待し難いことが一般的である。製品モデルの短い寿命により十分なデータ標本を集めることが難しい。新しい製品モデルの不良条件を感知するための新しいＡＩ／ＭＬモデルを生成する必要があることも一般的である。したがって、限定されたデータ集合で一般化モデルを生成することが通常の挑戦課題である。

訓練データ集合の大きさを人為的に拡大することに使用されるデータ拡張（ｄａｔａａｕｇｍｅｎｔａｔｉｏｎ）技術が存在する。例えば、全ての可能なデータ標本の場合を生成して訓練データとして使用することができる。しかし、全ての可能な場合は一つのデータ集合として作るには過度に大きい。また、標本を拡張しても全ての標本がモデル訓練に意味があるとは限らない。

他の例としては、データ蒸留（ｄａｔａｄｉｓｔｉｌｌａｔｉｏｎ）技術があり、視覚認識（ｖｉｓｕａｌｒｅｃｏｇｎｉｔｉｏｎ）／映像分類（ｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ）によく使用される。データ蒸留は、分類されていないデータまたは未分類データ（ｕｎｌａｂｅｌｅｄｄａｔａ）の注釈を生成することによって分類されていないデータから得た知識を蒸留する一般的なオムニスーパーバイズド学習（ｏｍｎｉ−ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）方法である。注釈は、多量の分類データで訓練を受けたモデルを使用して生成する。次に、追加生成注釈（ｅｘｔｒａｇｅｎｅｒａｔｅｄａｎｎｏｔａｔｉｏｎｓ）を使用してモデルを再訓練させる。追加未分類データは、分類データの幾何／空間変換［例：フリップ（ｆｌｉｐ）、シフト（ｓｈｉｆｔ）および／または回転（ｒｏｔａｔｉｏｎ）］を通じて生成することができる。データ蒸留に対する追加情報は、ＩｌｉｊａＲａｄｏｓａｖｏｖｉｃなどの論文、“ＤａｔａＤｉｓｔｉｌｌａｔｉｏｎ：ＴｏｗａｒｄｓＯｍｎｉ−ＳｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇ，”ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（２０１８）（ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１７１２．０４４４０で入手可能）に掲載されており、これをここに引用することによって本明細書の内容に含む。

しかし、映像分類のためにデータを拡張することに主に使用される幾何変換は、痕跡データに適用できないが、これは変換を適用した後に入力データの特性が残るか否かを分からないためである。また、欠陥標本に対して一般に製造課題と欠陥パターン生成の間の相関関係があるため、知られたデータ拡大技術を適用することによって分類器の品質を改善するという保障がない。したがって、既存のデータ拡張技術は、訓練目的で欠陥や痕跡データを拡張することには不適切である。データ蒸留は、インターネット水準のデータ集合から未分類データ集合を使用することを提示するが、特定会社の製造データ集合に対して類似のデータ標本をインターネットで探すことはできない。

従来技術の欠陥に対して、期待することは分類データ集合でのデータ不十分とクラス不均衡という問題を扱う一般化ＭＬモデルを生成するためのオムニスーパーバイズド学習システムおよび方法である。本発明の実施形態によれば、深層生成モデル（ｄｅｅｐｇｅｎｅｒａｔｉｖｅｍｏｄｅｌ）を通じたデータ拡張を通じて入力データ集合の不十分およびクラス不均衡を扱う。特に、入力データ空間の代わりに多様体（ｍａｎｉｆｏｌｄ）［潜在（ｌａｔｅｎｔ）］空間でデータ拡張を行う。

また、一般化Ｍ／Ｌモデルを生成する時、主な問題のうちの一つが不十分なデータ集合であるため、深層生成モデルデータ生成を使用してデータ集合により多くの変異（ｖａｒｉａｎｃｅ）を融合させることによってこの問題を解決する。本発明の一実施形態によれば、拡張／追加（ａｕｇｍｅｎｔｅｄ／ｓｕｐｐｌｅｍｅｎｔａｌ）データは、任意入力（ｒａｎｄｏｍｉｎｐｕｔ）を使用して潜在空間で生成された未分類データ集合である。本発明の一実施形態によれば、拡張データは、潜在空間オーバーサンプリング（ｏｖｅｒｓａｍｐｌｉｎｇ）から得た合成データ標本（ｓｙｎｔｈｅｔｉｃｄａｔａｓａｍｐｌｅ）からなる。

本発明の一実施形態によれば、基準機械学習モデル（ｂａｓｅｌｉｎｅｍａｃｈｉｎｅｌｅａｒｎｉｎｇｍｏｄｅｌ）の複数インスタンス（ｉｎｓｔａｎｃｅ）から知識を蒸留して未分類データ集合に注釈を付け、新しい注釈データ集合（ａｎｎｏｔａｔｅｄｄａｔａｓｅｔ）を生成する。未分類データ集合を既訓練ＭＬモデル（ｔｒａｉｎｅｄＭＬｍｏｄｅｌ）の複数インスタンスのそれぞれに供給することによって複数インスタンスからの知識を蒸留することができる。次に、アンサンブルメカニズム（ｅｎｓｅｍｂｌｅｍｅｃｈａｎｉｓｍ）を使用してＭＬモデルインスタンスのそれぞれの出力に基づいて未分類データを分類することができる。このように低いデータ密度モデル（ｌｅｓｓｄａｔａｉｎｔｅｎｓｅｍｏｄｅｌｓ）（例：個別ＭＬモデルインスタンス）から知識蒸留を達成することができ、従来のモデルより改善された分類正確度を有するようにＭＬモデルを一般化することができる。一応訓練を受けた一般化ＭＬモデルは、製造過程で生じる不良部品を予測することに使用することができる。

図１は、本発明の一実施形態により部品を不良または優良に分類するシステムである。本発明の一実施形態によれば、システムは一つ以上のデータ収集回路（ｄａｔａｃｏｌｌｅｃｔｉｏｎｃｉｒｃｕｉｔ）１０５、データ前処理回路（ｄａｔａｐｒｅｐｒｏｃｅｓｓｉｎｇｃｉｒｃｕｉｔ）１１０および分類器エンジン（ｃｌａｓｓｉｆｉｅｒｅｎｇｉｎｅ）１１５を含む。データ収集回路１０５は、例えば温度および圧力感知器、増幅器および／またはアナログ−デジタル変換器を含むことができ、データ前処理回路１１０は、詳細に後述するが、データのフォーマットを変えることができ、分類器エンジン１１５は、深層学習（ＤＬ）ニューラルネットワークを生成することができる。

データ前処理回路１１０は、データ収集回路１０５から原始痕跡データ（例：前述した時間痕跡の数）を受信し、受信したデータを例えば２次元配列（例：２２４ｘ２２４配列）に変えることができる。本発明の一実施形態によれば、データ前処理回路１１０は、原始痕跡データを保存する一つ以上のデータ記憶装置を含む。二次元配列の大きさは、ニューラルネットワークが一般に分類する映像の大きさ程度になるように選択することができる。フォーマット変換（ｒｅｆｏｒｍａｔｔｉｎｇ）は、映像のニューラルネットワーク分類器を動作させるコードの特定部分を再使用できるようにするが、これを本発明の一部の実施形態に使用することができる。

フォーマット変換された入力データは、分類器エンジン１１５に供給されてＤＬニューラルネットワークを通じた予測訓練または予測に使用され得る。このような点から、分類器エンジン１１５は、一つ以上の実在する、機械で読み込むことができる媒体に保存されてニューラルネットワークを通じて予測生成、予測訓練および予測遂行する一つ以上の処理装置により実行される論理またはインストラクションからなることができる。

図２は、本発明の一実施形態による分類器エンジン１１５概念のブロック図である。訓練する間、分類入力データ集合２００を前処理回路１１０から受信する。分類入力データ集合２００は、「優良」（または「Ｇ」）に分類された第１個数のデータ標本［例：数千データ要素（ｄａｔａｅｌｅｍｅｎｔ）］および「不良」（または「ＮＧ」）に分類された第２個数のデータ標本（例：１０から１００の間のデータ要素）を含む。

分類入力データ集合２００は、例えばＶＡＥ（ｖａｒｉａｔｉｏｎａｌａｕｔｏｅｎｃｏｄｅｒ）２０２などの深層学習ニューラルネットワーク（ｄｅｅｐｌｅａｒｎｉｎｇｎｅｕｒａｌｎｅｔｗｏｒｋ）であり得る分類器を訓練させることに使用される。ＶＡＥを例に挙げたが、当業者であればＶＡＥの代わりに他の深層生成モデル、例えば敵対的生成ニューラルネットワーク（ＧＡＮ：ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋ）、自己回帰モデル（ａｕｔｏｒｅｇｒｅｓｓｉｏｎｍｏｄｅｌｓ）なども使用できることを知っている。ＶＡＥを使用する実施形態では、ＶＡＥ２０２が入力データ集合２００に対する潜在（ｌａｔｅｎｔ）／秘密（ｈｉｄｄｅｎ）／多様体（ｍａｎｉｆｏｌｄ）空間の表現を学習する。一般に潜在空間は、入力データ集合２００の簡略（ｓｉｍｐｌｅｒ）／圧縮（ｃｏｍｐｒｅｓｓｅｄ）表現（例：低い次元）である潜在ベクトルからなる。

本発明の一実施形態によれば、訓練を受けたＶＡＥ２０２は、追加訓練データ（合成データ標本ともいう）を統計的に生成する時に実行される。これと関連してＶＡＥ２０２は、オーバーサンプリングモジュール２０４および任意生成モジュール２０６と連結され得る。オーバーサンプリングモジュール２０４は、ＶＡＥ２０２が学習する潜在空間をオーバーサンプリングする時に実行されて、追加の「不良」標本を生成する。任意生成モジュール２０６は、任意入力を使用して潜在空間内追加標本を生成する時に実行される。本発明の一実施形態によれば、任意生成されたデータ標本は未分類データ標本である。

本発明の一実施形態によれば、分類器エンジン１１５はまた、二項基準分類器の複数（例：２以上）インスタンス２０８ａ−２０８ｃ（これらを集合的にインスタンス２０８と表示する）を生成する。各分類器／モデルインスタンス２０８は、例えばニューラルネットワークであり得る。

任意生成モジュール２０６から任意生成されたデータ標本を知識蒸留のために多様な分類器インスタンス２０８に供給する。これと関連して、任意生成データ標本に対する分類器インスタンス２０８からの予測アンサンブルは、生徒分類器／モデル２１０を訓練させることに使用される。つまり、多様な分類器インスタンス２０８による予測の集合は新しい知識を生成し、生成された新しい知識を蒸留して生徒分類器２１０を訓練させることに使用され得る。

本発明の一実施形態によれば、分類器インスタンス２０８からの蒸留知識以外に、原本分類データ集合２００および／またはオーバーサンプリングモジュール２０４からの追加標本を生徒分類器２１０の訓練に使用することができる。一応訓練を受けた生徒分類器２１０は、新しく製造された製品から得た新しい痕跡データと共に提供されてその製品が「優良」か「不良」かを予測する。本発明の一実施形態によれば、訓練を受けた生徒分類器２１０は、新しく製造された製品に対するこのような予測類型を作る予測システム（図示せず）により使用され得る。本発明の一実施形態によれば、予測システムは製品が「不良」であると予測される場合、取るべき措置（ａｃｔｉｏｎ）に対する勧告またはメッセージを出力することができる。措置の例としては、不良品を除去してさらに検査、修理または廃棄することが挙げられる。実験の結果として、既訓練モデル２１０が新しい痕跡データに対して分類正確度のしきい値（例：９０％以上の正確度）内で、持続的に動作することが分かった。

図３は、本発明の一実施形態により生徒モデル２１０を生成して訓練させるために分類器エンジン１１５が実行する過程のフローチャートである。ブロック３００で、分類器エンジン１１５は分類された入力データ集合２００を受信する。

ブロック３０２で、入力データ集合２００は、基準分類器の２以上のインスタンス２０８を（例えばスーパーバイズド学習を使用して）訓練させることに使用される。各分類器インスタンス２０８は、基準分類器を任意の初期状態に初期化することによって生成され得る。例えば、基準分類器の初期重量は、初期化時に任意に設定され得る。時々大きくて複雑な個別独立モデルに対立するものとして、単一モデルのインスタンスを訓練させることによって、（コンピュータ資源の観点で）より便利で費用効率の高い学習がなされる。

ブロック３００で受信した入力データ集合２００はまた、ブロック３０８でＶＡＥ２０２を訓練させることにも使用されてもよい。本発明の一実施形態によれば、ＶＡＥ２０２を訓練させて潜在空間での入力データ集合２００の表現を習得するようにする。一応訓練を終えたＶＡＥ２０２は、ブロック３１０、３１４で拡張データを生成することに使用することができる。これと関連して、ブロック３１０で、分類器エンジン１１５は既訓練ＶＡＥモデルを実行して潜在空間内の追加未分類データ標本３１２を生成する。追加データ標本は、例えば任意入力を使用して生成することができる。

ブロック３０４ａ−３０４ｃで、分類器インスタンス２０８のそれぞれは、追加未分類データ標本３１２を受信し、受信した標本に対する予測を生成する。

ブロック３０６で、多くの分類器インスタンス２０８で生成した予測結果アンサンブルは、追加未分類データ標本３１２に対する注釈を生成することに使用されて、注釈が付けられたデータ集合（ａｎｎｏｔａｔｅｄｄａｔａｓｅｔ）３１６を生成する。このようにして、それぞれの分類器インスタンス２０８を実行して得た知識を生徒分類器２１０で蒸留することができる。多くの分類器インスタンス２０８の予測集合を考慮することによって、それぞれのモデルインスタンス２０８を独立的に考慮する時はエラーが生じることがあるとしても、既訓練生徒モデル２１０のエラーを減らすことができる。アンサンブルメカニズムの使用は、既訓練生徒モデル２１０の安定性を持続的に確保することに好ましい。

多様なアンサンブル方法のうちの一つは、追加未分類データ集合３１２の注釈を生成することに使用され得る。このようなアンサンブル方法としては、ハードボーティング（ｈａｒｄｖｏｔｉｎｇ）、ソフトボーティング（ｓｏｆｔｖｏｔｉｎｇ）、知識蒸留などがあるが、これに限定されない。ハードボーティングアンサンブル基盤方法は、多数の分類器インスタンス２０８の予測を行い、多数決に基づいて追加データ集合を分類する。例えば、分類器インスタンスＡ２０８ａおよび分類器インスタンスＢ２０８ｂが特定のデータ標本に対して「優良」クラスを予測し、分類器インスタンスＣ２０８ｃが「不良」クラスを予測すれば、そのデータ標本を「優良」クラスに分類する。

ソフトボーティングアンサンブル基盤方法は、次のように多くの分類器インスタンス２０８の予測確率の平均を取る。

ここでＫは分類器インスタンスの個数である。

例えば、分類器インスタンスＡ２０８ａが９９％の確率で「優良」を予測し、分類器インスタンスＢ２０８ｂが４９％の確率で「優良」を予測し、分類器インスタンスＣ２０８ｃが４９％の確率で「優良」を予測すれば、そのデータ標本が「優良」である確率は（９９＋４９＋４９）／３＝６５．６７％である。したがって、そのデータ標本に対するアンサンブル予測は「優良」になる。

知識蒸留基盤アンサンブル方法は、多数クラス（例：「優良」）だけでなく、少数クラス（例：「不良」）まで考慮してモデルの複数インスタンスの平均確率を取る。このように、多数クラスと少数クラスの両方の平均確率をデータに対するアンサンブル判断として出力する。本発明の一実施形態によれば、知識蒸留は複数クラスモデルに拡張され得る。このような実施形態では、複数クラスに対するモデルの複数インスタンスに対して平均確率を求めることができる。

本発明の一実施形態によれば、分類器エンジン１１５はまた、ブロック３１４で生徒モデル２１０訓練用追加データ標本を生成する。これと関連して、オーバーサンプリングアルゴリズムを適用してオーバーサンプリングデータ集合３１８を作るために少数クラス（例：「不良」クラス）に追加データ標本を生成する。本発明の一実施形態によれば、原本または他の潜在空間の代わりにＶＡＥ潜在空間からオーバーサンプリングする。

ブロック３２０で、分類器エンジン１１５は、ｉ）原本入力データ集合２００、ｉｉ）注釈が付けられたデータ集合３１６および／またはｉｉｉ）オーバーサンプリングデータ集合３１８を使用して生徒分類器２１０を訓練させる。次に、既学習生徒分類器２１０を二項分類器として使用し、新しく製造された製品に対して得た新しい痕跡データに基づいてその製品を「優良」または「不良」などに分類することができる。

図４は、本発明の一実施形態によるＶＡＥ２０２の詳細なブロック図である。一般にＶＡＥ２０２は、符号化器網（ｅｎｃｏｄｅｒｎｅｔｗｏｒｋ）（略して「符号化器」という）４００および復号器網（ｄｅｃｏｄｅｒｎｅｔｗｏｒｋ）（略して「復号器」という）４０２を含むニューラルネットワークである。符号化器４００は、入力データ２００など受信したそれぞれのデータ要素（ｅｌｅｍｅｎｔ）を潜在ベクトル４０４に写像（ｍａｐ）または符号化することができるが、これは潜在ベクトル４０４が単位ガウス分布に近似する（つまり、ベクトルの要素が、例えば平均と偏差をそれぞれ有する独立的なガウス分布である）分布を有するという制限下で行われる。このように、ＶＡＥ２０２は、平均ベクトル４０６と標準偏差ベクトル４０８を適用して受信したデータ要素のそれぞれを潜在ベクトル４０４で符号化する。当業者であれば潜在ベクトル４０４が入力データ２００の圧縮された低次源表現であることを知らなければならない。全ての潜在ベクトル４０４の空間を潜在空間といえる。

復号器４０２は、符号化器４００の概略的な逆動作を行うことができるが、符号化器４００が生成したそれぞれの潜在ベクトル４０４を符号化器４００が潜在ベクトル４０４で写像したデータ要素に近似する（合成）データ要素で写像することができる。符号化器４００および復号器４０２は共に入力データ２００で訓練を受けることができる。

符号化器４００および復号器４０２の訓練を終えると、ブロック３１０（図３）を実行して潜在空間で追加データを生成することができる。例えば、潜在空間を任意サンプリングして（単位ガウス分布を有する）任意ベクトルを生成することができ、生成した任意ベクトルを、合成データ要素を生成する［例えば追加データ集合３１２を生成する］復号器４０２に提供することができる。ＶＡＥ２０２を二つのクラスからのデータ要素（つまり、「優良」データ要素と「不良」データ要素）で訓練させるため、追加データ集合３１２は未分類状態である。

図５は、本発明の一実施形態によるブロック３１４（図３）の潜在空間オーバーサンプリング過程を詳細に示すフローチャートである。ブロック５００で、ブロック３０８でＶＡＥモデルを訓練させて得た潜在空間データ集合をオーバーサンプリングモジュール５０２に入力する。本発明の一実施形態によれば、オーバーサンプリングモジュール５０２は、少数クラス（「不良」クラス）内にあるインスタンスから属性（ａｔｔｒｉｂｕｔｅ）をサンプリングして合成標本［例：オーバーサンプリングされたデータ集合３１８］を生成する。原本入力データ集合を使用して原本入力データ集合内で少数クラスを拡張する従来のオーバーサンプリングとは異なり、本発明の実施形態では習得した潜在空間で少数クラスデータを拡張することができる。

オーバーサンプリングは、ＳＭＯＴＥ（ＳｙｎｔｈｅｔｉｃＭｉｎｏｒｉｔｙＯｖｅｒ−ｓａｍｐｌｉｎｇＴｅｃｈｎｉｑｕｅ）、ＡＤＡＳＹＮ（ＡｄａｐｔｉｖｅＳｙｎｔｈｅｔｉｃ）オーバーサンプリングなどのアルゴリズムを使用して行うことができる。一般にＳＭＯＴＥは、複写本を生成する代わりに少数クラスから合成標本を生成するオーバーサンプリング方法である。本発明の一実施形態によれば、アルゴリズムは潜在空間で［距離尺度（ｄｉｓｔａｎｃｅｍｅａｓｕｒｅ）を使用して］２以上の類似するインスタンスを選択し、隣接したインスタンスとの差内で任意の量の分、一度に一属性ずつインスタンスを変化させる。

ＡＤＡＳＹＮは、それぞれのデータ要素に小さい任意ベクトル［または「オフセット（ｏｆｆｓｅｔ）」］を加えることによって、これらを変化させて（ｏｆｆｓｅｔ）、少数クラスからの合成標本が他のクラス（例：「優良」クラスなど多数クラス）と干渉する可能性を減らす。

ブロック５０４で潜在空間のオーバーサンプリングデータ集合を出力する。

図６の（ａ）は、深層学習モデルを訓練させることに使用され得る入力データ集合［入力データ集合２００と類似する］の一例の分布グラフである。図６（ａ）の例で、入力データ集合２００は小さく、「優良」に分類されたデータ６００と「不良」に分類されたデータ６０２を含む。

図６の（ｂ）−（ｅ）は、図６（ａ）の入力データ集合２００に基づいて互いに異なる判断範囲６０４ａ−６０４ｄを生成する複数の分類器インスタンス［例：分類器インスタンス２０８］の例を示すグラフである。本発明の一実施形態によれば、判断範囲６０４ａ−６０４ｄの差は入力訓練データが少ないためである。判断範囲６０４ａ−６０４ｄの差によって、各モデルは後のデータに対して互いに異なる分類判断をすると予想される。

図７の（ａ）は、本発明の一実施形態によるデータ拡張メカニズムにより追加訓練データ７００に拡張された入力データ集合の一例［図６（ａ）のデータ集合と類似する］の分布グラフである。追加標本は、入力データ集合２００が少ないことによる入力データでの間隙を満たす。追加標本は、深層生成モデルを使用して前述したようなデータ拡張を通じて生成される。

図７の（ｂ）は、図７（ａ）の拡張訓練データ集合に基づいて互いに異なる判断範囲７０４ａ−７０４ｃを生成する複数の分類器インスタンス［例：分類器インスタンス２０８］のグラフを示す。図７（ｂ）に図示したように、入力データの間隙を追加標本７００で満たすが、複数の分類器インスタンスのそれぞれは依然として互いに異なる判断範囲７０４ａ−７０４ｃを生成する傾向がある。しかし、矢印７０６ａ−７０６ｃで示したように複数の分類器インスタンスから知識蒸留を適用すれば、個別モデルインスタンスのそれぞれより安定的かつ正確な新しい生徒分類器用判断範囲７０４ｄを定義することができる。

実験結果、モデルインスタンスから知識蒸留を適用することによって、全体テストデータ集合に対して知らなくても一般化ＭＬモデルが持続的かつ安定的に生成されることが分かった。例えば、「不良」データに対する個別モデルインスタンス一部の有効正確度は８０％に低い。しかし、本発明の実施形態によるデータ拡張および知識蒸留メカニズムで生成された一般化ＭＬモデルは「不良」データに対して９０％以上の有効正確度を示す。

本発明の一実施形態によれば、一つ以上のデータ前処理回路１１０、分類器エンジン１１５、前述した多様なモジュールおよびモデル／分類器は、一つ以上の処理回路により行われ得る。「処理回路」は、ハードウェア、ファームウェア、ソフトウェアまたはこれらの組み合わせを使用して具現することができる。処理回路は、例えば、応用注文型集積回路（ＡＳＩＣ）、汎用または専用中央処理装置（ＣＰＵ）、デジタル信号処理装置（ＤＳＰ）、グラフィックス処理装置（ＧＰＵ）、ＦＰＧＡなどのプログラム可能論理装置を含むことができる。処理回路でそれぞれの関数は、その機能を遂行する有線ハードウェアまたは非一時的（ｎｏｎ−ｔｒａｎｓｉｔｏｒｙ）保存媒体に保存された命令を遂行するＣＰＵなどの汎用ハードウェアで行われ得る。処理回路は、一つの印刷回路基板（ＰＣＢ）に製作される、又は互いに連結されたＰＣＢに分散配置され得る。処理回路は、他の処理回路を含むことができるが、例えばＰＣＢ上で互いに連結されたＦＰＧＡとＣＰＵを含むことができる。

「第１」、「第２」、「第３」などの用語を多様な要素、成分、領域、層、部分などに使用するが、これらはこのような修飾語により限定されない。このような用語は、ある要素、成分、領域、層、部分を他の要素、成分、領域、層、部分と区別するために使用するものであり、本発明の趣旨と範囲を外れない。

ここで使用された用語は、特定の実施形態を説明する目的で使用するに過ぎず、本発明を制限しようとするものではない。ここで「実質的に」、「約」、「概して」およびこれと類似する表現は近似を示す表現に過ぎず、「程度」を示すものではなく、当業者が知ることができる測定値または計算値の固有誤差を示すのに使用する。

ここで数を特に言及しなければ、単数または複数の場合を全て含む。ある特徴、段階、動作、部分、成分などを「含む」という表現は、当該部分以外に他の特徴、段階、動作、部分、成分なども含むことができることを意味する。「および／または」という表現は、羅列されたもののうちの一つまたは二つ以上の全ての組み合わせを含む。羅列目録の前に記載した「少なくとも一つ」などの表現は、目録全体を修飾するものであり、目録内のそれぞれのものを修飾するものではない。また、本発明の実施形態を説明する時に使用する「であり得る」という表現は、「本発明の一つ以上の実施形態」に適用可能であることを意味する。「例示的な」という用語は、例または図面を示す。「使用」、「利用」などはこれと類似する他の表現と共に類似する意味で使用され得る。

部分、層、領域、成分などが他の部分、層、領域、成分の「上に」あるか、「連結されて」いると記載する場合、「直」上にあるか、または「直接」連結されている場合だけでなく、中間に他の部分、層、領域、成分などがさらに挟んでいる場合も含む。しかし、「直上に」あるか、「直接連結」されていると記載すれば中間に他の部分がないことを意味する。

ここに記載した数値範囲は、当該範囲内に含まれる同一の正確度の全ての部分範囲（ｓｕｂ−ｒａｎｇｅ）を含む。例えば、「１．０乃至１０．０」の範囲は、最小値１．０と最大値１０．０およびその間にある全ての部分範囲、つまり、１．０以上の最小値と１０．０以下の最大値を有する部分範囲、例えば２．４乃至７．６を含む。ここで言及した最大値は、その中に含まれ、それより小さい全ての数値限界を含み、本明細書に記載した最小値は、その中に含まれ、それより大きい全ての数値限界を含む。

以上でモデルインスタンス（ｍｏｄｅｌｉｎｓｔａｎｃｅ）に対する知識蒸留（ｋｎｏｗｌｅｄｇｅｄｉｓｔｉｌｌａｔｉｏｎ）システムおよび方法の実施形態について説明および図示したが、当業者であればこのような実施形態を変更および修正することもできる。したがって、ここで提示した原理により構成された他の知識蒸留システムおよび方法も本発明に含まれる。本発明は、特許請求の範囲およびその等価物により定義される。

１０５：データ収集回路
１１０：前処理回路
１１５：分類器エンジン
２００：入力データ（集合）
２０２：ＶＡＥ（ｖａｒｉａｔｉｏｎａｌａｕｔｏｅｎｃｏｄｅｒ）
２０４：オーバーサンプリングモジュール
２０８：インスタンス
２１０：分類器／モデル
３１２：追加データ集合／未分類データ標本
３１６：注釈が付けられたデータ集合
３１８：オーバーサンプリングデータ集合
４００：符号化器
４０２：復号器
４０４：潜在ベクトル
４０６：平均ベクトル
４０８：標準偏差ベクトル
５０２：オーバーサンプリングモジュール
６００：優良データ
６０２：不良データ
７００：追加標本／追加訓練データ
６０４ａ−６０４ｄ、７０４ａ−７０４ｄ：判断範囲

Claims

処理装置（ｐｒｏｃｅｓｓｏｒ）によって、入力データ集合を受信する段階、
前記処理装置によって、第１分類器の少なくとも第１インスタンスおよび第２インスタンスを生成する段階、
前記処理装置によって、前記入力データ集合に基づいて前記第１分類器の前記第１インスタンスおよび第２インスタンスを訓練させる段階、
前記処理装置によって、前記入力データ集合に基づいて前記入力データ集合と関連した潜在空間（ｌａｔｅｎｔｓｐａｃｅ）の表現を学習する第２分類器を訓練させる段階、
前記処理装置によって、前記潜在空間で未分類データ集合である第１追加データ集合を生成する段階、
前記処理装置によって、前記第１分類器の前記第１インスタンスに基づいて前記第１追加データ集合を分類するための第１予測を生成する段階、
前記処理装置によって、前記第１分類器の前記第２インスタンスに基づいて前記第１追加データ集合を分類するための第２予測を生成する段階、
前記処理装置によって、前記第１予測および前記第２予測に基づいて前記第１追加データ集合用の分類注釈を生成する段階、および
前記処理装置によって、少なくとも前記入力データ集合および前記分類注釈が付けられた第１追加データ集合に基づいて第３分類器を訓練させる段階
を含み、
既に訓練された前記第３分類器は、分類する製品のデータを受信し、前記受信したデータに基づいて前記製品に対する予測を出力する
製造過程を通じて製造された製品の分類方法。
前記第１分類器、第２分類器および第３分類器のそれぞれは、ニューラルネットワークである、請求項１に記載の分類方法。
前記第２分類器は、ＶＡＥ（ｖａｒｉａｔｉｏｎａｌａｕｔｏｅｎｃｏｄｅｒ）である、請求項２に記載の分類方法。
前記潜在空間は、前記入力データ集合の圧縮表現を提供する、請求項１に記載の分類方法。
前記第１追加データ集合の生成段階は、前記潜在空間で任意データ要素を生成する段階を含む、請求項１に記載の分類方法。
前記分類注釈の生成段階は、
前記第１予測および前記第２予測に基づいて多数クラスを決定する段階、および
前記多数クラスに基づいて前記第１追加データ集合を分類する段階
を含む
請求項１に記載の分類方法。
前記分類注釈の生成段階は、
前記第１予測の第１確率と前記第２予測の第２確率を決定する段階、
前記第１確率と前記第２確率の平均を計算する段階、および
前記計算された平均に基づいて前記第１追加データ集合用クラスを定義する段階
を含む
請求項１に記載の分類方法。
前記分類注釈の生成段階は、
前記第１予測に基づいて、多数クラスの第１確率および少数クラスの第２確率を決定する段階、
前記第２予測に基づいて、前記多数クラスの第３確率および前記少数クラスの第４確率を決定する段階、
前記第１確率と前記第３確率の第１平均を計算する段階、
前記第２確率と前記第４確率の第２平均を計算する段階、および
前記計算した第１および第２平均に基づいて前記第１追加データ集合を分類する段階
を含む
請求項１に記載の分類方法。
前記潜在空間のオーバーサンプリングに基づいて第２追加データ集合を生成する段階、および
前記入力データ集合、前記分類注釈が付けられた前記第１追加データ集合および前記第２追加データ集合に基づいて前記第３分類器を訓練させる段階
をさらに含む、請求項１に記載の分類方法。
処理装置、および
メモリ
を含み、
前記メモリは、内部にインストラクションを保存しており、
前記処理装置は、前記インストラクションを実行して、
入力データ集合を受信し、
第１分類器の少なくとも第１および第２インスタンスを生成し、
前記入力データ集合に基づいて前記第１分類器の前記第１および第２インスタンスを訓練させ、
前記入力データ集合に基づいて前記入力データ集合と関連した潜在空間（ｌａｔｅｎｔｓｐａｃｅ）の表現を学習する第２分類器を訓練させ、
前記潜在空間で未分類データ集合である第１追加データ集合を生成し、
前記第１分類器の前記第１インスタンスに基づいて前記第１追加データ集合を分類するための第１予測を生成し、
前記第１分類器の前記第２インスタンスに基づいて前記第１追加データ集合を分類するための第２予測を生成し、
前記第１予測および前記第２予測に基づいて前記第１追加データ集合用の分類注釈を生成し、
少なくとも前記入力データ集合および前記分類注釈が付けられた第１追加データ集合に基づいて第３分類器を訓練させ、
既に訓練された前記第３分類器は、分類する製品のデータを受信し、前記受信したデータに基づいて前記製品に対する予測を出力する
製造過程を通じて製造された製品の分類システム。
前記第１分類器、第２分類器および第３分類器のそれぞれは、ニューラルネットワークである、請求項１０に記載の分類システム。
前記第２分類器は、ＶＡＥ（ｖａｒｉａｔｉｏｎａｌａｕｔｏｅｎｃｏｄｅｒ）である、請求項１１に記載の分類システム。
前記潜在空間は、前記入力データ集合の圧縮表現を提供する、請求項１０に記載の分類システム。
前記処理装置は、前記インストラクションを実行して前記第１追加データ集合を生成する時、前記潜在空間で任意データ要素を生成する、請求項１０に記載の分類システム。
前記処理装置は、前記インストラクションを実行して前記分類注釈を生成する時、
前記第１予測および前記第２予測に基づいて多数クラスを決定し、
前記多数クラスに基づいて前記第１追加データ集合を分類する
請求項１０に記載の分類システム。
前記処理装置は、前記インストラクションを実行して前記分類注釈を生成する時、
前記第１予測の第１確率と前記第２予測の第２確率を決定し、
前記第１確率と前記第２確率の平均を計算し、
前記計算した平均に基づいて前記第１追加データ集合用クラスを定義する
請求項１０に記載の分類システム。
前記処理装置は、前記インストラクションを実行して前記分類注釈を生成する時、
前記第１予測に基づいて、多数クラスの第１確率および少数クラスの第２確率を決定し、
前記第２予測に基づいて、前記多数クラスの第３確率および前記少数クラスの第４確率を決定し、
前記第１確率と前記第３確率の第１平均を計算し、
前記第２確率と前記第４確率の第２平均を計算し、
前記計算した第１および第２平均に基づいて前記第１追加データ集合を分類する
請求項１０に記載の分類システム。
前記処理装置は、前記インストラクションを実行して、
前記潜在空間のオーバーサンプリングに基づいて第２追加データ集合を生成し、
前記入力データ集合、前記分類注釈が付けられた第１追加データ集合および第２追加データ集合に基づいて前記第３分類器を訓練させる
請求項１０に記載の分類システム。
入力データ集合を収集するデータ収集回路、および
前記データ収集回路と連結され、ロジックを含む処理回路
を含み、
前記処理回路のロジックは、
前記収集された入力データ集合を受信し、
第１分類器の少なくとも第１および第２インスタンスを生成し、
前記入力データ集合に基づいて前記第１分類器の前記第１および第２インスタンスを訓練させ、
前記入力データ集合に基づいて前記入力データ集合と関連した潜在空間（ｌａｔｅｎｔｓｐａｃｅ）の表現を学習する第２分類器を訓練させ、
前記潜在空間で未分類データ集合である第１追加データ集合を生成し、
前記第１分類器の前記第１インスタンスに基づいて前記第１追加データ集合を分類するための第１予測を生成し、
前記第１分類器の前記第２インスタンスに基づいて前記第１追加データ集合を分類するための第２予測を生成し、
前記第１予測および前記第２予測に基づいて前記第１追加データ集合用の分類注釈を生成し、
少なくとも前記入力データ集合および前記分類注釈が付けられた第１追加データ集合に基づいて第３分類器を訓練させ、
既に訓練された前記第３分類器は、分類する製品のデータを受信し、前記受信したデータに基づいて前記製品に対する予測を出力する
製造部品を優良または不良に分類する分類システム。