JP2022140294A

JP2022140294A - 欠損データを回復するためにオートエンコーダアーキテクチャを有するニューラルネットワークをトレーニングするためのシステムおよび方法

Info

Publication number: JP2022140294A
Application number: JP2022010234A
Authority: JP
Inventors: ラフトチーブ・エミル; Laftchiev Emil; ヤン・チン; Qing Yan; ニコフスキ・ダニエル; Nikovski Daniel
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2021-03-10
Filing date: 2022-01-26
Publication date: 2022-09-26
Also published as: US20220292301A1; US11698946B2

Abstract

【課題】欠損データを回復するようにオートエンコーダをトレーニングする、コンピュータにより実現される方法が提供される。【解決手段】オートエンコーダは、その入力を潜在空間に符号化するためのエンコーダと、潜在空間から符号化を復号するためのデコーダとを含む。本方法は、複数の次元の有効なデータセットを含む第１のトレーニングセットを作成することと、第１のトレーニング段階において第１のトレーニングセットを用いてエンコーダおよびデコーダをトレーニングして、エンコーダに提供される有効なデータセットとデコーダによって復号されるデータセットとの間の差を低減することとを含む。本方法は、さらに、無効なデータセットを含む第２のトレーニングセットを作成することと、第２のトレーニング段階で第２のトレーニングセットを用いてエンコーダをトレーニングして、有効なデータインスタンスの符号化とそれらの対応する無効なデータインスタンスの符号化との間の差を低減することとを含む。【選択図】図１Ａ

Description

本開示は、概してデータの補完に関し、より詳細には、欠損データを回復するためにオートエンコーダアーキテクチャを有するニューラルネットワークをトレーニングするためのシステムおよび方法に関する。

情報通信技術（ＩＣＴ）の急速な進歩により、遠隔監視、データ収集、およびデバイス制御に用いられる多数のセンサが展開されている。これらの開発は、監視制御およびデータ取得（ＳＣＡＤＡ）システム、発電所、およびモノのインターネット（ＩｏＴ）などの産業システムのサイズを増大させた。しかしながら、より多数のセンサは、センサデータ収集の信頼性に肯定的な影響を与えていない。たとえば、ＩｏＴ展開は、しばしば、故障および／またはアクセス不能になり得る消費者グレードのＩＣＴ構成要素（センサなど）を用いる。また、ＳＣＡＤＡ展開およびＩｏＴ展開の両方は、展開のグレードまたはレベルに関連する顧客選択によって影響を受ける。さらに、センサの展開は、スケジュールされた期間にわたってセンサのグループをアクセス不可にし得る定期的な保守などのタスクによって影響を受ける。そのような要素は、センサのアクセス不可またはセンサデータ／読出の系統的欠損につながり得る。アクセス不可または欠損センサデータは、性能を監視および最適化し、異常を検出することが目的である、分析公式、ＡＩアルゴリズム、およびルールベースの監視アルゴリズムにおいて用いられることを意図される場合、問題を引き起こす。したがって、センサデータの欠損は、ＳＣＡＤＡおよびＩｏＴ展開を自動的に監視および動作させる能力に深刻な影響を及ぼし、動作の破滅的障害をもたらし得る。

加えて、センサデータの欠損は、発電および浄水、鉄道車両等の高度にカスタマイズ可能な製品、ならびに暖房、換気、および空調（ＨＶＡＣ）システム等の重要産業における機械学習（ＡＩ）アルゴリズムの採用を妨げる。例えば、ＡＩアルゴリズムは、ほとんどの場合、センサから取得される入力の固定セットに依存する。しかしながら、センサのアクセス不可またはセンサデータ／読出の系統的な欠損に起因して、ＡＩアルゴリズムに対して、入力の固定セットを保証することができない。

したがって、様々な産業システムに適した方法で、センサのアクセス不可の問題またはセンサデータの系統的な欠損を解決する必要がある。

いくつかの実施形態の目的は、アクセス不可能な（または恒久的に欠損している）センサからデータを回復するためにオートエンコーダアーキテクチャを有するニューラルネットワークをトレーニングするためのシステムおよび方法を提供することである。また、いくつかの実施形態の目的は、オートエンコーダをトレーニングするための自己教師あり手法を提供することである。追加または代替として、いくつかの実施形態の目的は、トレーニングされたオートエンコーダを用いて欠損データを回復し、回復されたデータを用いて最適化または異常検出を介して動作を改善することである。

いくつかの実施形態の目的は、観察されたデータ（すなわち、アクセス可能なセンサから取得されたデータ）から欠損センサデータを回復することである。いくつかの実施形態は、欠損データ回復における困難の原因がデータ感知の相互依存性の欠如であるという認識に基づく。例えば、入力データは、２つのセンサの測定値を含み、１つのセンサは車両の速度を測定し、別のセンサは周囲温度を測定する。周囲温度を測定するセンサが測定値の提供を停止する場合、速度の測定値から周囲温度を回復することは困難であり得る。さらに、後続のアプリケーションが両方のセンサの測定値に依存する場合、センサのうちの１つからの測定値の欠如は、後続のアプリケーションの動作を全体的に中断し得る。

さらに、実際のシナリオでは、少なくともなんらかの未知の関係を有するデータを測定する異なるセンサがある。そのような関係の例は、発電所動作を測定するセンサにおいて観察することができる。いくつかの実施形態は、未知の関係を判断することは困難であり、なぜならば、センサの元のデータ空間における測定値にはノイズがあり、未知の関係は複雑な非線形変換を含むからである、という認識に基づく。例えば、発電所の場合、発電所における熱力学的関係は複雑であり、解明するために広範な領域知識を必要とする。そのような複雑な相互依存性は、元のデータ空間における欠損データの回復を困難にする。

いくつかの実施形態は、センサの測定値の効率的な符号化が測定値間の関係を見つける場合があり、なぜならば、符号化方法を用いて、元のデータ空間における重要な関係を要約する、データの低減された次数埋め込みが見つけられるからである、という認識に基づく。加えて、いくつかの実施形態は、効率的な符号化の空間における欠損データの回復はより容易であり、なぜならば、埋め込み自体を、欠損データと観察データとの間の関係を記述するラベルとして用いることができるからである、という認識に基づく。そのような効率的な符号化が判断され得るにもかかわらず、様々な感知および／またはＩｏＴ適用例における測定データの任意の組合せのために効率的な符号化を判断することは困難である。

いくつかの実施形態は、オートエンコーダがそのような効率的な符号化を教師なしに判断することができるという認識に基づく。オートエンコーダは、教師なしで効率的なデータコーディングを学習するために用いられる人工ニューラルネットワークの一種である。オートエンコーダは、エンコーダおよびデコーダを含む。エンコーダは、元のデータ空間からの入力データを、数値のベクトルによって表される潜在空間「ｈ」に符号化する。換言すれば、エンコーダは、元のデータ空間における入力データと入力データの潜在空間表現との間のマッピングを提供する。デコーダは、潜在空間から入力データの符号化を入力データの推定値に復号する、すなわち、入力データを再構築する。ある実施形態では、入力データは多次元時系列データであってもよい。そのために、オートエンコーダは、入力データの異なる次元の関係を捕捉し得る符号化データおよび復号データのための効率的な潜在空間を判断する。

いくつかの実施形態は、オートエンコーダが完全なデータセット（すなわち、すべてのセンサの測定値）上でトレーニングされる場合、エンコーダおよびデコーダの両方が、オートエンコーダの出力が入力データとほぼ等しくなるように、最適化される、という観察に基づく。言い換えれば、デコーダは、入力データを復号することを学習し、ある程度、時系列ダイナミクスを捕捉する。いくつかの実施形態は、入力データからの欠損センサデータは、エンコーダによって提供されるマッピングにノイズを導入し、導入されたノイズは、再構築されたデータにさらに現れる、というさらなる観察に基づく。したがって、欠損センサデータの影響は、エンコーダにおいてほとんど現れる。

いくつかの実施形態は、欠損センサデータに直面したエンコーダのマッピングを改善するために、オートエンコーダを多段階でトレーニングすることができる、という認識に基づく。オートエンコーダは、第１のトレーニング段階および第２のトレーニング段階の２段階でトレーニングされる。

まず、第１のトレーニングセットが作成される。第１のトレーニングセットは、複数の次元の有効なデータセットを含む。いくつかの実施形態では、有効なデータセットは、ラベル付けされていないデータセットである。ある時点において、有効なデータセットは、それらの対応する次元の有効な値の範囲内の値を有する複数の有効なデータポイントを含む。例えば、所与の産業システムは、「ｎ」個のセンサを含む。ある時点における各センサの測定値は、有効なデータポイントに対応する。各センサの測定値（すなわち、有効なデータポイント値）は、それぞれのセンサの有効な値の範囲内にある。例えば、有効な値の範囲は０．１～１であり得る。「ｎ」個のセンサの測定値が得られる時点は、有効なインスタンスと呼ばれる。第１のトレーニングデータセットは、すべてのセンサの測定値を含むので、第１のトレーニングデータセットは、完全なデータセットまたは測定値の完全なセットと呼ばれてもよい。さらに、オートエンコーダは、第１のトレーニング段階で第１のトレーニングデータセットを用いてトレーニングされる。

有効なデータセットは、エンコーダへの入力データとして適用される。エンコーダは、有効なデータセットの潜在空間表現を生成するように構成される。潜在空間表現は、有効なデータセットの下位次元表現である。特に、エンコーダは、エンコーダの入力においてラベル付けされていないデータセットとして受信される有効なデータセットのためのラベルを生成する。

実施形態によれば、エンコーダはディープニューラルネットワークである。さらに、デコーダは、有効なデータセットの潜在空間表現から有効なデータセットを再構築するように構成される。そのために、デコーダは、再構築された有効なデータセットを出力する。オートエンコーダは、再構築された有効なデータセットと有効なデータセットとの間の差を最小化する再構築損失関数を用いてトレーニングされる。さらに、第２のトレーニング段階のために第２のトレーニングデータセットが作成される。

第２のトレーニングセットは、無効なデータセットを含む。例えば、所与の産業システムは、９つのセンサを含み得る。ある時点において、各センサは、それぞれのセンサの有効な値の範囲内の値を有する有効なデータポイント（または測定値）を出力する。そのような場合、有効なデータセットは、有効な値の範囲内の値を有する９つの有効なデータポイント（ｘ_０，ｘ_１，．．．．，ｘ_９）を含み得る。有効なデータセットの１つまたは複数の有効なデータポイント、たとえば有効なデータポイントｘ_０およびｘ_１は、無効なデータポイントで置き換えられる。無効なデータポイントの値は、有効な値の範囲外にある。例えば、有効な値の範囲が０．１～１である場合、無効なデータポイントの値は、有効な値の範囲外にある０であり得る。したがって、有効なデータポイントｘ_０およびｘ_１は０に置き換えられる。その結果、無効なデータセットが生成される。したがって、無効なデータセットは、有効なデータポイント（ｘ_２，ｘ_３，ｘ_４，ｘ_５，ｘ_６，ｘ_７，ｘ_８，ｘ_９）と、有効な値の範囲外の値（たとえば、０）を有する無効なデータポイントｘ_０およびｘ_１とを含む。無効なデータセットは、すべてのセンサの測定値（すなわち、有効なデータポイント）を含まないので、無効なデータセットは、不完全なデータセットまたは測定値の不完全なセットとして企図され得る。さらに、オートエンコーダは、第２のトレーニング段階で、第２のトレーニングデータセットを用いてトレーニングされる。

第２のトレーニング段階において、第１のトレーニング段階でエンコーダによって提供される潜在空間表現を用いて、欠損センサデータに直面して有効なデータセットの潜在空間表現にマッピングする新たなエンコーダを学習する。無効なデータセットは、エンコーダへの入力データとして適用される。エンコーダは、無効なデータセットの潜在空間表現を出力するように構成される。エンコーダは、無効なデータセットの潜在空間表現と有効なデータセットの潜在空間表現との間の差を最小化する符号化損失関数を用いてトレーニングされる。その結果、再トレーニングされたエンコーダが学習される。いくつかの実施形態は、エンコーダは異なる無効なデータセットに対してトレーニングされ得るという認識に基づく。例えば、エンコーダが無効なデータセットに対して再トレーニングされた後、再トレーニングされたエンコーダは、別の無効なデータセットに対して再びトレーニングされる。エンコーダのそのようなトレーニングの結果として、エンコーダは、利用可能な入力値の異なるサブセットに各々が適用可能なモデルのモデルになる。

第２のトレーニング段階の終わりに、新たなエンコーダが学習される。新たなエンコーダは、欠損センサデータに直面しても元の潜在空間表現（すなわち、有効なデータセットの潜在空間表現）にマッピングする。言い換えれば、新たなエンコーダは、欠損センサデータに直面して有効なデータセットの潜在空間表現をどのようにマッピングするかを学習する。

そのために、ある実施形態では、新たなエンコーダは、無効なデータセットが新たなエンコーダに適用されると、新たなエンコーダは、対応する有効なデータセットの潜在空間表現を生成するように、学習される。第２のトレーニング段階では、エンコーダのみが新たなエンコーダを学習するようにトレーニングされ、デコーダは同じままである。

実施形態によれば、多段階トレーニング手順は、自己教師あり手法の形態であり、第１のトレーニング段階は、完全なデータセットを用いて潜在空間表現を学習することを含み、第２のトレーニング段階は、異なるセンサからの欠損データの下で同じ潜在空間表現にどのようにマッピングするかを学習することを含む。さらに、多段階トレーニング手順では、潜在空間表現はラベルとして解釈され、単一の予測モデル（エンコーダ）のみが欠損センサデータに対して最適化される。それにより、多段階トレーニング手順を実行することによって、教師なし手法は、オートエンコーダを欠損センサデータに対してロバストにする教師あり手法に変換される。

したがって、一実施形態は、その入力を潜在空間に符号化するためのエンコーダと潜在空間から符号化を復号するためのデコーダとを含むオートエンコーダアーキテクチャを伴うニューラルネットワークをトレーニングする、コンピュータにより実現される方法を開示する。この方法は、複数の次元の有効なデータセットを含む第１のトレーニングセットを作成することを含み、上記有効なデータセットの各有効なインスタンスは、それらの対応する次元の有効な値の範囲内の値を有する複数の有効なデータポイントを含み、上記方法はさらに、第１のトレーニング段階において上記第１のトレーニングセットを用いて上記ニューラルネットワークの上記エンコーダおよび上記デコーダをトレーニングして、上記エンコーダに提供される上記有効なデータセットと上記デコーダによって復号されるデータセットとの間の差を低減することと、上記有効なインスタンスの少なくともいくつかの有効なデータポイントを、それらの対応する次元の有効な値の上記範囲外の値を有する無効なデータポイントで置き換えることによって形成される無効なデータセットを含む第２のトレーニングセットを作成することと、第２のトレーニング段階で上記第２のトレーニングセットを用いて上記ニューラルネットワークの上記エンコーダをトレーニングして、上記有効なデータインスタンスの符号化とそれらの対応する無効なデータインスタンスの符号化との間の差を低減することとを含む。

したがって、別の実施形態は、その入力を潜在空間に符号化するためのエンコーダと上記潜在空間から上記符号化を復号するためのデコーダとを含むオートエンコーダアーキテクチャを伴うニューラルネットワークをトレーニングするためのシステムを開示する。システムは、少なくとも１つのプロセッサと、命令を格納したメモリとを備え、上記命令は上記少なくとも１つのプロセッサによって実行されると上記システムに、複数の次元の有効なデータセットを含む第１のトレーニングセットを作成させ、上記有効なデータセットの各有効なインスタンスは、それらの対応する次元の有効な値の範囲内の値を有する複数の有効なデータポイントを含み、さらに、上記命令は上記少なくとも１つのプロセッサによって実行されると上記システムに、第１のトレーニング段階において上記第１のトレーニングセットを用いて上記ニューラルネットワークの上記エンコーダおよび上記デコーダをトレーニングさせて、上記エンコーダに提供される上記有効なデータセットと上記デコーダによって復号されるデータセットとの間の差を低減し、上記有効なインスタンスの少なくともいくつかの有効なデータポイントを、それらの対応する次元の有効な値の上記範囲外の値を有する無効なデータポイントで置き換えることによって形成される無効なデータセットを含む第２のトレーニングセットを作成させ、第２のトレーニング段階で上記第２のトレーニングセットを用いて上記ニューラルネットワークの上記エンコーダをトレーニングさせて、上記有効なデータインスタンスの符号化とそれらの対応する無効なデータインスタンスの符号化との間の差を低減する。

したがって、別の実施形態は、センサのセットの中の少なくとも１つのセンサからの測定値が欠測値である、測定値の不完全なセットから、上記センサのセットの測定値の完全なセットを生成するためのデータ回復システムを開示する。データ回復システムは、少なくとも１つのプロセッサと、命令を格納したメモリとを備え、上記命令は上記少なくとも１つのプロセッサによって実行されると上記データ回復システムに、上記測定値の不完全なセットにおける上記欠測値を、上記欠測値の有効な値の範囲外の無効な値で置き換えて、上記測定値の不完全なセットを完成させ、オートエンコーダを用いて上記測定値の完成したセットを処理させて、上記測定値の完全なセットを上記欠測値の回復された値とともに生成し、上記オートエンコーダは、多段階トレーニング手順に基づいて学習されるニューラルネットワークであり、さらに、上記命令は上記少なくとも１つのプロセッサによって実行されると上記データ回復システムに、上記測定値の完全なセットを上記欠測値の上記回復された値とともに出力させる。

いくつかの実施形態による、例示的なオートエンコーダの概略図である。いくつかの実施形態による、オートエンコーダのトレーニングの第１のトレーニング段階の概略図である。いくつかの実施形態による、第２のトレーニングデータセットを作成するための概略図である。いくつかの実施形態による、オートエンコーダのトレーニングの第２のトレーニング段階の概略図である。例示的な実施形態による、オートエンコーダの多段階トレーニングのためのシステムを例示的に示すブロック図である。いくつかの実施形態による、オートエンコーダの多段階トレーニングのためのブロック図である。いくつかの実施形態による、センサのセットの中の少なくとも１つのセンサからの測定値が欠測値である、測定値の不完全なセットから、センサのセットの測定値の完全なセットを生成するためのデータ回復システムのブロック図である。いくつかの実施形態による、データ回復システムを用いる発電所における異常検出の概略図である。いくつかの実施形態による、スタックオートエンコーダ（ＡＥ）トレーニングアルゴリズムを示す図である。いくつかの実施形態による、異なるデータセットの詳細を示す表形式の列の図である。いくつかの実施形態による、スタックＡＥのためのネットワーク詳細を含む表形式の列を示す図である。いくつかの実施形態による、欠損センサ番号の範囲にわたって、コンピュータ数値制御（ＣＮＣ）工具摩耗データセット上の時系列補完の正規化二乗平均平方根誤差（ＮＲＭＳＥ）を示す図である。いくつかの実施形態による、ＣＮＣ工具摩耗データセット上の工具摩耗検出ＡＵＣプロットを示す図である。いくつかの実施形態による、異なる欠損センサ組み合わせについての人間活動データセット上の時系列再構築のＮＲＭＳＥを示す図である。いくつかの実施形態による、増加する欠損センサ数に対するＮＡＴＯＰＳデータセット上の時系列再構築のＮＲＭＳＥを示す図である。いくつかの実施形態による、増加する欠損センサ数に対するＮＡＴＯＰＳデータセット上の分類予測精度の図である。いくつかの実施形態による、異なる欠損センサ組み合わせについてのラケットスポーツデータセット上の時系列再構築のＮＲＭＳＥを示す図である。いくつかの実施形態による、異なる欠損センサ組み合わせについてのラケットスポーツデータセット上の分類タスクの予測精度を示す図である。いくつかの実施形態による、スタックＡＥと反復ＡＥとの間の比較のためのラケットスポーツデータセット上の時系列再構築のＮＲＭＳＥを示す図である。いくつかの実施形態による、異なる欠損センサ組み合わせについての指の動きデータセット上の時系列再構築のＮＲＭＳＥを示す図である。いくつかの実施形態による、異なる欠損センサ組み合わせについての手の動き方向データセット上の時系列再構築のＮＲＭＳＥを示す図である。

詳細な説明
以下の説明では、説明の目的のために、本開示の完全な理解を提供するために、多数の具体的な詳細が記載される。しかしながら、本開示は、これらの具体的な詳細がなくても実施され得ることが当業者には明白であろう。他の事例では、装置および方法が、本開示を不明瞭にすることを避けるためにブロック図の形式でのみ示される。

本明細書および特許請求の範囲で用いられる場合、「例えば」、「例として」、「等」、ならびに動詞「備える」、「有する」、「含む」と言う文言、およびそれらの他の動詞形は、１つもしくは複数の構成要素または他の項目のリストとともに用いられる場合、各々オープンエンドと解釈されるべきであり、リストは、他の追加の構成要素または項目を排除するものと見なすべきではないことを意味する。「～に基づく」と言う文言は、少なくとも部分的に基づくことを意味する。さらに、本明細書で用いられる表現および用語は、説明の目的のためのものであり、限定と見なされるべきではないことを理解されたい。本記載内で利用されるいずれの見出しも、便宜のためだけのものであり、法的または限定的な効果を有さない。

センサは、監視制御およびデータ取得（ＳＣＡＤＡ）システム、暖房、換気、および空調（ＨＶＡＣ）システム、発電所、ならびにモノのインターネット（ＩｏＴ）などの産業システムに設置される。それらのセンサのうちの１つまたは複数のセンサは、アクセス不能になる場合がある。１つまたは複数のセンサのアクセス不可は、保守、顧客選択、および１つまたは複数のセンサの予期しない故障のために、大型モジュール式システムの部分をシャットダウンすることに起因し得る。１つまたは複数のセンサがアクセス不可であるため、１つまたは複数のセンサからのデータ（または測定値）が得られないことがある。

いくつかの実施形態の目的は、観察されたデータ（すなわち、アクセス可能なセンサから取得されたデータ）から欠損データ（すなわち、アクセス不可能なセンサ（欠損センサとも呼ばれる）に関連付けられるデータ）を回復することである。いくつかの実施形態は、欠損データの回復における困難の原因はデータ感知の相互依存性の欠如である、という認識に基づく。例えば、入力データは、２つのセンサの測定値を含み、１つのセンサは車両の速度を測定し、別のセンサは周囲温度を測定する。周囲温度を測定するセンサが測定値の提供を停止する場合、速度の測定値から周囲温度を回復することは困難であり得る。さらに、後続のアプリケーションが両方のセンサの測定値に依存する場合、一方のセンサ測定値の欠如は、後続のアプリケーションの動作を全体的に中断し得る。

いくつかの実施形態は、センサの測定値の効率的な符号化が測定値間の関係を見つける場合があり、なぜならば、符号化方法を用いて、元のデータ空間における重要な関係を要約する、データの低減された次数埋め込みが見つけられるからである、という認識に基づく。加えて、いくつかの実施形態は、効率的な符号化の空間における欠損データの回復はより容易であり、なぜならば、埋め込み自体を、欠損データと観察データとの間の関係を記述するラベルとして用いることができるからである、という認識に基づく。そのような効率的な符号化が判断され得るにもかかわらず、様々な感知および／またはＩｏＴ適用例における測定データの任意の組合せのための効率的な符号化を判断することは困難である。

いくつかの実施形態は、オートエンコーダがそのような効率的な符号化を教師なしに判断することができるという認識に基づく。オートエンコーダは、教師なしで効率的なデータコーディングを学習するために用いられる人工ニューラルネットワークの一種である。図１Ａは、いくつかの実施形態による、例示的なオートエンコーダ１００の概略図を示す。オートエンコーダ１００は、エンコーダ１０２およびデコーダ１０６を含む。エンコーダ１０２は、元のデータ空間からの入力データを潜在空間「ｈ」１０４に符号化する。言い換えれば、エンコーダ１０２は、元のデータ空間における入力データと入力データの潜在空間表現との間のマッピングを提供する。デコーダ１０６は、潜在空間からの符号化を入力データの推定値に復号する、すなわち、入力データを再構築する。ある実施形態では、入力データは多次元時系列データであってもよい。そのために、オートエンコーダ１００は、入力データの異なる次元の関係を捕捉し得る符号化データおよび復号データのための効率的な潜在空間を判断する。

いくつかの実施形態は、オートエンコーダ１００が完全なデータセット（すなわち、すべてのセンサの測定値）上でトレーニングされると、エンコーダ１０２およびデコーダ１０６の両方が、オートエンコーダ１００の出力が入力データとほぼ等しくなるように、最適化される、という観察に基づく。言い換えれば、デコーダ１０６は、入力データを再生するように学習し、ある程度、時系列ダイナミクスを捕捉する。いくつかの実施形態は、入力データからの欠損センサデータは、エンコーダ１０２によって提供されるマッピングにノイズを導入し、導入されたノイズは、再構築されたデータにさらに現れる、というさらなる観察に基づく。したがって、欠損データの影響は、エンコーダ１０２においてほとんど現れる。

いくつかの実施形態は、欠損センサデータに直面したエンコーダ１０２のマッピングを改善するために、オートエンコーダ１００を多段階でトレーニングすることができる、という認識に基づく。

図１Ｂ～図１Ｄは、いくつかの実施形態によるオートエンコーダ１００の多段階トレーニングの図をまとめて示す。オートエンコーダ１００は、第１のトレーニング段階と第２のトレーニング段階との２段階でトレーニングされる。

まず、第１のトレーニングセットを作成する。第１のトレーニングセットは、複数の次元の有効なデータセットを含む。ある時点において、有効なデータセットは、それらの対応する次元の有効な値の範囲内の値を有する複数の有効なデータポイントを含む。例えば、所与の産業システムは、「ｎ」個のセンサを含む。ある時点における各センサの測定値は、有効なデータポイントに対応する。各センサの測定値（すなわち、有効なデータポイント値）は、それぞれのセンサの有効な値の範囲内にある。ある実施形態では、有効な値の範囲は０．１～１であり得る。「ｎ」個のセンサの測定値が得られる時点は、有効なインスタンスと呼ばれる。さらに、有効なデータセットは、ラベル付けされていないデータである。第１のトレーニングデータセットは、すべてのセンサの測定値を含むので、第１のトレーニングデータセットは、完全なデータセットまたは測定値の完全なセットと呼ばれてもよい。さらに、オートエンコーダ１００は、第１のトレーニング段階で第１のトレーニングデータセットを用いてトレーニングされる。

図１Ｂは、いくつかの実施形態による、オートエンコーダ１００のトレーニングの第１のトレーニング段階の概略図を示す。有効なデータセット１０８（すなわち、ラベル付けされていないデータセット）は、エンコーダ１０２への入力データとして適用される。エンコーダ１０２は、有効なデータセット１０８の潜在空間表現を生成するように構成される。潜在空間表現１０４ｂは、有効なデータセット１０８の下位次元表現である。より具体的には、有効なデータセット１０８の潜在空間表現は、ラベル付けされたデータセットに対応する。ある実施形態によれば、エンコーダ１０２はディープニューラルネットワークである。さらに、デコーダ１０６は、有効なデータセット１０８の潜在空間表現から有効なデータセット１０８を再構築するように構成される。そのために、デコーダ１０６は、再構築された有効なデータセット１１０を出力する。オートエンコーダ１００は、再構築された有効なデータセット１１０と有効なデータセット１０８との間の差１１２ｂを最小化する再構築損失関数を用いてトレーニングされる。さらに、第２のトレーニング段階のために第２のトレーニングデータセットが作成される。

図１Ｃは、いくつかの実施形態による、第２のトレーニングデータセットを作成するための概略図を示す。例えば、所与の産業システムは、９つのセンサを含み得る。ある時点において、各センサは、それぞれのセンサの有効な値の範囲内の値を有する有効なデータポイント（または測定値）を生成する。そのような場合、有効なデータセット１０８は、ある時点において、有効な値の範囲内の値を有する９つの有効なデータポイント（ｘ_０，ｘ_１，．．．．，ｘ_９）を含んでもよい。有効なデータセット１０８の１つまたは複数の有効なデータポイント、たとえば有効なデータポイント１１４ａおよび１１４ｂは、無効なデータポイントで置き換えられる。無効なデータポイントの値は、有効な値の範囲外にある。例えば、有効な値の範囲が０．１～１である場合、無効なデータポイントの値は、有効な値の範囲外にある零（「０」）であり得る。したがって、有効なデータポイント１１４ａおよび１１４ｂは０に置き換えられる。その結果、無効なデータセット１１６が生成される。したがって、無効なデータセット１１６は、有効なデータポイント（ｘ_０，ｘ_１，ｘ_２，ｘ_３，ｘ_４，ｘ_７，ｘ_８，ｘ_９）と、有効な値の範囲外の値（たとえば、０）を有する無効なデータポイント１１６ａおよび１１６ｂとを含む。第２のトレーニングデータセットは、無効なデータセット１１６を含む。

ある実施形態によると、零値の無効なデータポイント１１６ａおよび１１６ｂは、９つのセンサのうちの第５のセンサおよび第６のセンサの測定値が欠損していることを示す。無効なデータセット１１６は、すべてのセンサの測定値（すなわち、有効なデータポイント）を含まないので、無効なデータセット１１６は、不完全なデータセットまたは測定値の不完全なセットとして企図され得る。いくつかの実施形態は、エンコーダ１０２を無効なデータセット１１６で再トレーニングすることは、エンコーダ１０２が、無効なデータセット１１６を正しい潜在空間表現をマッピングするための新たなマッピングを学習することを可能にする、という認識に基づく。そのために、第２のトレーニング段階において、オートエンコーダ１００は、第２のトレーニングデータセットを用いてトレーニングされる。

図１Ｄは、いくつかの実施形態による、オートエンコーダ１００をトレーニングする第２のトレーニング段階の概略図を示す。第２のトレーニング段階において、第１のトレーニング段階でエンコーダ１０２によって生成された潜在空間表現１０４ｂは、欠損センサデータに直面して、ラベル付けされたデータセット（すなわち、有効なデータセット１０８の潜在空間表現１０４ｂ）にマッピングする新たなエンコーダを学習するために用いられる。無効なデータセット１１６は、エンコーダ１０２への入力データとして適用される。エンコーダ１０２は、無効なデータセット１１６の潜在空間表現１０４ｄを生成するように構成される。エンコーダ１０２は、無効なデータセット１１６の潜在空間表現１０４ｄと有効なデータセット１１０の潜在空間表現１０４ｂとの間の差１１２ｄを最小化する符号化損失関数を用いてトレーニングされる。その結果、新たなエンコーダが生成される。いくつかの実施形態は、エンコーダ１０２は異なる無効なデータセットに対してトレーニングされ得るという認識に基づく。例えば、エンコーダ１０２が無効なデータセット１１６について再トレーニングされた後、再トレーニングされたエンコーダは、別の無効なデータセットについて再びトレーニングされる。このようなエンコーダ１０２のトレーニングの結果、エンコーダ１０２はモデルのモデルとなる。

第２のトレーニング段階の終わりに、新たなエンコーダが学習される。新たなエンコーダは、欠損センサデータに直面しても正しい潜在空間表現（すなわち、有効なデータセットの潜在空間表現）にマッピングする。言い換えれば、新たなエンコーダは、欠損センサデータに直面して有効なデータセットの潜在空間表現をどのようにマッピングするかを学習する。

そのために、ある実施形態では、新たなエンコーダは、無効なデータセット１１６が新たなエンコーダに適用されると、新たなエンコーダが対応する有効なデータセット１０８の潜在空間表現を生成するように、学習される。第２のトレーニング段階では、エンコーダ１０２のみが新たなエンコーダを学習するようにトレーニングされ、デコーダ１０６は同じままである。したがって、オートエンコーダ１００の多段階トレーニングは、新たなエンコーダとデコーダ１０６とを含むオートエンコーダをもたらす。

実施形態によれば、多段階トレーニング手順は、自己教師あり手法の形態であり、第１のトレーニング段階は、完全なデータセットを用いて潜在空間表現を学習することを含み、第２のトレーニング段階は、異なるセンサからの欠損データの下で同じ潜在空間表現にどのようにマッピングするかを学習することを含む。さらに、多段階トレーニング手順では、第１のトレーニング段階において生成された潜在空間表現はラベルとして解釈され、単一の予測モデル（エンコーダ１０２）のみが、欠損センサデータに対して最適化される。それにより、多段階トレーニング手順を実行することによって、教師なし手法は、オートエンコーダ１００を欠損センサデータに対してロバストにする教師あり手法に変換される。

図２Ａは、例示的な実施形態による、オートエンコーダ１００の多段階トレーニングのためのシステム２００を例示的に示すブロック図である。システム２００は、プロセッサ２０２と、メモリ２０４と、通信インターフェイス２０６とを備え得る。プロセッサ２０２、メモリ２０４、および通信インターフェイス２０６は、互いに通信可能に結合され得る。プロセッサ２０２は、いくつかの異なる方法で具現化され得る。たとえば、プロセッサ２０２は、コプロセッサ、マイクロプロセッサ、コントローラ、もしくは、たとえば、ＡＳＩＣ（特定用途向け集積回路）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、マイクロコントローラユニット（ＭＣＵ）、ハードウェアアクセラレータ、専用コンピュータチップなどの集積回路を含む様々な他の処理回路といった様々なハードウェア処理手段のうちの１つまたは複数として実施され得る。したがって、いくつかの実施形態では、プロセッサ２０２は、独立して実行するように構成された１つまたは複数の処理コアを含み得る。マルチコアプロセッサは、単一の物理パッケージ内でマルチ処理を可能にし得る。

メモリ２０４は、非一時的であり得、たとえば、１つもしくは複数の揮発性および／または不揮発性メモリを含み得る。たとえば、メモリ２０４は、マシン（たとえば、プロセッサ２０２のようなコンピューティングデバイス）によって取り出し可能であり得るデータ（たとえば、ビット）を格納するように構成されたゲートを備える電子記憶デバイス（たとえば、コンピュータ可読記憶媒体）であり得る。メモリ２０４は、システム２００が本開示の例示的な実施形態による様々な機能を実行することを可能にするために、情報、データ、コンテンツ、アプリケーション、命令などを記憶するように構成され得る。追加または代替として、メモリ２０４は、プロセッサ２０２による実行のための命令を記憶するように構成され得る。

プロセッサ２０２は、メモリ２０４に記憶されるかまたはさもなければプロセッサ２０２にアクセス可能な命令を実行するように構成され得る。追加または代替として、プロセッサ２０２は、ハードコード化された機能を実行するように構成され得る。したがって、ハードウェア方法もしくはソフトウェア方法によって構成されるか、またはそれらの組合せによって構成されるかにかかわらず、プロセッサ２０２は、本開示の実施形態による動作を実行することが可能な（たとえば、回路で物理的に具現化された）エンティティを表し得る。したがって、たとえば、プロセッサ２０２がＡＳＩＣ、ＦＰＧＡなどとして具現化されるとき、プロセッサ２０２は、本明細書で説明する動作を実行するための具体的に構成されたハードウェアであり得る。代替として、別の例として、プロセッサ２０２がソフトウェア命令の実行部として具現化されるとき、命令は、命令が実行されると、本明細書で説明されるアルゴリズムおよび／または動作を実行するようにプロセッサ２０２を具体的に構成し得る。

通信インターフェイス２０６は、１つまたは複数のセンサとの間の通信をサポートするための入力インターフェイスおよび出力インターフェイスを備え得る。通信インターフェイス２０６は、１つまたは複数のセンサとの間でデータを受信および／または送信するように構成されたハードウェアもしくはハードウェアとソフトウェアとの組み合わせのいずれかで具現化されたデバイスまたは回路などの任意の手段であり得る。この点に関して、通信インターフェイス２０６は、たとえば、ワイヤレス通信ネットワークとの通信を可能にするためのアンテナ（または複数のアンテナ）ならびにサポートハードウェアおよび／またはソフトウェアを含み得る。追加または代替として、通信インターフェイス２０６は、アンテナを介する信号の送信を引き起こすために、またはアンテナを介して受信された信号の受信を処理するために、アンテナとやり取りするための回路を含み得る。いくつかの環境では、通信インターフェイス２０６は、代替として、または加えて、有線通信をサポートしてもよい。したがって、たとえば、通信インターフェイス２０６は、ケーブル、デジタル加入者回線（ＤＳＬ）、ユニバーサルシリアルバス（ＵＳＢ）または他の機構を介した通信をサポートするための通信モデムならびに／または他のハードウェアおよび／もしくはソフトウェアを含み得る。

プロセッサ２０２は、有効なデータセット１０８の各有効なインスタンスが、それらの対応する次元の有効な値の範囲内の値を有する複数の有効なデータポイントを含むように、複数の次元の有効なデータセットを含む第１のトレーニングセットを作成するように構成され得る。プロセッサ２０２は、さらに、エンコーダ１０２に提供される有効なデータセット１０８とデコーダ１０６によって復号されるデータセット（すなわち、再構築された有効なデータセット１１０）との間の差を低減するために、第１のトレーニング段階において第１のトレーニングセットを用いてエンコーダ１０２およびデコーダ１０６をトレーニングするように、構成され得る。プロセッサ２０２は、さらに、有効なインスタンスの少なくともいくつかの有効なデータポイントを、それらの対応する次元の有効な値の範囲外の値を有する無効なデータポイントで置き換えることによって形成される無効なデータセット１１６を含む第２のトレーニングセットを作成するように、構成され得る。プロセッサ２０２は、さらに、有効なデータインスタンスの符号化（すなわち、有効なデータセット１０８の潜在空間表現）とそれらの対応する無効なデータインスタンスの符号化（すなわち、無効なデータセット１１６の潜在空間表現）との間の差を低減するために、第２のトレーニング段階で第２のトレーニングセットを用いてエンコーダ１０２をトレーニングするように、構成され得る。

図２Ｂは、いくつかの実施形態による、オートエンコーダ１００の多段階トレーニングのためのブロック図を示す。ブロック２０８において、プロセッサ２０２は有効なデータセットを受信する。ブロック２１０において、プロセッサ２０２は、受信された有効なデータセットを用いて、図１Ｂを参照して上述したように、オートエンコーダ１００のエンコーダ１０２およびデコーダ１０６をトレーニングする。このようなトレーニングの結果、第１のトレーニング段階モデルを表すエンコーダ１０２およびデコーダ１０６の重みが生成される。ブロック２１２において、エンコーダ１０２およびデコーダ１０６の重みは、メモリ、例えば、システム２００のメモリ２０４に記録される。さらに、ブロック２１４において、プロセッサ２０２は、入力データを受信する。ある実施形態では、入力データは、センサ測定値に対応し得る。ブロック２１６において、プロセッサは、所望の潜在空間表現を生成する第１のトレーニング段階モデルのエンコーダに入力データを入力する。さらに、ブロック２１８で、プロセッサは、入力データに基づいて一連の無効なデータセットを生成する。ブロック２２０で、プロセッサは、図１Ｄを参照して上述したように、無効なデータセットから潜在空間表現にマッピングするよう、無効なデータセットごとに第２段階エンコーダをトレーニングする。このようなトレーニングの結果、第２段階エンコーダの重みが生成される。ブロック２２２では、第２段階エンコーダの重みをメモリに記録する。ある実施形態では、第２段階エンコーダの重みは、第１のトレーニング段階モデルのエンコーダの重みでウォームスタートされる。第２段階エンコーダのそのようなトレーニングプロセスは、入力データの各無効なデータセットに対して繰り返され、結果は第２段階エンコーダの重みである。

データ回復システム
いくつかの実施形態では、産業システムは監視システムを備え、その目的は、産業システムの動作を監視し、異常を検出することである。さらに、産業システムは、産業システムの動作を制御するように構成されたコントローラを備える。産業システムに関連付けられるすべてのセンサの測定値は、監視システムによって用いられる監視アルゴリズムにおいて用いられる。しかしながら、いくつかの状況下では、１つまたは複数のセンサがアクセス不能になることがあり、それにより、アクセス不能なセンサの測定値は得られない。したがって、監視アルゴリズムには部分的な測定値が入力される。しかしながら、監視アルゴリズムは、部分的な測定に直面しては、効果的に機能しない場合がある。同様に、コントローラは、部分的な測定に直面しては、効果的に機能しない場合がある。そのために、いくつかの実施形態は、たとえ１つまたは複数のセンサの測定値が欠損している場合でも、すべてのセンサの測定値を監視システムおよびコントローラに提供することを目的とする。

いくつかの実施形態は、多段階トレーニング手順に従ってトレーニングされたオートエンコーダ１００を用いて、欠測値を回復することができる、という認識に基づく。そのために、いくつかの実施形態は、欠測値を回復するために、多段階トレーニング手順に従ってトレーニングされたオートエンコーダ１００に基づいてデータ回復システムを構築することを目的とする。

図３は、いくつかの実施形態による、データ回復システムのブロック図を示す。データ回復システム３００は、データ回復システム３００を他のシステムおよびデバイスと接続するいくつかのインターフェイスを有することができる。例えば、ネットワークインターフェイスコントローラ（ＮＩＣ）３１４は、バス３１２を介して、データ回復システム３００をネットワーク３１６に接続するように適合される。ネットワーク３１６を通じて、無線または有線のいずれかで、データ回復システム３００は、産業システムに関連付けられるセンサのセットの測定値３１８を受信することができる。追加または代替として、センサ測定値３１８は、入力インターフェイス３０２を介して受信され得る。一実施形態では、センサ測定値３１８は、センサのセットのうちの少なくとも１つのセンサからの測定値を欠いている測定値の不完全なセットに対応し得る。

データ回復システム３００は、記憶された命令を実行するように構成されたプロセッサ３０４と、プロセッサ３０４によって実行可能な命令を記憶するメモリ３０６とを含む。プロセッサ３０４は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数の他の構成であり得る。メモリ３０６は、ランダムアクセスメモリ（ＲＡＭ）、読出専用メモリ（ＲＯＭ）、フラッシュメモリ、または任意の他の好適なメモリシステムを含み得る。プロセッサ３０４は、バス３１２を介して１つまたは複数の入力デバイスおよび出力デバイスに接続される。さらに、データ回復システム３００は、プロセッサ３０４のために実行可能命令を記憶する異なるモジュールを記憶するように適合された記憶デバイス３０８を含む。記憶デバイス３０８は、ハードドライブ、光学ドライブ、サムドライブ、ドライブのアレイ、またはそれらの任意の組み合わせを用いて実現することができる。

記憶デバイス３０８は、オートエンコーダ３１０を格納するように構成される。オートエンコーダ３１０は、多段階トレーニング手順に基づいてトレーニングされたオートエンコーダアーキテクチャを有するニューラルネットワークを指す。多段階トレーニング手順は、図１Ｂ～図１Ｄを参照して上述されている。オートエンコーダ３１０は、欠測値が無効な値によって置き換えられた測定値の完全なセットを潜在空間に符号化するように構成されたエンコーダを含む。オートエンコーダ３１０は、さらに、潜在空間から、測定値の完全なセットを、欠測値の回復された値とともに復号するように構成されたデコーダを含む。

いくつかの実施形態では、プロセッサ３０４は、測定値の不完全なセットにおける欠測値を、欠測値の有効な値の範囲外の無効な値で置き換えて、測定値の不完全なセットを完成させるように構成される。プロセッサ３０４は、さらに、完成した測定値のセットをオートエンコーダ３１０を用いて処理して、測定値の完全なセットを、欠測値の回復された値とともに生成するように構成される。プロセッサ３０４は、さらに、測定値の完全なセットを、欠測値の回復された値とともに出力するように構成される。

いくつかの実施形態では、トレーニングされたオートエンコーダ３１０は、例えば、ネットワーク３１６を通して、システム３００に提供される。追加または代替として、システム３００は、産業システム３２２に関連するデータの特定の構成のために現場でオートエンコーダ３１０をトレーニングするためのトレーニングシステム２００を含む。

加えて、データ回復システム３００は、出力インターフェイス３２０を含み得る。いくつかの実現例では、データ回復システム３００は、出力インターフェイス３２０を介して、測定値の完全なセットを、欠測値の回復された値とともに提出するように構成される。いくつかの実施形態では、データ回復システム３００は、産業システム３２２と統合される。産業システム３２２は、発電所、ＳＣＡＤＡシステム、ＨＶＡＣシステム、モノのインターネット（ＩｏＴ）等に対応し得る。データ回復システム３００は、出力インターフェイス３２０を介して、測定値の完全なセットを、欠測値の回復された値とともに、産業システム３２２に提出するように構成される。

ある実施形態では、データ回復システム３００は、出力インターフェイス３２０を介して、測定値の完全なセットを、欠測値の回復された値とともに、産業システム３２２に関連付けられた異常検出器に提出するように構成される。いくつかの実施形態では、データ回復システム３００は、出力インターフェイス３２０を介して、測定値の完全なセットを、欠測値の回復された値とともに、産業システム３２２に関連付けられたコントローラに提出するように構成される。いくつかの実施形態では、データ回復システム３００は、出力インターフェイス３２０を介して、測定値の完全なセットを、欠測値の回復された値とともに、産業システム３２２に関連付けられた監視システムに提出するように構成される。

図４は、いくつかの実施形態による、データ回復システム３００を用いる発電所４００における異常検出の概略図を示す。発電所４００は、センサのセットを含む。しかしながら、センサのセットのうちの１つまたは複数のセンサは、アクセス不可能になる場合がある。したがって、センサのセット内の少なくとも１つのセンサからの測定値が欠損している不完全な測定値のセットが得られ、データ回復システム３００に入力される。データ回復システム３００は、多段階トレーニング手順に基づいてトレーニングされたオートエンコーダ３１０を用いて、測定値の完全なセットを、欠測値の回復された値とともに生成するように構成される。その結果、データ回復システム３００は、測定値の完全なセットを、欠測値の回復された値とともに出力する。

さらに、データ回復システム３００によって生成された欠測値の回復された値を伴う測定値の完全なセットは、監視システム４０２に適用される。したがって、測定値が欠損している場合でも、監視システム４０２は、測定値の完全なセットを提供される。

監視システム４０２は、発電所４００の動作を監視するように構成される。加えて、監視システム４０２は、測定値の完全なセットの各測定値の値を対応する閾値と比較することによって、発電所４００の動作の異常を検出するように構成される。ある実施形態では、測定値の完全なセットにおける測定の値が対応する閾値を上回る場合、発電所４００の動作に異常が存在すると推測される。異常の検出に応答して、監視システム４０２は、コントローラ４０４に異常情報を送信する。コントローラ４０４は、異常情報に基づいて発電所４００の動作を制御するように構成される。例えば、コントローラ４０４は、異常情報に基づいて、発電所４００の１つまたは複数の機器のための制御コマンドを生成して異常を解決し、発電所４００を通常状態で動作させることができる。いくつかの実施形態では、コントローラ４０４は、異常の検出に応じて、発電所４００の動作を停止してもよい。

同様に、データ回復システム３００は、ＳＣＡＤＡシステム、ＨＶＡＣシステム、およびモノのインターネット（ＩｏＴ）などの他の産業システムにおいて、当該産業システムの最適化などの他の動作のために採用され得る。いくつかの実施形態では、多段階トレーニング手順および／または多段階トレーニング手順に従ってトレーニングされたオートエンコーダ１００は、測定および異常検出アルゴリズム自体に直接適用されることができ、それによって、前駆体の必要性を排除する。

いくつかの実施形態は、多段階トレーニング手順を反復補完法と比較する。以下の式（１）および式（２）は、それぞれ、多段階トレーニング手順における欠損データ補完の、およびオートエンコーダを通して値を反復的に補完する際のフローを示す。

式（１）は、通常トレーニングされたオートエンコーダを介する反復は、反復的補完の場合に計算上の複雑さを増加させる連続的なオンライン計算を必要とすることを示す。一方、式（２）は、多段階トレーニング手順は、欠損データを補完するために、オートエンコーダを通る単一のパスのみを必要とすることを示す。

いくつかの実施形態は、多段階トレーニング手順と反復補完方法とを組み合わせることは有利である、という認識に基づく。なぜならば、多段階トレーニング手順はノイズを直ちに補正するが、第２のトレーニング段階エンコーダ

の入力における完全なデータセットの導入は、潜在空間偏差につながり得るからである。言い換えれば、多段階トレーニングされたエンコーダ上での反復は最適ではない。実施形態によれば、多段階トレーニング手順および反復補完方法を組み合わせて、以下のように与えられるスタックオートエンコーダ（スタックＡＥ）手法を生成する：

図５は、いくつかの実施形態による、スタックＡＥトレーニングアルゴリズムを示す。

さらに、異なる設定における多段階トレーニング手順および反復補完方法の利点が、複数のデータセットを用いて説明される。図６は、いくつかの実施形態による、異なるデータセットの詳細を示す表形式の列である。多段階トレーニング手順を評価するために、６つのオープンソースデータセットが用いられる。Ｋａｇｇｌｅ上で利用可能なコンピュータ数値制御（ＣＮＣ）ミリング工具摩耗データセット、Ｍｏｃａｐ人間活動認識データセット、およびＵＥＡ＆ＵＣＲ時系列データセットリポジトリからのデータセットが用いられる。前述のデータセットにおいて、時系列は範囲［０．１，０．９］に正規化され、したがって、正規化後の値はすべて正であり、欠損データは零補完を介して識別可能である。ＣＮＣミリング工具摩耗データセットは、システムレベル製造および自動化調査テストベッド（the System-level Manufacturing and Automation Research Testbed）（ＳＭＡＲＴ）におけるＣＮＣでの１８回の実験からの実験データを含む。各機械において、多変量時系列がセンサから収集され、それらのうちの２４次元の連続時系列が用いられる。データは、部品の完成、工具の摩耗および実験パラメータに関してラベル付けされる。そのようなデータは、１００個のデータポイントの非重複ウィンドウに分割される。非重複ウィンドウはシャッフルされ、トレーニングデータセット用の１５０ウィンドウ、検証データセットにおける５０ウィンドウ、および試験セットにおける５０ウィンドウが設定される。検証データセットは、学習アルゴリズムの早期終了のために用いられる。データ上のラベルは、ミリング工具摩耗検出に用いられる。具体的には、ミリング工具が摩耗しているかどうかを予測するＸＧｂｏｏｓｔ分類器が学習される。ＸＧｂｏｏｓｔ分類器は、完全なデータを伴うトレーニングデータセットで学習される。試験中、欠損センサの数は、

であると見なされる。

モーションキャプチャデータベースは、歩行、走行などの記録された人間の活動の包括的なデータベースである。各活動について、参加者のビデオが、ビデオ全体にわたって身体関節位置（ｘ，ｙ，ｚ）の９３次元多次元時系列に変換される。得られた時系列は、各実験の持続時間について３１の身体関節の位置を表す。データセットには、異なる環境で異なる活動を行う５人の動作主がいる。各入力が１００×９３の次元を有することを意味する、１００のウィンドウサイズが選択される。各動作主について、５００の動作データ点がサンプリングされる。欠損センサの数は、

で考慮される。動作主が実行している動きを予測する分類器が学習され、ｋごとに、補完されたデータ入力での分類器についての正規化された二乗平均平方根誤差（ＮＲＭＳＥ）および精度が報告される。

考慮される問題設定およびデータセットの選択されたサイズに基づいて、指の動きデータセット、手の動き方向データセット、ＮＡＴＯＰＳデータセットおよびラケットスポーツデータセットが選択される。指の動きデータセットおよび手の動き方向データセットは、人がタイピングをしているかまたは手を動かしている間のその人の脳神経活動の記録である。ＮＡＴＯＰＳデータセットは、ジェスチャ識別データセットであり、６つのハンドジェスチャを実行している個人の両手、両肘、両手首および両親指に配置されたセンサから生成される。データセットは、人が行なったジェスチャについての、各センサからのｘ、ｙ、およびｚ座標時系列を含む。ラケットスポーツデータセットは、バドミントンまたはスカッシュをしている人に装着されたスマートウォッチから生成される。スマートウォッチは、加速度計およびジャイロスコープを用いてスマートウォッチの位置を測定する。

１０個のセンサを有するＩｏＴ／ＳＣＡＤＡ展開が与えられると、１０２４のサイズの欠損センサ組合せの電力セットを有し得る。すべての考えられ得る欠損センサの組み合わせでモデルをトレーニングおよびテストすることは、欠損センサの総数ｋおよび番号ごとの両方において、計算上禁止同然であることは明らかである。この理由から、１００個の欠損パターンのサンプルｍが、所与の数の欠損センサｋごとに、トレーニングおよびテストのために用いられる。

図７は、いくつかの実施形態による、スタックＡＥのためのネットワーク詳細を含む表形式の列を示す。ここで、自動符号化モデルは、１次元畳み込みＡＥである。すべてのスタックＡＥモデルは、設定された最大反復数、例えば４回の反復を有する。スタックＡＥ手法は、線形回帰、多項式回帰、ＧＰ－ＶＡＥ、ＨＩ－ＶＡＥ、およびＶＡＥ－ＡＣなどの他の手法と比較される。

結果
ＣＮＣデータセット
図８は、いくつかの実施形態による、欠損センサ番号の範囲にわたる、ＣＮＣ工具摩耗データセット上の時系列補完のＮＲＭＳＥを示す。図８から、最良性能の補完方法は多項式回帰であることが推測できる。さらに、ＨＩ－ＶＡＥ、ＧＰ－ＶＡＥ、およびＶＡＥ－ＡＣなどの潜在空間法は、線形回帰よりも性能が悪いことに注目されたい。これは、異なるデータセットにわたって良好に機能し得る単一の潜在空間を事前に選択することが困難であるため、そうである可能性が高い。スタックＡＥ手法は線形回帰よりも性能が優れていることにも注目されたい。このような結果は好ましく、なぜならば、スタックＡＥモデルはオフラインで学習されることができ、したがって、線形回帰よりもストレージの複雑さがはるかに低いことを表すからである。

図９は、いくつかの実施形態による、ＣＮＣ工具摩耗データセット上での工具摩耗検出ＡＵＣプロットを示す。図９から、最良のＡＵＣ性能はスタックＡＥ手法によって達成されることが観察され得る。これは、スタックＡＥ手法が、特に欠損センサが多数である場合に、摩耗検出に役立つデータの重要な特徴を学習する際に、より良好であることを示す。

２．モーションキャプチャデータベース
図１０は、いくつかの実施形態による、異なる欠損センサ組み合わせについての人間活動データセット上の時系列再構築のＮＲＭＳＥを示す。線形回帰は人間活動データセットに対して性能が良好であることが観察され得、これは、次いで、人間活動データセットが強い線形相関を示し、線形回帰によって補完を容易にする比較的低いランクであることを示唆する。潜在空間法は性能が良くないことも観察できる。従って、潜在空間法の事前分布選択は人間活動データセットに適合しない。

３．ＵＥＡ＆ＵＣＲリポジトリ
図１１は、いくつかの実施形態による、増加する欠損センサ数に対するＮＡＴＯＰＳデータセット上の時系列再構築のＮＲＭＳＥを示す。ＮＡＴＯＰＳデータセットは、Ｍｏｃａｐデータベースとラケットスポーツデータセットとの間の中間データセットと見なされ、なぜならば、ＮＡＴＯＰＳデータセットは、Ｍｏｃａｐデータよりもセンサを少なく含むが、ラケットスポーツデータセットよりもセンサを多く含むからである。したがって、比較的より大量の未観察の情報が存在し、これは、統計モデルのためにタスクをモデル化することがはるかにより困難であることを意味する。

図１１から、線形回帰は、ＮＡＴＯＰＳデータセット内に運動関係を線形に捕捉するのに充分なセンサがあることを示唆する最良の補完法であることに注目されたい。また、図１１から、スタックＡＥ手法は潜在空間法よりも性能が優れており、多項式回帰の性能に匹敵することに注目されたい。

図１２は、いくつかの実施形態による、増加する欠損センサ数についてＮＡＴＯＰＳデータセット上の分類予測精度を示す。図１２から、スタックＡＥおよび多項式回帰は、良好な分類性能をもたらすデータ要素を捕捉することに注目されたい。図１２から、スタックＡＥ手法はＧＰ－ＶＡＥよりも性能が優れていることに注目されたい。

図１３は、いくつかの実施形態による、異なる欠損センサ組み合わせについてのラケットスポーツデータセット上の時系列再構築のＮＲＭＳＥを示す。スタックＡＥがすべての他の方法よりも性能が優れていることは明らかである。

図１４は、いくつかの実施形態による、異なる欠損センサ組み合わせについてのラケットスポーツデータセット上の分類タスクの予測精度を示す。図１４から明らかなように、スタックＡＥ手法は、他のすべての方法よりも性能が優れており、それは、次いで、ラケットスポーツデータセット（非常に非線形のデータセットである）において、スタックＡＥ手法は、異なるセンサ間の複雑な関係を捕捉することができたことを示している。

図１５は、いくつかの実施形態による、スタックＡＥ手法と反復ＡＥとの間の比較のためにラケットスポーツデータセット上の時系列再構築のＮＲＭＳＥを示す。スタックＡＥ手法は、反復オートエンコーダベースの補完よりも性能が優れていることが観察され得る。

図１６は、ある実施形態による、異なる欠損センサの組み合わせについての指の動きのデータセット上の時系列再構築のＮＲＭＳＥを示す。

図１７は、いくつかの実施形態による、異なる欠損センサの組み合わせについての手の動きの方向データセット上の時系列再構築のＮＲＭＳＥを示す。

図１６および図１７は、スタックＡＥ手法が線形回帰および多項式回帰に等しい性能であることを示す。これは、スタックＡＥ手法が、他の方法と同じレベルの性能で、ストレージ複雑度の低減を与えることを意味する。このような結論は、６つすべてのデータセットにわたって現れる。加えて、補完品質が分類タスクに基づいて評価され得るデータセットについては、スタックＡＥ手法は常に最上位性能手法である。

上記の説明は、例示的な実施形態のみを提供するものであり、本開示の範囲、適用可能性、または構成を制限することを意図していない。むしろ、例示的な実施形態の上記の記載は、当業者に、１つ以上の例示的な実施形態を実現することに対する実施可能な記載を提供するであろう。企図されるのは、特許請求の範囲に記載されるように開示される主題の精神および範囲から逸脱することなく、要素の機能および構成において行われ得るさまざまな変更である。

実施形態の完全な理解を与えるために、具体的な詳細が上記の記載において与えられる。しかしながら、当業者によって理解されることは、実施形態がこれらの具体的な詳細なしで実施され得ることであり得る。例えば、開示された主題におけるシステム、プロセス、および他の要素は、不必要な詳細で実施形態を不明瞭にしないために、ブロック図形式でコンポーネントとして示され得る。他の例では、周知のプロセス、構造、および技法は、実施形態を不明瞭にすることを回避するために、不必要な詳細なしで示され得る。さらに、さまざまな図面における同様の参照番号および名称は、同様の要素を示した。

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明され得る。フローチャートは、動作を順次プロセスとして説明し得るが、動作の多くは、並列にまたは同時に実行することができる。加えて、動作の順序を入れ替えてもよい。プロセスは、その動作が完了したときに終了され得るが、論じられていない、または図に含まれていない追加のステップを有し得る。さらに、任意の特に説明されるプロセスにおけるすべての動作が、すべての実施形態において起こり得るわけではない。プロセスは、方法、関数、プロシージャ、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、関数の終了は、呼び出し関数またはメイン関数への関数の復帰に対応することができる。

さらに、開示される主題の実施形態は、少なくとも部分的に、手動または自動のいずれかで実現され得る。手動または自動実現例は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組合せの使用を通じて実行され得るか、または少なくとも支援され得る。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現される場合、必要なタスクを実行するプログラムコードまたはコードセグメントは、機械可読媒体に記憶され得る。プロセッサが必要なタスクを実行してもよい。

本明細書で概説されるさまざまな方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのいずれか１つを用いる１つまたは複数のプロセッサ上で実行可能なソフトウェアとしてコード化され得る。さらに、そのようなソフトウェアは、いくつかの好適なプログラミング言語および／またはプログラミングツールもしくはスクリプトツールのいずれかを用いて書かれてもよく、フレームワークもしくは仮想マシン上で実行される実行可能な機械語コードまたは中間コードとしてコンパイルされてもよい。典型的には、プログラムモジュールの機能は、さまざまな実施形態において所望に応じて組み合わせるか、または分散させることができる。

本開示の実施形態は、一例が提供された方法として具現化され得る。方法の一部として実行される行為は、任意の好適な方法で順序付けられてもよい。したがって、例示的な実施形態では順次動作として示されているが、いくつかの動作を同時に実行することを含み得る、示されたものとは異なる順序で動作が実行される実施形態が構築され得る。本開示は特定の好ましい実施形態を参照して説明されたが、本開示の精神および範囲内でさまざまな他の適合および変更を行うことができることを理解されたい。したがって、本開示の真の精神および範囲内に入るそのようなすべての変形および修正を包含することは、特許請求の範囲の態様である。

Claims

入力を潜在空間に符号化するためのエンコーダと前記潜在空間から前記符号化を復号するためのデコーダとを含むオートエンコーダアーキテクチャを伴うニューラルネットワークをトレーニングする、コンピュータにより実現される方法であって、
複数の次元の有効なデータセットを含む第１のトレーニングセットを作成することを含み、前記有効なデータセットの各有効なインスタンスは、それらの対応する次元の有効な値の範囲内の値を有する複数の有効なデータポイントを含み、前記方法はさらに、
第１のトレーニング段階において前記第１のトレーニングセットを用いて前記ニューラルネットワークの前記エンコーダおよび前記デコーダをトレーニングして、前記エンコーダに提供される前記有効なデータセットと前記デコーダによって復号されるデータセットとの間の差を低減することと、
前記有効なインスタンスの少なくともいくつかの有効なデータポイントを、それらの対応する次元の有効な値の前記範囲外の値を有する無効なデータポイントで置き換えることによって形成される無効なデータセットを含む第２のトレーニングセットを作成することと、
第２のトレーニング段階で前記第２のトレーニングセットを用いて前記ニューラルネットワークの前記エンコーダをトレーニングして、前記有効なデータインスタンスの符号化とそれらの対応する無効なデータインスタンスの符号化との間の差を低減することとを含む、方法。
前記第１のトレーニング段階において、前記エンコーダに提供される前記有効なデータセットと前記デコーダによって復号される前記データセットとの間の前記差は、再構成損失関数を用いて低減される、請求項１に記載のコンピュータにより実現される方法。
前記第２のトレーニング段階において、前記有効なデータインスタンスの前記符号化とそれらの対応する無効なデータインスタンスの前記符号化との間の前記差は、符号化損失関数を用いて低減される、請求項１に記載のコンピュータにより実現される方法。
前記有効なデータポイントの値が常に正であるようにスケーリングされるとき、前記無効なデータポイントの値は０である、請求項１に記載のコンピュータにより実現される方法。
前記第２のトレーニング段階は、前記第１のトレーニング段階中にトレーニングされた前記デコーダを維持しながら、前記エンコーダのみを更新する、請求項１に記載のコンピュータにより実現される方法。
請求項１に記載の前記コンピュータにより実現される方法に従ってトレーニングされる前記ニューラルネットワークを用いて、センサのセット内の少なくとも１つのセンサからの測定値が欠測値である、測定値の不完全なセットから、前記センサのセットの測定値の完全なセットを生成するための方法であって、
前記測定値の不完全なセットにおける前記欠測値を、前記欠測値の有効な値の範囲外の無効な値で置き換えて、前記測定値の不完全なセットを完成させることと、
前記完成した測定値のセットを前記ニューラルネットワークで処理して、前記測定値の完全なセットを前記欠測値の回復された値とともに生成することと、
前記測定値の完全なセットを出力することとを含む、方法。
前記欠測値は０に置き換えられる、請求項６に記載の方法。
前記ニューラルネットワークは、欠測値が無効な値によって置き換えられた前記測定値の完全なセットを潜在空間に符号化するように構成されたエンコーダと、前記潜在空間から、前記欠測値の回復された値を有する前記測定値の完全なセットを復号するように構成されたデコーダとを含む、請求項６に記載の方法。
入力を潜在空間に符号化するためのエンコーダと前記潜在空間から前記符号化を復号するためのデコーダとを含むオートエンコーダアーキテクチャを伴うニューラルネットワークをトレーニングするためのシステムであって、少なくとも１つのプロセッサと、命令を格納したメモリとを備え、前記命令は前記少なくとも１つのプロセッサによって実行されると前記システムに、
複数の次元の有効なデータセットを含む第１のトレーニングセットを作成させ、前記有効なデータセットの各有効なインスタンスは、それらの対応する次元の有効な値の範囲内の値を有する複数の有効なデータポイントを含み、さらに、前記命令は前記少なくとも１つのプロセッサによって実行されると前記システムに、
第１のトレーニング段階において前記第１のトレーニングセットを用いて前記ニューラルネットワークの前記エンコーダおよび前記デコーダをトレーニングさせて、前記エンコーダに提供される前記有効なデータセットと前記デコーダによって復号されるデータセットとの間の差を低減し、
前記有効なインスタンスの少なくともいくつかの有効なデータポイントを、それらの対応する次元の有効な値の前記範囲外の値を有する無効なデータポイントで置き換えることによって形成される無効なデータセットを含む第２のトレーニングセットを作成させ、
第２のトレーニング段階で前記第２のトレーニングセットを用いて前記ニューラルネットワークの前記エンコーダをトレーニングさせて、前記有効なデータインスタンスの符号化とそれらの対応する無効なデータインスタンスの符号化との間の差を低減する、システム。
前記無効なデータポイントの値は０である、請求項９に記載のシステム。
センサのセットの中の少なくとも１つのセンサからの測定値が欠測値である、測定値の不完全なセットから、前記センサのセットの測定値の完全なセットを生成するためのデータ回復システムであって、少なくとも１つのプロセッサと、命令を格納したメモリとを備え、前記命令は前記少なくとも１つのプロセッサによって実行されると前記データ回復システムに、
前記測定値の不完全なセットにおける前記欠測値を、前記欠測値の有効な値の範囲外の無効な値で置き換えさせて、前記測定値の不完全なセットを完成させ、
オートエンコーダを用いて前記完成した測定値のセットを処理させて、前記測定値の完全なセットを前記欠測値の回復された値とともに生成し、前記オートエンコーダは、多段階トレーニング手順に基づいて学習されるニューラルネットワークであり、さらに、前記命令は前記少なくとも１つのプロセッサによって実行されると前記データ回復システムに、
前記測定値の完全なセットを前記欠測値の前記回復された値とともに出力させる、データ回復システム。
前記オートエンコーダは、欠測値が無効な値によって置き換えられた前記測定値の完全なセットを潜在空間に符号化するように構成されたエンコーダと、前記潜在空間から、前記欠測値の回復された値を有する前記測定値の完全なセットを復号するように構成されたデコーダとを含む、請求項１１に記載のデータ回復システム。
前記多段階トレーニング手順は第１のトレーニング段階を含み、
前記第１のトレーニング段階は、
複数の次元の有効なデータセットを含む第１のトレーニングセットを作成することを含み、前記有効なデータセットの各有効なインスタンスは、それらの対応する次元の有効な値の範囲内の値を有する複数の有効なデータポイントを含み、前記第１のトレーニング段階はさらに、
前記第１のトレーニングセットを用いて前記オートエンコーダの前記エンコーダおよび前記デコーダをトレーニングして、前記エンコーダに提供される前記有効なデータセットと前記デコーダによって復号されるデータセットとの間の差を低減することを含む、請求項１２に記載のデータ回復システム。
前記多段階トレーニング手順は第２のトレーニング段階を含み、
前記第２のトレーニング段階は、
前記有効なインスタンスの少なくともいくつかの有効なデータポイントを、それらの対応する次元の有効な値の前記範囲外の値を有する無効なデータポイントで置き換えることによって形成される無効なデータセットを含む第２のトレーニングセットを作成することと、
前記第２のトレーニングセットを用いて前記ニューラルネットワークの前記エンコーダをトレーニングして、前記有効なデータインスタンスの符号化とそれらの対応する無効なデータインスタンスの符号化との間の差を低減することとを含む、請求項１３に記載のデータ回復システム。