JP2022140294A - 欠損データを回復するためにオートエンコーダアーキテクチャを有するニューラルネットワークをトレーニングするためのシステムおよび方法 - Google Patents
欠損データを回復するためにオートエンコーダアーキテクチャを有するニューラルネットワークをトレーニングするためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2022140294A JP2022140294A JP2022010234A JP2022010234A JP2022140294A JP 2022140294 A JP2022140294 A JP 2022140294A JP 2022010234 A JP2022010234 A JP 2022010234A JP 2022010234 A JP2022010234 A JP 2022010234A JP 2022140294 A JP2022140294 A JP 2022140294A
- Authority
- JP
- Japan
- Prior art keywords
- training
- valid
- data
- values
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 163
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000013528 artificial neural network Methods 0.000 title claims description 27
- 238000005259 measurement Methods 0.000 claims description 104
- 238000011084 recovery Methods 0.000 claims description 40
- 230000015654 memory Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 24
- 238000004891 communication Methods 0.000 description 15
- 238000012544 monitoring process Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 238000013459 approach Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 10
- 230000033001 locomotion Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 8
- 238000012417 linear regression Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000003801 milling Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000005057 finger movement Effects 0.000 description 3
- 230000009897 systematic effect Effects 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000009423 ventilation Methods 0.000 description 2
- 235000009854 Cucurbita moschata Nutrition 0.000 description 1
- 240000001980 Cucurbita pepo Species 0.000 description 1
- 235000009852 Cucurbita pepo Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 210000003792 cranial nerve Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000001513 elbow Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008035 nerve activity Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 235000020354 squash Nutrition 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y40/00—IoT characterised by the purpose of the information processing
- G16Y40/10—Detection; Monitoring
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y40/00—IoT characterised by the purpose of the information processing
- G16Y40/30—Control
- G16Y40/35—Management of things, i.e. controlling in accordance with a policy or in order to achieve specified objectives
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Arrangements For Transmission Of Measured Signals (AREA)
Abstract
【課題】欠損データを回復するようにオートエンコーダをトレーニングする、コンピュータにより実現される方法が提供される。【解決手段】オートエンコーダは、その入力を潜在空間に符号化するためのエンコーダと、潜在空間から符号化を復号するためのデコーダとを含む。本方法は、複数の次元の有効なデータセットを含む第1のトレーニングセットを作成することと、第1のトレーニング段階において第1のトレーニングセットを用いてエンコーダおよびデコーダをトレーニングして、エンコーダに提供される有効なデータセットとデコーダによって復号されるデータセットとの間の差を低減することとを含む。本方法は、さらに、無効なデータセットを含む第2のトレーニングセットを作成することと、第2のトレーニング段階で第2のトレーニングセットを用いてエンコーダをトレーニングして、有効なデータインスタンスの符号化とそれらの対応する無効なデータインスタンスの符号化との間の差を低減することとを含む。【選択図】図1A
Description
本開示は、概してデータの補完に関し、より詳細には、欠損データを回復するためにオートエンコーダアーキテクチャを有するニューラルネットワークをトレーニングするためのシステムおよび方法に関する。
情報通信技術(ICT)の急速な進歩により、遠隔監視、データ収集、およびデバイス制御に用いられる多数のセンサが展開されている。これらの開発は、監視制御およびデータ取得(SCADA)システム、発電所、およびモノのインターネット(IoT)などの産業システムのサイズを増大させた。しかしながら、より多数のセンサは、センサデータ収集の信頼性に肯定的な影響を与えていない。たとえば、IoT展開は、しばしば、故障および/またはアクセス不能になり得る消費者グレードのICT構成要素(センサなど)を用いる。また、SCADA展開およびIoT展開の両方は、展開のグレードまたはレベルに関連する顧客選択によって影響を受ける。さらに、センサの展開は、スケジュールされた期間にわたってセンサのグループをアクセス不可にし得る定期的な保守などのタスクによって影響を受ける。そのような要素は、センサのアクセス不可またはセンサデータ/読出の系統的欠損につながり得る。アクセス不可または欠損センサデータは、性能を監視および最適化し、異常を検出することが目的である、分析公式、AIアルゴリズム、およびルールベースの監視アルゴリズムにおいて用いられることを意図される場合、問題を引き起こす。したがって、センサデータの欠損は、SCADAおよびIoT展開を自動的に監視および動作させる能力に深刻な影響を及ぼし、動作の破滅的障害をもたらし得る。
加えて、センサデータの欠損は、発電および浄水、鉄道車両等の高度にカスタマイズ可能な製品、ならびに暖房、換気、および空調(HVAC)システム等の重要産業における機械学習(AI)アルゴリズムの採用を妨げる。例えば、AIアルゴリズムは、ほとんどの場合、センサから取得される入力の固定セットに依存する。しかしながら、センサのアクセス不可またはセンサデータ/読出の系統的な欠損に起因して、AIアルゴリズムに対して、入力の固定セットを保証することができない。
したがって、様々な産業システムに適した方法で、センサのアクセス不可の問題またはセンサデータの系統的な欠損を解決する必要がある。
いくつかの実施形態の目的は、アクセス不可能な(または恒久的に欠損している)センサからデータを回復するためにオートエンコーダアーキテクチャを有するニューラルネットワークをトレーニングするためのシステムおよび方法を提供することである。また、いくつかの実施形態の目的は、オートエンコーダをトレーニングするための自己教師あり手法を提供することである。追加または代替として、いくつかの実施形態の目的は、トレーニングされたオートエンコーダを用いて欠損データを回復し、回復されたデータを用いて最適化または異常検出を介して動作を改善することである。
いくつかの実施形態の目的は、観察されたデータ(すなわち、アクセス可能なセンサから取得されたデータ)から欠損センサデータを回復することである。いくつかの実施形態は、欠損データ回復における困難の原因がデータ感知の相互依存性の欠如であるという認識に基づく。例えば、入力データは、2つのセンサの測定値を含み、1つのセンサは車両の速度を測定し、別のセンサは周囲温度を測定する。周囲温度を測定するセンサが測定値の提供を停止する場合、速度の測定値から周囲温度を回復することは困難であり得る。さらに、後続のアプリケーションが両方のセンサの測定値に依存する場合、センサのうちの1つからの測定値の欠如は、後続のアプリケーションの動作を全体的に中断し得る。
さらに、実際のシナリオでは、少なくともなんらかの未知の関係を有するデータを測定する異なるセンサがある。そのような関係の例は、発電所動作を測定するセンサにおいて観察することができる。いくつかの実施形態は、未知の関係を判断することは困難であり、なぜならば、センサの元のデータ空間における測定値にはノイズがあり、未知の関係は複雑な非線形変換を含むからである、という認識に基づく。例えば、発電所の場合、発電所における熱力学的関係は複雑であり、解明するために広範な領域知識を必要とする。そのような複雑な相互依存性は、元のデータ空間における欠損データの回復を困難にする。
いくつかの実施形態は、センサの測定値の効率的な符号化が測定値間の関係を見つける場合があり、なぜならば、符号化方法を用いて、元のデータ空間における重要な関係を要約する、データの低減された次数埋め込みが見つけられるからである、という認識に基づく。加えて、いくつかの実施形態は、効率的な符号化の空間における欠損データの回復はより容易であり、なぜならば、埋め込み自体を、欠損データと観察データとの間の関係を記述するラベルとして用いることができるからである、という認識に基づく。そのような効率的な符号化が判断され得るにもかかわらず、様々な感知および/またはIoT適用例における測定データの任意の組合せのために効率的な符号化を判断することは困難である。
いくつかの実施形態は、オートエンコーダがそのような効率的な符号化を教師なしに判断することができるという認識に基づく。オートエンコーダは、教師なしで効率的なデータコーディングを学習するために用いられる人工ニューラルネットワークの一種である。オートエンコーダは、エンコーダおよびデコーダを含む。エンコーダは、元のデータ空間からの入力データを、数値のベクトルによって表される潜在空間「h」に符号化する。換言すれば、エンコーダは、元のデータ空間における入力データと入力データの潜在空間表現との間のマッピングを提供する。デコーダは、潜在空間から入力データの符号化を入力データの推定値に復号する、すなわち、入力データを再構築する。ある実施形態では、入力データは多次元時系列データであってもよい。そのために、オートエンコーダは、入力データの異なる次元の関係を捕捉し得る符号化データおよび復号データのための効率的な潜在空間を判断する。
いくつかの実施形態は、オートエンコーダが完全なデータセット(すなわち、すべてのセンサの測定値)上でトレーニングされる場合、エンコーダおよびデコーダの両方が、オートエンコーダの出力が入力データとほぼ等しくなるように、最適化される、という観察に基づく。言い換えれば、デコーダは、入力データを復号することを学習し、ある程度、時系列ダイナミクスを捕捉する。いくつかの実施形態は、入力データからの欠損センサデータは、エンコーダによって提供されるマッピングにノイズを導入し、導入されたノイズは、再構築されたデータにさらに現れる、というさらなる観察に基づく。したがって、欠損センサデータの影響は、エンコーダにおいてほとんど現れる。
いくつかの実施形態は、欠損センサデータに直面したエンコーダのマッピングを改善するために、オートエンコーダを多段階でトレーニングすることができる、という認識に基づく。オートエンコーダは、第1のトレーニング段階および第2のトレーニング段階の2段階でトレーニングされる。
まず、第1のトレーニングセットが作成される。第1のトレーニングセットは、複数の次元の有効なデータセットを含む。いくつかの実施形態では、有効なデータセットは、ラベル付けされていないデータセットである。ある時点において、有効なデータセットは、それらの対応する次元の有効な値の範囲内の値を有する複数の有効なデータポイントを含む。例えば、所与の産業システムは、「n」個のセンサを含む。ある時点における各センサの測定値は、有効なデータポイントに対応する。各センサの測定値(すなわち、有効なデータポイント値)は、それぞれのセンサの有効な値の範囲内にある。例えば、有効な値の範囲は0.1~1であり得る。「n」個のセンサの測定値が得られる時点は、有効なインスタンスと呼ばれる。第1のトレーニングデータセットは、すべてのセンサの測定値を含むので、第1のトレーニングデータセットは、完全なデータセットまたは測定値の完全なセットと呼ばれてもよい。さらに、オートエンコーダは、第1のトレーニング段階で第1のトレーニングデータセットを用いてトレーニングされる。
有効なデータセットは、エンコーダへの入力データとして適用される。エンコーダは、有効なデータセットの潜在空間表現を生成するように構成される。潜在空間表現は、有効なデータセットの下位次元表現である。特に、エンコーダは、エンコーダの入力においてラベル付けされていないデータセットとして受信される有効なデータセットのためのラベルを生成する。
実施形態によれば、エンコーダはディープニューラルネットワークである。さらに、デコーダは、有効なデータセットの潜在空間表現から有効なデータセットを再構築するように構成される。そのために、デコーダは、再構築された有効なデータセットを出力する。オートエンコーダは、再構築された有効なデータセットと有効なデータセットとの間の差を最小化する再構築損失関数を用いてトレーニングされる。さらに、第2のトレーニング段階のために第2のトレーニングデータセットが作成される。
第2のトレーニングセットは、無効なデータセットを含む。例えば、所与の産業システムは、9つのセンサを含み得る。ある時点において、各センサは、それぞれのセンサの有効な値の範囲内の値を有する有効なデータポイント(または測定値)を出力する。そのような場合、有効なデータセットは、有効な値の範囲内の値を有する9つの有効なデータポイント(x0,x1,....,x9)を含み得る。有効なデータセットの1つまたは複数の有効なデータポイント、たとえば有効なデータポイントx0およびx1は、無効なデータポイントで置き換えられる。無効なデータポイントの値は、有効な値の範囲外にある。例えば、有効な値の範囲が0.1~1である場合、無効なデータポイントの値は、有効な値の範囲外にある0であり得る。したがって、有効なデータポイントx0およびx1は0に置き換えられる。その結果、無効なデータセットが生成される。したがって、無効なデータセットは、有効なデータポイント(x2,x3,x4,x5,x6,x7,x8,x9)と、有効な値の範囲外の値(たとえば、0)を有する無効なデータポイントx0およびx1とを含む。無効なデータセットは、すべてのセンサの測定値(すなわち、有効なデータポイント)を含まないので、無効なデータセットは、不完全なデータセットまたは測定値の不完全なセットとして企図され得る。さらに、オートエンコーダは、第2のトレーニング段階で、第2のトレーニングデータセットを用いてトレーニングされる。
第2のトレーニング段階において、第1のトレーニング段階でエンコーダによって提供される潜在空間表現を用いて、欠損センサデータに直面して有効なデータセットの潜在空間表現にマッピングする新たなエンコーダを学習する。無効なデータセットは、エンコーダへの入力データとして適用される。エンコーダは、無効なデータセットの潜在空間表現を出力するように構成される。エンコーダは、無効なデータセットの潜在空間表現と有効なデータセットの潜在空間表現との間の差を最小化する符号化損失関数を用いてトレーニングされる。その結果、再トレーニングされたエンコーダが学習される。いくつかの実施形態は、エンコーダは異なる無効なデータセットに対してトレーニングされ得るという認識に基づく。例えば、エンコーダが無効なデータセットに対して再トレーニングされた後、再トレーニングされたエンコーダは、別の無効なデータセットに対して再びトレーニングされる。エンコーダのそのようなトレーニングの結果として、エンコーダは、利用可能な入力値の異なるサブセットに各々が適用可能なモデルのモデルになる。
第2のトレーニング段階の終わりに、新たなエンコーダが学習される。新たなエンコーダは、欠損センサデータに直面しても元の潜在空間表現(すなわち、有効なデータセットの潜在空間表現)にマッピングする。言い換えれば、新たなエンコーダは、欠損センサデータに直面して有効なデータセットの潜在空間表現をどのようにマッピングするかを学習する。
そのために、ある実施形態では、新たなエンコーダは、無効なデータセットが新たなエンコーダに適用されると、新たなエンコーダは、対応する有効なデータセットの潜在空間表現を生成するように、学習される。第2のトレーニング段階では、エンコーダのみが新たなエンコーダを学習するようにトレーニングされ、デコーダは同じままである。
実施形態によれば、多段階トレーニング手順は、自己教師あり手法の形態であり、第1のトレーニング段階は、完全なデータセットを用いて潜在空間表現を学習することを含み、第2のトレーニング段階は、異なるセンサからの欠損データの下で同じ潜在空間表現にどのようにマッピングするかを学習することを含む。さらに、多段階トレーニング手順では、潜在空間表現はラベルとして解釈され、単一の予測モデル(エンコーダ)のみが欠損センサデータに対して最適化される。それにより、多段階トレーニング手順を実行することによって、教師なし手法は、オートエンコーダを欠損センサデータに対してロバストにする教師あり手法に変換される。
したがって、一実施形態は、その入力を潜在空間に符号化するためのエンコーダと潜在空間から符号化を復号するためのデコーダとを含むオートエンコーダアーキテクチャを伴うニューラルネットワークをトレーニングする、コンピュータにより実現される方法を開示する。この方法は、複数の次元の有効なデータセットを含む第1のトレーニングセットを作成することを含み、上記有効なデータセットの各有効なインスタンスは、それらの対応する次元の有効な値の範囲内の値を有する複数の有効なデータポイントを含み、上記方法はさらに、第1のトレーニング段階において上記第1のトレーニングセットを用いて上記ニューラルネットワークの上記エンコーダおよび上記デコーダをトレーニングして、上記エンコーダに提供される上記有効なデータセットと上記デコーダによって復号されるデータセットとの間の差を低減することと、上記有効なインスタンスの少なくともいくつかの有効なデータポイントを、それらの対応する次元の有効な値の上記範囲外の値を有する無効なデータポイントで置き換えることによって形成される無効なデータセットを含む第2のトレーニングセットを作成することと、第2のトレーニング段階で上記第2のトレーニングセットを用いて上記ニューラルネットワークの上記エンコーダをトレーニングして、上記有効なデータインスタンスの符号化とそれらの対応する無効なデータインスタンスの符号化との間の差を低減することとを含む。
したがって、別の実施形態は、その入力を潜在空間に符号化するためのエンコーダと上記潜在空間から上記符号化を復号するためのデコーダとを含むオートエンコーダアーキテクチャを伴うニューラルネットワークをトレーニングするためのシステムを開示する。システムは、少なくとも1つのプロセッサと、命令を格納したメモリとを備え、上記命令は上記少なくとも1つのプロセッサによって実行されると上記システムに、複数の次元の有効なデータセットを含む第1のトレーニングセットを作成させ、上記有効なデータセットの各有効なインスタンスは、それらの対応する次元の有効な値の範囲内の値を有する複数の有効なデータポイントを含み、さらに、上記命令は上記少なくとも1つのプロセッサによって実行されると上記システムに、第1のトレーニング段階において上記第1のトレーニングセットを用いて上記ニューラルネットワークの上記エンコーダおよび上記デコーダをトレーニングさせて、上記エンコーダに提供される上記有効なデータセットと上記デコーダによって復号されるデータセットとの間の差を低減し、上記有効なインスタンスの少なくともいくつかの有効なデータポイントを、それらの対応する次元の有効な値の上記範囲外の値を有する無効なデータポイントで置き換えることによって形成される無効なデータセットを含む第2のトレーニングセットを作成させ、第2のトレーニング段階で上記第2のトレーニングセットを用いて上記ニューラルネットワークの上記エンコーダをトレーニングさせて、上記有効なデータインスタンスの符号化とそれらの対応する無効なデータインスタンスの符号化との間の差を低減する。
したがって、別の実施形態は、センサのセットの中の少なくとも1つのセンサからの測定値が欠測値である、測定値の不完全なセットから、上記センサのセットの測定値の完全なセットを生成するためのデータ回復システムを開示する。データ回復システムは、少なくとも1つのプロセッサと、命令を格納したメモリとを備え、上記命令は上記少なくとも1つのプロセッサによって実行されると上記データ回復システムに、上記測定値の不完全なセットにおける上記欠測値を、上記欠測値の有効な値の範囲外の無効な値で置き換えて、上記測定値の不完全なセットを完成させ、オートエンコーダを用いて上記測定値の完成したセットを処理させて、上記測定値の完全なセットを上記欠測値の回復された値とともに生成し、上記オートエンコーダは、多段階トレーニング手順に基づいて学習されるニューラルネットワークであり、さらに、上記命令は上記少なくとも1つのプロセッサによって実行されると上記データ回復システムに、上記測定値の完全なセットを上記欠測値の上記回復された値とともに出力させる。
詳細な説明
以下の説明では、説明の目的のために、本開示の完全な理解を提供するために、多数の具体的な詳細が記載される。しかしながら、本開示は、これらの具体的な詳細がなくても実施され得ることが当業者には明白であろう。他の事例では、装置および方法が、本開示を不明瞭にすることを避けるためにブロック図の形式でのみ示される。
以下の説明では、説明の目的のために、本開示の完全な理解を提供するために、多数の具体的な詳細が記載される。しかしながら、本開示は、これらの具体的な詳細がなくても実施され得ることが当業者には明白であろう。他の事例では、装置および方法が、本開示を不明瞭にすることを避けるためにブロック図の形式でのみ示される。
本明細書および特許請求の範囲で用いられる場合、「例えば」、「例として」、「等」、ならびに動詞「備える」、「有する」、「含む」と言う文言、およびそれらの他の動詞形は、1つもしくは複数の構成要素または他の項目のリストとともに用いられる場合、各々オープンエンドと解釈されるべきであり、リストは、他の追加の構成要素または項目を排除するものと見なすべきではないことを意味する。「~に基づく」と言う文言は、少なくとも部分的に基づくことを意味する。さらに、本明細書で用いられる表現および用語は、説明の目的のためのものであり、限定と見なされるべきではないことを理解されたい。本記載内で利用されるいずれの見出しも、便宜のためだけのものであり、法的または限定的な効果を有さない。
センサは、監視制御およびデータ取得(SCADA)システム、暖房、換気、および空調(HVAC)システム、発電所、ならびにモノのインターネット(IoT)などの産業システムに設置される。それらのセンサのうちの1つまたは複数のセンサは、アクセス不能になる場合がある。1つまたは複数のセンサのアクセス不可は、保守、顧客選択、および1つまたは複数のセンサの予期しない故障のために、大型モジュール式システムの部分をシャットダウンすることに起因し得る。1つまたは複数のセンサがアクセス不可であるため、1つまたは複数のセンサからのデータ(または測定値)が得られないことがある。
いくつかの実施形態の目的は、観察されたデータ(すなわち、アクセス可能なセンサから取得されたデータ)から欠損データ(すなわち、アクセス不可能なセンサ(欠損センサとも呼ばれる)に関連付けられるデータ)を回復することである。いくつかの実施形態は、欠損データの回復における困難の原因はデータ感知の相互依存性の欠如である、という認識に基づく。例えば、入力データは、2つのセンサの測定値を含み、1つのセンサは車両の速度を測定し、別のセンサは周囲温度を測定する。周囲温度を測定するセンサが測定値の提供を停止する場合、速度の測定値から周囲温度を回復することは困難であり得る。さらに、後続のアプリケーションが両方のセンサの測定値に依存する場合、一方のセンサ測定値の欠如は、後続のアプリケーションの動作を全体的に中断し得る。
さらに、実際のシナリオでは、少なくともなんらかの未知の関係を有するデータを測定する異なるセンサがある。そのような関係の例は、発電所動作を測定するセンサにおいて観察することができる。いくつかの実施形態は、未知の関係を判断することは困難であり、なぜならば、センサの元のデータ空間における測定値にはノイズがあり、未知の関係は複雑な非線形変換を含むからである、という認識に基づく。例えば、発電所の場合、発電所における熱力学的関係は複雑であり、解明するために広範な領域知識を必要とする。そのような複雑な相互依存性は、元のデータ空間における欠損データの回復を困難にする。
いくつかの実施形態は、センサの測定値の効率的な符号化が測定値間の関係を見つける場合があり、なぜならば、符号化方法を用いて、元のデータ空間における重要な関係を要約する、データの低減された次数埋め込みが見つけられるからである、という認識に基づく。加えて、いくつかの実施形態は、効率的な符号化の空間における欠損データの回復はより容易であり、なぜならば、埋め込み自体を、欠損データと観察データとの間の関係を記述するラベルとして用いることができるからである、という認識に基づく。そのような効率的な符号化が判断され得るにもかかわらず、様々な感知および/またはIoT適用例における測定データの任意の組合せのための効率的な符号化を判断することは困難である。
いくつかの実施形態は、オートエンコーダがそのような効率的な符号化を教師なしに判断することができるという認識に基づく。オートエンコーダは、教師なしで効率的なデータコーディングを学習するために用いられる人工ニューラルネットワークの一種である。図1Aは、いくつかの実施形態による、例示的なオートエンコーダ100の概略図を示す。オートエンコーダ100は、エンコーダ102およびデコーダ106を含む。エンコーダ102は、元のデータ空間からの入力データを潜在空間「h」104に符号化する。言い換えれば、エンコーダ102は、元のデータ空間における入力データと入力データの潜在空間表現との間のマッピングを提供する。デコーダ106は、潜在空間からの符号化を入力データの推定値に復号する、すなわち、入力データを再構築する。ある実施形態では、入力データは多次元時系列データであってもよい。そのために、オートエンコーダ100は、入力データの異なる次元の関係を捕捉し得る符号化データおよび復号データのための効率的な潜在空間を判断する。
いくつかの実施形態は、オートエンコーダ100が完全なデータセット(すなわち、すべてのセンサの測定値)上でトレーニングされると、エンコーダ102およびデコーダ106の両方が、オートエンコーダ100の出力が入力データとほぼ等しくなるように、最適化される、という観察に基づく。言い換えれば、デコーダ106は、入力データを再生するように学習し、ある程度、時系列ダイナミクスを捕捉する。いくつかの実施形態は、入力データからの欠損センサデータは、エンコーダ102によって提供されるマッピングにノイズを導入し、導入されたノイズは、再構築されたデータにさらに現れる、というさらなる観察に基づく。したがって、欠損データの影響は、エンコーダ102においてほとんど現れる。
いくつかの実施形態は、欠損センサデータに直面したエンコーダ102のマッピングを改善するために、オートエンコーダ100を多段階でトレーニングすることができる、という認識に基づく。
図1B~図1Dは、いくつかの実施形態によるオートエンコーダ100の多段階トレーニングの図をまとめて示す。オートエンコーダ100は、第1のトレーニング段階と第2のトレーニング段階との2段階でトレーニングされる。
まず、第1のトレーニングセットを作成する。第1のトレーニングセットは、複数の次元の有効なデータセットを含む。ある時点において、有効なデータセットは、それらの対応する次元の有効な値の範囲内の値を有する複数の有効なデータポイントを含む。例えば、所与の産業システムは、「n」個のセンサを含む。ある時点における各センサの測定値は、有効なデータポイントに対応する。各センサの測定値(すなわち、有効なデータポイント値)は、それぞれのセンサの有効な値の範囲内にある。ある実施形態では、有効な値の範囲は0.1~1であり得る。「n」個のセンサの測定値が得られる時点は、有効なインスタンスと呼ばれる。さらに、有効なデータセットは、ラベル付けされていないデータである。第1のトレーニングデータセットは、すべてのセンサの測定値を含むので、第1のトレーニングデータセットは、完全なデータセットまたは測定値の完全なセットと呼ばれてもよい。さらに、オートエンコーダ100は、第1のトレーニング段階で第1のトレーニングデータセットを用いてトレーニングされる。
図1Bは、いくつかの実施形態による、オートエンコーダ100のトレーニングの第1のトレーニング段階の概略図を示す。有効なデータセット108(すなわち、ラベル付けされていないデータセット)は、エンコーダ102への入力データとして適用される。エンコーダ102は、有効なデータセット108の潜在空間表現を生成するように構成される。潜在空間表現104bは、有効なデータセット108の下位次元表現である。より具体的には、有効なデータセット108の潜在空間表現は、ラベル付けされたデータセットに対応する。ある実施形態によれば、エンコーダ102はディープニューラルネットワークである。さらに、デコーダ106は、有効なデータセット108の潜在空間表現から有効なデータセット108を再構築するように構成される。そのために、デコーダ106は、再構築された有効なデータセット110を出力する。オートエンコーダ100は、再構築された有効なデータセット110と有効なデータセット108との間の差112bを最小化する再構築損失関数を用いてトレーニングされる。さらに、第2のトレーニング段階のために第2のトレーニングデータセットが作成される。
図1Cは、いくつかの実施形態による、第2のトレーニングデータセットを作成するための概略図を示す。例えば、所与の産業システムは、9つのセンサを含み得る。ある時点において、各センサは、それぞれのセンサの有効な値の範囲内の値を有する有効なデータポイント(または測定値)を生成する。そのような場合、有効なデータセット108は、ある時点において、有効な値の範囲内の値を有する9つの有効なデータポイント(x0,x1,....,x9)を含んでもよい。有効なデータセット108の1つまたは複数の有効なデータポイント、たとえば有効なデータポイント114aおよび114bは、無効なデータポイントで置き換えられる。無効なデータポイントの値は、有効な値の範囲外にある。例えば、有効な値の範囲が0.1~1である場合、無効なデータポイントの値は、有効な値の範囲外にある零(「0」)であり得る。したがって、有効なデータポイント114aおよび114bは0に置き換えられる。その結果、無効なデータセット116が生成される。したがって、無効なデータセット116は、有効なデータポイント(x0,x1,x2,x3,x4,x7,x8,x9)と、有効な値の範囲外の値(たとえば、0)を有する無効なデータポイント116aおよび116bとを含む。第2のトレーニングデータセットは、無効なデータセット116を含む。
ある実施形態によると、零値の無効なデータポイント116aおよび116bは、9つのセンサのうちの第5のセンサおよび第6のセンサの測定値が欠損していることを示す。無効なデータセット116は、すべてのセンサの測定値(すなわち、有効なデータポイント)を含まないので、無効なデータセット116は、不完全なデータセットまたは測定値の不完全なセットとして企図され得る。いくつかの実施形態は、エンコーダ102を無効なデータセット116で再トレーニングすることは、エンコーダ102が、無効なデータセット116を正しい潜在空間表現をマッピングするための新たなマッピングを学習することを可能にする、という認識に基づく。そのために、第2のトレーニング段階において、オートエンコーダ100は、第2のトレーニングデータセットを用いてトレーニングされる。
図1Dは、いくつかの実施形態による、オートエンコーダ100をトレーニングする第2のトレーニング段階の概略図を示す。第2のトレーニング段階において、第1のトレーニング段階でエンコーダ102によって生成された潜在空間表現104bは、欠損センサデータに直面して、ラベル付けされたデータセット(すなわち、有効なデータセット108の潜在空間表現104b)にマッピングする新たなエンコーダを学習するために用いられる。無効なデータセット116は、エンコーダ102への入力データとして適用される。エンコーダ102は、無効なデータセット116の潜在空間表現104dを生成するように構成される。エンコーダ102は、無効なデータセット116の潜在空間表現104dと有効なデータセット110の潜在空間表現104bとの間の差112dを最小化する符号化損失関数を用いてトレーニングされる。その結果、新たなエンコーダが生成される。いくつかの実施形態は、エンコーダ102は異なる無効なデータセットに対してトレーニングされ得るという認識に基づく。例えば、エンコーダ102が無効なデータセット116について再トレーニングされた後、再トレーニングされたエンコーダは、別の無効なデータセットについて再びトレーニングされる。このようなエンコーダ102のトレーニングの結果、エンコーダ102はモデルのモデルとなる。
第2のトレーニング段階の終わりに、新たなエンコーダが学習される。新たなエンコーダは、欠損センサデータに直面しても正しい潜在空間表現(すなわち、有効なデータセットの潜在空間表現)にマッピングする。言い換えれば、新たなエンコーダは、欠損センサデータに直面して有効なデータセットの潜在空間表現をどのようにマッピングするかを学習する。
そのために、ある実施形態では、新たなエンコーダは、無効なデータセット116が新たなエンコーダに適用されると、新たなエンコーダが対応する有効なデータセット108の潜在空間表現を生成するように、学習される。第2のトレーニング段階では、エンコーダ102のみが新たなエンコーダを学習するようにトレーニングされ、デコーダ106は同じままである。したがって、オートエンコーダ100の多段階トレーニングは、新たなエンコーダとデコーダ106とを含むオートエンコーダをもたらす。
実施形態によれば、多段階トレーニング手順は、自己教師あり手法の形態であり、第1のトレーニング段階は、完全なデータセットを用いて潜在空間表現を学習することを含み、第2のトレーニング段階は、異なるセンサからの欠損データの下で同じ潜在空間表現にどのようにマッピングするかを学習することを含む。さらに、多段階トレーニング手順では、第1のトレーニング段階において生成された潜在空間表現はラベルとして解釈され、単一の予測モデル(エンコーダ102)のみが、欠損センサデータに対して最適化される。それにより、多段階トレーニング手順を実行することによって、教師なし手法は、オートエンコーダ100を欠損センサデータに対してロバストにする教師あり手法に変換される。
図2Aは、例示的な実施形態による、オートエンコーダ100の多段階トレーニングのためのシステム200を例示的に示すブロック図である。システム200は、プロセッサ202と、メモリ204と、通信インターフェイス206とを備え得る。プロセッサ202、メモリ204、および通信インターフェイス206は、互いに通信可能に結合され得る。プロセッサ202は、いくつかの異なる方法で具現化され得る。たとえば、プロセッサ202は、コプロセッサ、マイクロプロセッサ、コントローラ、もしくは、たとえば、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、マイクロコントローラユニット(MCU)、ハードウェアアクセラレータ、専用コンピュータチップなどの集積回路を含む様々な他の処理回路といった様々なハードウェア処理手段のうちの1つまたは複数として実施され得る。したがって、いくつかの実施形態では、プロセッサ202は、独立して実行するように構成された1つまたは複数の処理コアを含み得る。マルチコアプロセッサは、単一の物理パッケージ内でマルチ処理を可能にし得る。
メモリ204は、非一時的であり得、たとえば、1つもしくは複数の揮発性および/または不揮発性メモリを含み得る。たとえば、メモリ204は、マシン(たとえば、プロセッサ202のようなコンピューティングデバイス)によって取り出し可能であり得るデータ(たとえば、ビット)を格納するように構成されたゲートを備える電子記憶デバイス(たとえば、コンピュータ可読記憶媒体)であり得る。メモリ204は、システム200が本開示の例示的な実施形態による様々な機能を実行することを可能にするために、情報、データ、コンテンツ、アプリケーション、命令などを記憶するように構成され得る。追加または代替として、メモリ204は、プロセッサ202による実行のための命令を記憶するように構成され得る。
プロセッサ202は、メモリ204に記憶されるかまたはさもなければプロセッサ202にアクセス可能な命令を実行するように構成され得る。追加または代替として、プロセッサ202は、ハードコード化された機能を実行するように構成され得る。したがって、ハードウェア方法もしくはソフトウェア方法によって構成されるか、またはそれらの組合せによって構成されるかにかかわらず、プロセッサ202は、本開示の実施形態による動作を実行することが可能な(たとえば、回路で物理的に具現化された)エンティティを表し得る。したがって、たとえば、プロセッサ202がASIC、FPGAなどとして具現化されるとき、プロセッサ202は、本明細書で説明する動作を実行するための具体的に構成されたハードウェアであり得る。代替として、別の例として、プロセッサ202がソフトウェア命令の実行部として具現化されるとき、命令は、命令が実行されると、本明細書で説明されるアルゴリズムおよび/または動作を実行するようにプロセッサ202を具体的に構成し得る。
通信インターフェイス206は、1つまたは複数のセンサとの間の通信をサポートするための入力インターフェイスおよび出力インターフェイスを備え得る。通信インターフェイス206は、1つまたは複数のセンサとの間でデータを受信および/または送信するように構成されたハードウェアもしくはハードウェアとソフトウェアとの組み合わせのいずれかで具現化されたデバイスまたは回路などの任意の手段であり得る。この点に関して、通信インターフェイス206は、たとえば、ワイヤレス通信ネットワークとの通信を可能にするためのアンテナ(または複数のアンテナ)ならびにサポートハードウェアおよび/またはソフトウェアを含み得る。追加または代替として、通信インターフェイス206は、アンテナを介する信号の送信を引き起こすために、またはアンテナを介して受信された信号の受信を処理するために、アンテナとやり取りするための回路を含み得る。いくつかの環境では、通信インターフェイス206は、代替として、または加えて、有線通信をサポートしてもよい。したがって、たとえば、通信インターフェイス206は、ケーブル、デジタル加入者回線(DSL)、ユニバーサルシリアルバス(USB)または他の機構を介した通信をサポートするための通信モデムならびに/または他のハードウェアおよび/もしくはソフトウェアを含み得る。
プロセッサ202は、有効なデータセット108の各有効なインスタンスが、それらの対応する次元の有効な値の範囲内の値を有する複数の有効なデータポイントを含むように、複数の次元の有効なデータセットを含む第1のトレーニングセットを作成するように構成され得る。プロセッサ202は、さらに、エンコーダ102に提供される有効なデータセット108とデコーダ106によって復号されるデータセット(すなわち、再構築された有効なデータセット110)との間の差を低減するために、第1のトレーニング段階において第1のトレーニングセットを用いてエンコーダ102およびデコーダ106をトレーニングするように、構成され得る。プロセッサ202は、さらに、有効なインスタンスの少なくともいくつかの有効なデータポイントを、それらの対応する次元の有効な値の範囲外の値を有する無効なデータポイントで置き換えることによって形成される無効なデータセット116を含む第2のトレーニングセットを作成するように、構成され得る。プロセッサ202は、さらに、有効なデータインスタンスの符号化(すなわち、有効なデータセット108の潜在空間表現)とそれらの対応する無効なデータインスタンスの符号化(すなわち、無効なデータセット116の潜在空間表現)との間の差を低減するために、第2のトレーニング段階で第2のトレーニングセットを用いてエンコーダ102をトレーニングするように、構成され得る。
図2Bは、いくつかの実施形態による、オートエンコーダ100の多段階トレーニングのためのブロック図を示す。ブロック208において、プロセッサ202は有効なデータセットを受信する。ブロック210において、プロセッサ202は、受信された有効なデータセットを用いて、図1Bを参照して上述したように、オートエンコーダ100のエンコーダ102およびデコーダ106をトレーニングする。このようなトレーニングの結果、第1のトレーニング段階モデルを表すエンコーダ102およびデコーダ106の重みが生成される。ブロック212において、エンコーダ102およびデコーダ106の重みは、メモリ、例えば、システム200のメモリ204に記録される。さらに、ブロック214において、プロセッサ202は、入力データを受信する。ある実施形態では、入力データは、センサ測定値に対応し得る。ブロック216において、プロセッサは、所望の潜在空間表現を生成する第1のトレーニング段階モデルのエンコーダに入力データを入力する。さらに、ブロック218で、プロセッサは、入力データに基づいて一連の無効なデータセットを生成する。ブロック220で、プロセッサは、図1Dを参照して上述したように、無効なデータセットから潜在空間表現にマッピングするよう、無効なデータセットごとに第2段階エンコーダをトレーニングする。このようなトレーニングの結果、第2段階エンコーダの重みが生成される。ブロック222では、第2段階エンコーダの重みをメモリに記録する。ある実施形態では、第2段階エンコーダの重みは、第1のトレーニング段階モデルのエンコーダの重みでウォームスタートされる。第2段階エンコーダのそのようなトレーニングプロセスは、入力データの各無効なデータセットに対して繰り返され、結果は第2段階エンコーダの重みである。
データ回復システム
いくつかの実施形態では、産業システムは監視システムを備え、その目的は、産業システムの動作を監視し、異常を検出することである。さらに、産業システムは、産業システムの動作を制御するように構成されたコントローラを備える。産業システムに関連付けられるすべてのセンサの測定値は、監視システムによって用いられる監視アルゴリズムにおいて用いられる。しかしながら、いくつかの状況下では、1つまたは複数のセンサがアクセス不能になることがあり、それにより、アクセス不能なセンサの測定値は得られない。したがって、監視アルゴリズムには部分的な測定値が入力される。しかしながら、監視アルゴリズムは、部分的な測定に直面しては、効果的に機能しない場合がある。同様に、コントローラは、部分的な測定に直面しては、効果的に機能しない場合がある。そのために、いくつかの実施形態は、たとえ1つまたは複数のセンサの測定値が欠損している場合でも、すべてのセンサの測定値を監視システムおよびコントローラに提供することを目的とする。
いくつかの実施形態では、産業システムは監視システムを備え、その目的は、産業システムの動作を監視し、異常を検出することである。さらに、産業システムは、産業システムの動作を制御するように構成されたコントローラを備える。産業システムに関連付けられるすべてのセンサの測定値は、監視システムによって用いられる監視アルゴリズムにおいて用いられる。しかしながら、いくつかの状況下では、1つまたは複数のセンサがアクセス不能になることがあり、それにより、アクセス不能なセンサの測定値は得られない。したがって、監視アルゴリズムには部分的な測定値が入力される。しかしながら、監視アルゴリズムは、部分的な測定に直面しては、効果的に機能しない場合がある。同様に、コントローラは、部分的な測定に直面しては、効果的に機能しない場合がある。そのために、いくつかの実施形態は、たとえ1つまたは複数のセンサの測定値が欠損している場合でも、すべてのセンサの測定値を監視システムおよびコントローラに提供することを目的とする。
いくつかの実施形態は、多段階トレーニング手順に従ってトレーニングされたオートエンコーダ100を用いて、欠測値を回復することができる、という認識に基づく。そのために、いくつかの実施形態は、欠測値を回復するために、多段階トレーニング手順に従ってトレーニングされたオートエンコーダ100に基づいてデータ回復システムを構築することを目的とする。
図3は、いくつかの実施形態による、データ回復システムのブロック図を示す。データ回復システム300は、データ回復システム300を他のシステムおよびデバイスと接続するいくつかのインターフェイスを有することができる。例えば、ネットワークインターフェイスコントローラ(NIC)314は、バス312を介して、データ回復システム300をネットワーク316に接続するように適合される。ネットワーク316を通じて、無線または有線のいずれかで、データ回復システム300は、産業システムに関連付けられるセンサのセットの測定値318を受信することができる。追加または代替として、センサ測定値318は、入力インターフェイス302を介して受信され得る。一実施形態では、センサ測定値318は、センサのセットのうちの少なくとも1つのセンサからの測定値を欠いている測定値の不完全なセットに対応し得る。
データ回復システム300は、記憶された命令を実行するように構成されたプロセッサ304と、プロセッサ304によって実行可能な命令を記憶するメモリ306とを含む。プロセッサ304は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数の他の構成であり得る。メモリ306は、ランダムアクセスメモリ(RAM)、読出専用メモリ(ROM)、フラッシュメモリ、または任意の他の好適なメモリシステムを含み得る。プロセッサ304は、バス312を介して1つまたは複数の入力デバイスおよび出力デバイスに接続される。さらに、データ回復システム300は、プロセッサ304のために実行可能命令を記憶する異なるモジュールを記憶するように適合された記憶デバイス308を含む。記憶デバイス308は、ハードドライブ、光学ドライブ、サムドライブ、ドライブのアレイ、またはそれらの任意の組み合わせを用いて実現することができる。
記憶デバイス308は、オートエンコーダ310を格納するように構成される。オートエンコーダ310は、多段階トレーニング手順に基づいてトレーニングされたオートエンコーダアーキテクチャを有するニューラルネットワークを指す。多段階トレーニング手順は、図1B~図1Dを参照して上述されている。オートエンコーダ310は、欠測値が無効な値によって置き換えられた測定値の完全なセットを潜在空間に符号化するように構成されたエンコーダを含む。オートエンコーダ310は、さらに、潜在空間から、測定値の完全なセットを、欠測値の回復された値とともに復号するように構成されたデコーダを含む。
いくつかの実施形態では、プロセッサ304は、測定値の不完全なセットにおける欠測値を、欠測値の有効な値の範囲外の無効な値で置き換えて、測定値の不完全なセットを完成させるように構成される。プロセッサ304は、さらに、完成した測定値のセットをオートエンコーダ310を用いて処理して、測定値の完全なセットを、欠測値の回復された値とともに生成するように構成される。プロセッサ304は、さらに、測定値の完全なセットを、欠測値の回復された値とともに出力するように構成される。
いくつかの実施形態では、トレーニングされたオートエンコーダ310は、例えば、ネットワーク316を通して、システム300に提供される。追加または代替として、システム300は、産業システム322に関連するデータの特定の構成のために現場でオートエンコーダ310をトレーニングするためのトレーニングシステム200を含む。
加えて、データ回復システム300は、出力インターフェイス320を含み得る。いくつかの実現例では、データ回復システム300は、出力インターフェイス320を介して、測定値の完全なセットを、欠測値の回復された値とともに提出するように構成される。いくつかの実施形態では、データ回復システム300は、産業システム322と統合される。産業システム322は、発電所、SCADAシステム、HVACシステム、モノのインターネット(IoT)等に対応し得る。データ回復システム300は、出力インターフェイス320を介して、測定値の完全なセットを、欠測値の回復された値とともに、産業システム322に提出するように構成される。
ある実施形態では、データ回復システム300は、出力インターフェイス320を介して、測定値の完全なセットを、欠測値の回復された値とともに、産業システム322に関連付けられた異常検出器に提出するように構成される。いくつかの実施形態では、データ回復システム300は、出力インターフェイス320を介して、測定値の完全なセットを、欠測値の回復された値とともに、産業システム322に関連付けられたコントローラに提出するように構成される。いくつかの実施形態では、データ回復システム300は、出力インターフェイス320を介して、測定値の完全なセットを、欠測値の回復された値とともに、産業システム322に関連付けられた監視システムに提出するように構成される。
図4は、いくつかの実施形態による、データ回復システム300を用いる発電所400における異常検出の概略図を示す。発電所400は、センサのセットを含む。しかしながら、センサのセットのうちの1つまたは複数のセンサは、アクセス不可能になる場合がある。したがって、センサのセット内の少なくとも1つのセンサからの測定値が欠損している不完全な測定値のセットが得られ、データ回復システム300に入力される。データ回復システム300は、多段階トレーニング手順に基づいてトレーニングされたオートエンコーダ310を用いて、測定値の完全なセットを、欠測値の回復された値とともに生成するように構成される。その結果、データ回復システム300は、測定値の完全なセットを、欠測値の回復された値とともに出力する。
さらに、データ回復システム300によって生成された欠測値の回復された値を伴う測定値の完全なセットは、監視システム402に適用される。したがって、測定値が欠損している場合でも、監視システム402は、測定値の完全なセットを提供される。
監視システム402は、発電所400の動作を監視するように構成される。加えて、監視システム402は、測定値の完全なセットの各測定値の値を対応する閾値と比較することによって、発電所400の動作の異常を検出するように構成される。ある実施形態では、測定値の完全なセットにおける測定の値が対応する閾値を上回る場合、発電所400の動作に異常が存在すると推測される。異常の検出に応答して、監視システム402は、コントローラ404に異常情報を送信する。コントローラ404は、異常情報に基づいて発電所400の動作を制御するように構成される。例えば、コントローラ404は、異常情報に基づいて、発電所400の1つまたは複数の機器のための制御コマンドを生成して異常を解決し、発電所400を通常状態で動作させることができる。いくつかの実施形態では、コントローラ404は、異常の検出に応じて、発電所400の動作を停止してもよい。
同様に、データ回復システム300は、SCADAシステム、HVACシステム、およびモノのインターネット(IoT)などの他の産業システムにおいて、当該産業システムの最適化などの他の動作のために採用され得る。いくつかの実施形態では、多段階トレーニング手順および/または多段階トレーニング手順に従ってトレーニングされたオートエンコーダ100は、測定および異常検出アルゴリズム自体に直接適用されることができ、それによって、前駆体の必要性を排除する。
いくつかの実施形態は、多段階トレーニング手順を反復補完法と比較する。以下の式(1)および式(2)は、それぞれ、多段階トレーニング手順における欠損データ補完の、およびオートエンコーダを通して値を反復的に補完する際のフローを示す。
式(1)は、通常トレーニングされたオートエンコーダを介する反復は、反復的補完の場合に計算上の複雑さを増加させる連続的なオンライン計算を必要とすることを示す。一方、式(2)は、多段階トレーニング手順は、欠損データを補完するために、オートエンコーダを通る単一のパスのみを必要とすることを示す。
いくつかの実施形態は、多段階トレーニング手順と反復補完方法とを組み合わせることは有利である、という認識に基づく。なぜならば、多段階トレーニング手順はノイズを直ちに補正するが、第2のトレーニング段階エンコーダ
の入力における完全なデータセットの導入は、潜在空間偏差につながり得るからである。言い換えれば、多段階トレーニングされたエンコーダ上での反復は最適ではない。実施形態によれば、多段階トレーニング手順および反復補完方法を組み合わせて、以下のように与えられるスタックオートエンコーダ(スタックAE)手法を生成する:
図5は、いくつかの実施形態による、スタックAEトレーニングアルゴリズムを示す。
さらに、異なる設定における多段階トレーニング手順および反復補完方法の利点が、複数のデータセットを用いて説明される。図6は、いくつかの実施形態による、異なるデータセットの詳細を示す表形式の列である。多段階トレーニング手順を評価するために、6つのオープンソースデータセットが用いられる。Kaggle上で利用可能なコンピュータ数値制御(CNC)ミリング工具摩耗データセット、Mocap人間活動認識データセット、およびUEA&UCR時系列データセットリポジトリからのデータセットが用いられる。前述のデータセットにおいて、時系列は範囲[0.1,0.9]に正規化され、したがって、正規化後の値はすべて正であり、欠損データは零補完を介して識別可能である。CNCミリング工具摩耗データセットは、システムレベル製造および自動化調査テストベッド(the System-level Manufacturing and Automation Research Testbed)(SMART)におけるCNCでの18回の実験からの実験データを含む。各機械において、多変量時系列がセンサから収集され、それらのうちの24次元の連続時系列が用いられる。データは、部品の完成、工具の摩耗および実験パラメータに関してラベル付けされる。そのようなデータは、100個のデータポイントの非重複ウィンドウに分割される。非重複ウィンドウはシャッフルされ、トレーニングデータセット用の150ウィンドウ、検証データセットにおける50ウィンドウ、および試験セットにおける50ウィンドウが設定される。検証データセットは、学習アルゴリズムの早期終了のために用いられる。データ上のラベルは、ミリング工具摩耗検出に用いられる。具体的には、ミリング工具が摩耗しているかどうかを予測するXGboost分類器が学習される。XGboost分類器は、完全なデータを伴うトレーニングデータセットで学習される。試験中、欠損センサの数は、
であると見なされる。
モーションキャプチャデータベースは、歩行、走行などの記録された人間の活動の包括的なデータベースである。各活動について、参加者のビデオが、ビデオ全体にわたって身体関節位置(x,y,z)の93次元多次元時系列に変換される。得られた時系列は、各実験の持続時間について31の身体関節の位置を表す。データセットには、異なる環境で異なる活動を行う5人の動作主がいる。各入力が100×93の次元を有することを意味する、100のウィンドウサイズが選択される。各動作主について、500の動作データ点がサンプリングされる。欠損センサの数は、
で考慮される。動作主が実行している動きを予測する分類器が学習され、kごとに、補完されたデータ入力での分類器についての正規化された二乗平均平方根誤差(NRMSE)および精度が報告される。
考慮される問題設定およびデータセットの選択されたサイズに基づいて、指の動きデータセット、手の動き方向データセット、NATOPSデータセットおよびラケットスポーツデータセットが選択される。指の動きデータセットおよび手の動き方向データセットは、人がタイピングをしているかまたは手を動かしている間のその人の脳神経活動の記録である。NATOPSデータセットは、ジェスチャ識別データセットであり、6つのハンドジェスチャを実行している個人の両手、両肘、両手首および両親指に配置されたセンサから生成される。データセットは、人が行なったジェスチャについての、各センサからのx、y、およびz座標時系列を含む。ラケットスポーツデータセットは、バドミントンまたはスカッシュをしている人に装着されたスマートウォッチから生成される。スマートウォッチは、加速度計およびジャイロスコープを用いてスマートウォッチの位置を測定する。
10個のセンサを有するIoT/SCADA展開が与えられると、1024のサイズの欠損センサ組合せの電力セットを有し得る。すべての考えられ得る欠損センサの組み合わせでモデルをトレーニングおよびテストすることは、欠損センサの総数kおよび番号ごとの両方において、計算上禁止同然であることは明らかである。この理由から、100個の欠損パターンのサンプルmが、所与の数の欠損センサkごとに、トレーニングおよびテストのために用いられる。
図7は、いくつかの実施形態による、スタックAEのためのネットワーク詳細を含む表形式の列を示す。ここで、自動符号化モデルは、1次元畳み込みAEである。すべてのスタックAEモデルは、設定された最大反復数、例えば4回の反復を有する。スタックAE手法は、線形回帰、多項式回帰、GP-VAE、HI-VAE、およびVAE-ACなどの他の手法と比較される。
結果
CNCデータセット
図8は、いくつかの実施形態による、欠損センサ番号の範囲にわたる、CNC工具摩耗データセット上の時系列補完のNRMSEを示す。図8から、最良性能の補完方法は多項式回帰であることが推測できる。さらに、HI-VAE、GP-VAE、およびVAE-ACなどの潜在空間法は、線形回帰よりも性能が悪いことに注目されたい。これは、異なるデータセットにわたって良好に機能し得る単一の潜在空間を事前に選択することが困難であるため、そうである可能性が高い。スタックAE手法は線形回帰よりも性能が優れていることにも注目されたい。このような結果は好ましく、なぜならば、スタックAEモデルはオフラインで学習されることができ、したがって、線形回帰よりもストレージの複雑さがはるかに低いことを表すからである。
CNCデータセット
図8は、いくつかの実施形態による、欠損センサ番号の範囲にわたる、CNC工具摩耗データセット上の時系列補完のNRMSEを示す。図8から、最良性能の補完方法は多項式回帰であることが推測できる。さらに、HI-VAE、GP-VAE、およびVAE-ACなどの潜在空間法は、線形回帰よりも性能が悪いことに注目されたい。これは、異なるデータセットにわたって良好に機能し得る単一の潜在空間を事前に選択することが困難であるため、そうである可能性が高い。スタックAE手法は線形回帰よりも性能が優れていることにも注目されたい。このような結果は好ましく、なぜならば、スタックAEモデルはオフラインで学習されることができ、したがって、線形回帰よりもストレージの複雑さがはるかに低いことを表すからである。
図9は、いくつかの実施形態による、CNC工具摩耗データセット上での工具摩耗検出AUCプロットを示す。図9から、最良のAUC性能はスタックAE手法によって達成されることが観察され得る。これは、スタックAE手法が、特に欠損センサが多数である場合に、摩耗検出に役立つデータの重要な特徴を学習する際に、より良好であることを示す。
2.モーションキャプチャデータベース
図10は、いくつかの実施形態による、異なる欠損センサ組み合わせについての人間活動データセット上の時系列再構築のNRMSEを示す。線形回帰は人間活動データセットに対して性能が良好であることが観察され得、これは、次いで、人間活動データセットが強い線形相関を示し、線形回帰によって補完を容易にする比較的低いランクであることを示唆する。潜在空間法は性能が良くないことも観察できる。従って、潜在空間法の事前分布選択は人間活動データセットに適合しない。
図10は、いくつかの実施形態による、異なる欠損センサ組み合わせについての人間活動データセット上の時系列再構築のNRMSEを示す。線形回帰は人間活動データセットに対して性能が良好であることが観察され得、これは、次いで、人間活動データセットが強い線形相関を示し、線形回帰によって補完を容易にする比較的低いランクであることを示唆する。潜在空間法は性能が良くないことも観察できる。従って、潜在空間法の事前分布選択は人間活動データセットに適合しない。
3.UEA&UCRリポジトリ
図11は、いくつかの実施形態による、増加する欠損センサ数に対するNATOPSデータセット上の時系列再構築のNRMSEを示す。NATOPSデータセットは、Mocapデータベースとラケットスポーツデータセットとの間の中間データセットと見なされ、なぜならば、NATOPSデータセットは、Mocapデータよりもセンサを少なく含むが、ラケットスポーツデータセットよりもセンサを多く含むからである。したがって、比較的より大量の未観察の情報が存在し、これは、統計モデルのためにタスクをモデル化することがはるかにより困難であることを意味する。
図11は、いくつかの実施形態による、増加する欠損センサ数に対するNATOPSデータセット上の時系列再構築のNRMSEを示す。NATOPSデータセットは、Mocapデータベースとラケットスポーツデータセットとの間の中間データセットと見なされ、なぜならば、NATOPSデータセットは、Mocapデータよりもセンサを少なく含むが、ラケットスポーツデータセットよりもセンサを多く含むからである。したがって、比較的より大量の未観察の情報が存在し、これは、統計モデルのためにタスクをモデル化することがはるかにより困難であることを意味する。
図11から、線形回帰は、NATOPSデータセット内に運動関係を線形に捕捉するのに充分なセンサがあることを示唆する最良の補完法であることに注目されたい。また、図11から、スタックAE手法は潜在空間法よりも性能が優れており、多項式回帰の性能に匹敵することに注目されたい。
図12は、いくつかの実施形態による、増加する欠損センサ数についてNATOPSデータセット上の分類予測精度を示す。図12から、スタックAEおよび多項式回帰は、良好な分類性能をもたらすデータ要素を捕捉することに注目されたい。図12から、スタックAE手法はGP-VAEよりも性能が優れていることに注目されたい。
図13は、いくつかの実施形態による、異なる欠損センサ組み合わせについてのラケットスポーツデータセット上の時系列再構築のNRMSEを示す。スタックAEがすべての他の方法よりも性能が優れていることは明らかである。
図14は、いくつかの実施形態による、異なる欠損センサ組み合わせについてのラケットスポーツデータセット上の分類タスクの予測精度を示す。図14から明らかなように、スタックAE手法は、他のすべての方法よりも性能が優れており、それは、次いで、ラケットスポーツデータセット(非常に非線形のデータセットである)において、スタックAE手法は、異なるセンサ間の複雑な関係を捕捉することができたことを示している。
図15は、いくつかの実施形態による、スタックAE手法と反復AEとの間の比較のためにラケットスポーツデータセット上の時系列再構築のNRMSEを示す。スタックAE手法は、反復オートエンコーダベースの補完よりも性能が優れていることが観察され得る。
図16は、ある実施形態による、異なる欠損センサの組み合わせについての指の動きのデータセット上の時系列再構築のNRMSEを示す。
図17は、いくつかの実施形態による、異なる欠損センサの組み合わせについての手の動きの方向データセット上の時系列再構築のNRMSEを示す。
図16および図17は、スタックAE手法が線形回帰および多項式回帰に等しい性能であることを示す。これは、スタックAE手法が、他の方法と同じレベルの性能で、ストレージ複雑度の低減を与えることを意味する。このような結論は、6つすべてのデータセットにわたって現れる。加えて、補完品質が分類タスクに基づいて評価され得るデータセットについては、スタックAE手法は常に最上位性能手法である。
上記の説明は、例示的な実施形態のみを提供するものであり、本開示の範囲、適用可能性、または構成を制限することを意図していない。むしろ、例示的な実施形態の上記の記載は、当業者に、1つ以上の例示的な実施形態を実現することに対する実施可能な記載を提供するであろう。企図されるのは、特許請求の範囲に記載されるように開示される主題の精神および範囲から逸脱することなく、要素の機能および構成において行われ得るさまざまな変更である。
実施形態の完全な理解を与えるために、具体的な詳細が上記の記載において与えられる。しかしながら、当業者によって理解されることは、実施形態がこれらの具体的な詳細なしで実施され得ることであり得る。例えば、開示された主題におけるシステム、プロセス、および他の要素は、不必要な詳細で実施形態を不明瞭にしないために、ブロック図形式でコンポーネントとして示され得る。他の例では、周知のプロセス、構造、および技法は、実施形態を不明瞭にすることを回避するために、不必要な詳細なしで示され得る。さらに、さまざまな図面における同様の参照番号および名称は、同様の要素を示した。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明され得る。フローチャートは、動作を順次プロセスとして説明し得るが、動作の多くは、並列にまたは同時に実行することができる。加えて、動作の順序を入れ替えてもよい。プロセスは、その動作が完了したときに終了され得るが、論じられていない、または図に含まれていない追加のステップを有し得る。さらに、任意の特に説明されるプロセスにおけるすべての動作が、すべての実施形態において起こり得るわけではない。プロセスは、方法、関数、プロシージャ、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、関数の終了は、呼び出し関数またはメイン関数への関数の復帰に対応することができる。
さらに、開示される主題の実施形態は、少なくとも部分的に、手動または自動のいずれかで実現され得る。手動または自動実現例は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組合せの使用を通じて実行され得るか、または少なくとも支援され得る。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現される場合、必要なタスクを実行するプログラムコードまたはコードセグメントは、機械可読媒体に記憶され得る。プロセッサが必要なタスクを実行してもよい。
本明細書で概説されるさまざまな方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのいずれか1つを用いる1つまたは複数のプロセッサ上で実行可能なソフトウェアとしてコード化され得る。さらに、そのようなソフトウェアは、いくつかの好適なプログラミング言語および/またはプログラミングツールもしくはスクリプトツールのいずれかを用いて書かれてもよく、フレームワークもしくは仮想マシン上で実行される実行可能な機械語コードまたは中間コードとしてコンパイルされてもよい。典型的には、プログラムモジュールの機能は、さまざまな実施形態において所望に応じて組み合わせるか、または分散させることができる。
本開示の実施形態は、一例が提供された方法として具現化され得る。方法の一部として実行される行為は、任意の好適な方法で順序付けられてもよい。したがって、例示的な実施形態では順次動作として示されているが、いくつかの動作を同時に実行することを含み得る、示されたものとは異なる順序で動作が実行される実施形態が構築され得る。本開示は特定の好ましい実施形態を参照して説明されたが、本開示の精神および範囲内でさまざまな他の適合および変更を行うことができることを理解されたい。したがって、本開示の真の精神および範囲内に入るそのようなすべての変形および修正を包含することは、特許請求の範囲の態様である。
Claims (14)
- 入力を潜在空間に符号化するためのエンコーダと前記潜在空間から前記符号化を復号するためのデコーダとを含むオートエンコーダアーキテクチャを伴うニューラルネットワークをトレーニングする、コンピュータにより実現される方法であって、
複数の次元の有効なデータセットを含む第1のトレーニングセットを作成することを含み、前記有効なデータセットの各有効なインスタンスは、それらの対応する次元の有効な値の範囲内の値を有する複数の有効なデータポイントを含み、前記方法はさらに、
第1のトレーニング段階において前記第1のトレーニングセットを用いて前記ニューラルネットワークの前記エンコーダおよび前記デコーダをトレーニングして、前記エンコーダに提供される前記有効なデータセットと前記デコーダによって復号されるデータセットとの間の差を低減することと、
前記有効なインスタンスの少なくともいくつかの有効なデータポイントを、それらの対応する次元の有効な値の前記範囲外の値を有する無効なデータポイントで置き換えることによって形成される無効なデータセットを含む第2のトレーニングセットを作成することと、
第2のトレーニング段階で前記第2のトレーニングセットを用いて前記ニューラルネットワークの前記エンコーダをトレーニングして、前記有効なデータインスタンスの符号化とそれらの対応する無効なデータインスタンスの符号化との間の差を低減することとを含む、方法。 - 前記第1のトレーニング段階において、前記エンコーダに提供される前記有効なデータセットと前記デコーダによって復号される前記データセットとの間の前記差は、再構成損失関数を用いて低減される、請求項1に記載のコンピュータにより実現される方法。
- 前記第2のトレーニング段階において、前記有効なデータインスタンスの前記符号化とそれらの対応する無効なデータインスタンスの前記符号化との間の前記差は、符号化損失関数を用いて低減される、請求項1に記載のコンピュータにより実現される方法。
- 前記有効なデータポイントの値が常に正であるようにスケーリングされるとき、前記無効なデータポイントの値は0である、請求項1に記載のコンピュータにより実現される方法。
- 前記第2のトレーニング段階は、前記第1のトレーニング段階中にトレーニングされた前記デコーダを維持しながら、前記エンコーダのみを更新する、請求項1に記載のコンピュータにより実現される方法。
- 請求項1に記載の前記コンピュータにより実現される方法に従ってトレーニングされる前記ニューラルネットワークを用いて、センサのセット内の少なくとも1つのセンサからの測定値が欠測値である、測定値の不完全なセットから、前記センサのセットの測定値の完全なセットを生成するための方法であって、
前記測定値の不完全なセットにおける前記欠測値を、前記欠測値の有効な値の範囲外の無効な値で置き換えて、前記測定値の不完全なセットを完成させることと、
前記完成した測定値のセットを前記ニューラルネットワークで処理して、前記測定値の完全なセットを前記欠測値の回復された値とともに生成することと、
前記測定値の完全なセットを出力することとを含む、方法。 - 前記欠測値は0に置き換えられる、請求項6に記載の方法。
- 前記ニューラルネットワークは、欠測値が無効な値によって置き換えられた前記測定値の完全なセットを潜在空間に符号化するように構成されたエンコーダと、前記潜在空間から、前記欠測値の回復された値を有する前記測定値の完全なセットを復号するように構成されたデコーダとを含む、請求項6に記載の方法。
- 入力を潜在空間に符号化するためのエンコーダと前記潜在空間から前記符号化を復号するためのデコーダとを含むオートエンコーダアーキテクチャを伴うニューラルネットワークをトレーニングするためのシステムであって、少なくとも1つのプロセッサと、命令を格納したメモリとを備え、前記命令は前記少なくとも1つのプロセッサによって実行されると前記システムに、
複数の次元の有効なデータセットを含む第1のトレーニングセットを作成させ、前記有効なデータセットの各有効なインスタンスは、それらの対応する次元の有効な値の範囲内の値を有する複数の有効なデータポイントを含み、さらに、前記命令は前記少なくとも1つのプロセッサによって実行されると前記システムに、
第1のトレーニング段階において前記第1のトレーニングセットを用いて前記ニューラルネットワークの前記エンコーダおよび前記デコーダをトレーニングさせて、前記エンコーダに提供される前記有効なデータセットと前記デコーダによって復号されるデータセットとの間の差を低減し、
前記有効なインスタンスの少なくともいくつかの有効なデータポイントを、それらの対応する次元の有効な値の前記範囲外の値を有する無効なデータポイントで置き換えることによって形成される無効なデータセットを含む第2のトレーニングセットを作成させ、
第2のトレーニング段階で前記第2のトレーニングセットを用いて前記ニューラルネットワークの前記エンコーダをトレーニングさせて、前記有効なデータインスタンスの符号化とそれらの対応する無効なデータインスタンスの符号化との間の差を低減する、システム。 - 前記無効なデータポイントの値は0である、請求項9に記載のシステム。
- センサのセットの中の少なくとも1つのセンサからの測定値が欠測値である、測定値の不完全なセットから、前記センサのセットの測定値の完全なセットを生成するためのデータ回復システムであって、少なくとも1つのプロセッサと、命令を格納したメモリとを備え、前記命令は前記少なくとも1つのプロセッサによって実行されると前記データ回復システムに、
前記測定値の不完全なセットにおける前記欠測値を、前記欠測値の有効な値の範囲外の無効な値で置き換えさせて、前記測定値の不完全なセットを完成させ、
オートエンコーダを用いて前記完成した測定値のセットを処理させて、前記測定値の完全なセットを前記欠測値の回復された値とともに生成し、前記オートエンコーダは、多段階トレーニング手順に基づいて学習されるニューラルネットワークであり、さらに、前記命令は前記少なくとも1つのプロセッサによって実行されると前記データ回復システムに、
前記測定値の完全なセットを前記欠測値の前記回復された値とともに出力させる、データ回復システム。 - 前記オートエンコーダは、欠測値が無効な値によって置き換えられた前記測定値の完全なセットを潜在空間に符号化するように構成されたエンコーダと、前記潜在空間から、前記欠測値の回復された値を有する前記測定値の完全なセットを復号するように構成されたデコーダとを含む、請求項11に記載のデータ回復システム。
- 前記多段階トレーニング手順は第1のトレーニング段階を含み、
前記第1のトレーニング段階は、
複数の次元の有効なデータセットを含む第1のトレーニングセットを作成することを含み、前記有効なデータセットの各有効なインスタンスは、それらの対応する次元の有効な値の範囲内の値を有する複数の有効なデータポイントを含み、前記第1のトレーニング段階はさらに、
前記第1のトレーニングセットを用いて前記オートエンコーダの前記エンコーダおよび前記デコーダをトレーニングして、前記エンコーダに提供される前記有効なデータセットと前記デコーダによって復号されるデータセットとの間の差を低減することを含む、請求項12に記載のデータ回復システム。 - 前記多段階トレーニング手順は第2のトレーニング段階を含み、
前記第2のトレーニング段階は、
前記有効なインスタンスの少なくともいくつかの有効なデータポイントを、それらの対応する次元の有効な値の前記範囲外の値を有する無効なデータポイントで置き換えることによって形成される無効なデータセットを含む第2のトレーニングセットを作成することと、
前記第2のトレーニングセットを用いて前記ニューラルネットワークの前記エンコーダをトレーニングして、前記有効なデータインスタンスの符号化とそれらの対応する無効なデータインスタンスの符号化との間の差を低減することとを含む、請求項13に記載のデータ回復システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/197,248 US11698946B2 (en) | 2021-03-10 | 2021-03-10 | System and a method for training a neural network having autoencoder architecture to recover missing data |
US17/197,248 | 2021-03-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022140294A true JP2022140294A (ja) | 2022-09-26 |
Family
ID=83193917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022010234A Pending JP2022140294A (ja) | 2021-03-10 | 2022-01-26 | 欠損データを回復するためにオートエンコーダアーキテクチャを有するニューラルネットワークをトレーニングするためのシステムおよび方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11698946B2 (ja) |
JP (1) | JP2022140294A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186501B (zh) * | 2023-04-20 | 2023-07-28 | 四川中电启明星信息技术有限公司 | 一种用户电表采集数据修复方法、系统、电子设备及介质 |
CN116522086A (zh) * | 2023-04-25 | 2023-08-01 | 中国长江三峡集团有限公司 | 一种基于变分自编码器的数据恢复和水质检测方法、装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7006199B2 (ja) * | 2017-12-01 | 2022-01-24 | オムロン株式会社 | データ生成装置、データ生成方法、データ生成プログラムおよびセンサ装置 |
-
2021
- 2021-03-10 US US17/197,248 patent/US11698946B2/en active Active
-
2022
- 2022-01-26 JP JP2022010234A patent/JP2022140294A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220292301A1 (en) | 2022-09-15 |
US11698946B2 (en) | 2023-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qi et al. | Multi-sensor guided hand gesture recognition for a teleoperated robot using a recurrent neural network | |
JP2022140294A (ja) | 欠損データを回復するためにオートエンコーダアーキテクチャを有するニューラルネットワークをトレーニングするためのシステムおよび方法 | |
CN109086869B (zh) | 一种基于注意力机制的人体动作预测方法 | |
CN114065862A (zh) | 一种多维时序数据异常检测方法和系统 | |
Lee et al. | A hybrid neural network model for noisy data regression | |
CN115461755A (zh) | 异常检测器、异常检测的方法和训练异常检测器的方法 | |
CN114386521A (zh) | 时间序列数据的异常检测方法、系统、设备和存储介质 | |
Jin et al. | Position encoding based convolutional neural networks for machine remaining useful life prediction | |
Kalakonda et al. | Action-gpt: Leveraging large-scale language models for improved and generalized action generation | |
CN116522265A (zh) | 工业互联网时序数据异常检测方法及装置 | |
CN115903741A (zh) | 一种工业控制系统数据异常检测方法 | |
CN116796272A (zh) | 一种基于Transformer的多变量时间序列异常检测方法 | |
JP6994812B2 (ja) | 複数のセンサの時系列の計測値群における欠損値を補完するプログラム、装置及び方法 | |
Das et al. | Deep recurrent architecture with attention for remaining useful life estimation | |
Zhou et al. | A novel algorithm system for wind power prediction based on RANSAC data screening and Seq2Seq-Attention-BiGRU model | |
Liao et al. | Nonparametric and semi-parametric sensor recovery in multichannel condition monitoring systems | |
CN117094451B (zh) | 一种耗电量的预测方法、装置及终端 | |
Muralidhar et al. | Multivariate long-term state forecasting in cyber-physical systems: A sequence to sequence approach | |
Stober et al. | Learning geometry from sensorimotor experience | |
JP7102080B2 (ja) | 未来の潜在表現を予測するエンコーダのプログラム、装置及び方法 | |
CN116992380A (zh) | 卫星多维遥测序列异常检测模型构建方法及装置、异常检测方法及装置 | |
CN115628910B (zh) | 一种基于迁移学习的嵌入式轴承故障诊断装置及设备 | |
CN114626426A (zh) | 基于K-means优化算法的工业设备行为检测方法 | |
CN116127391A (zh) | 一种基于多变量时序数据重构确定异常的方法 | |
Jiangyan et al. | A regularized constrained two-stream convolution augmented Transformer for aircraft engine remaining useful life prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240605 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20240605 |