JP2023520066A

JP2023520066A - 産業用機械学習のためのデータ処理

Info

Publication number: JP2023520066A
Application number: JP2022560024A
Authority: JP
Inventors: クレッパー、ベンヤミン; シュミット、ベネディクト; アミハイ、イド; シウア、モンセフ; シュラーケ、ヤン－クリストフ; コトリワラ、アルザム・ムザッファー; ホーレンダー、マルティン; ヤンカ、デニス; レンダース、フェリクス; アブクワイク、ハディル
Original assignee: ABB Schweiz AG
Current assignee: ABB Schweiz AG
Priority date: 2020-03-31
Filing date: 2021-03-10
Publication date: 2023-05-15
Also published as: EP4128087A1; WO2021197782A1; CN115380294A; US20230019404A1; CA3173398A1

Abstract

本発明は、特に予知保全、プロセス監視、イベント予測、又は根本原因分析のための産業機械学習アプリケーションの開発を自動化するためのコンピュータ実装方法（１００）に関する。本方法は、産業機械学習問題に応じて反復的に実行することができる１つ以上のサブメソッドからなる。これらのサブメソッドは、機械学習モデルのトレーニング（Ｓ１０）及び後のトレーニング（Ｓ１５）におけるデータクリーニングを自動化する方法、他のタイムスタンプレコードを使用して時系列（特に信号データ）をラベル付けする方法（Ｓ１１）、プロセスマイニングを用いた特徴量エンジニアリング（Ｓ１２）、ならびにデータセグメント化及び分類のための自動化されたハイパーパラメータ調整（Ｓ１４）のうちの少なくとも１つを含む。【選択図】図１

Description

本発明は、産業機械学習のためのデータ前処理のためのコンピュータ実装方法に関する。この方法は、例えば、予知保全、プロセス監視、イベント予測、又は根本原因分析に利用することができる。本発明はさらに、コンピュータ実装方法のステップを実行するように構成されたデータ処理システム、データ処理システムに方法を実行させる命令を含むコンピュータプログラム、及びそのようなコンピュータプログラムを記憶したコンピュータ読取可能媒体に関する。

機械学習は、産業において、とりわけ、予知保全、プロセス監視、イベント予測、又は根本原因分析のために使用できる。例えば、予知保全の場合、メンテナンス動作が実行されるべき時間を推定するために、モータ又はロボットなどの産業資産の状態が予測されてもよい。したがって、メンテナンス動作は、産業資産の状態の機械学習ベースの予測に応じてスケジュールされてもよい。

メンテナンス動作が必要なときにのみ実行されるので、これは、時間ベースの予知保全よりもコスト削減を提供する。さらに、資産の状態が連続的に監視されるので、産業資産の予期せぬ故障の確率が低減される。

しかしながら、予知保全のために機械学習手法を適用することは、些細な作業ではない。特に、産業資産のセンサからの、又は産業プロセスもしくはプラントの制御システムからのデータは、典型的には、機械学習モデルの適用の前に前処理される必要がある。この前処理は、例えば、外れ値の除去及び／又はノイズの抑制を含む、例えば、生センサデータのクリーニングを含んでもよい。さらに、前処理は、典型的には、時系列データからの特徴の導出を伴う。これらの前処理アルゴリズムは、機械学習モデルによって達成できる性能にとって重要である。別の重要な要件は、機械学習モデルのトレーニングのために十分な数のトレーニングサンプルを提供することである。

したがって、予知保全のためだけでなく、プロセス監視、イベント予測、又は根本原因分析などの他の目的のための機械学習アプリケーションは、ドメイン及び機械学習エキスパートの混合チームによって開発される。

しかしながら、機械学習及びデータサイエンスの専門家は稀であり、産業機械学習に必要なドメイン専門知識を欠いていることが多い。さらに、産業機械学習アプリケーションの開発は、時間のかかるプロセスである。特に、手動データクリーニング、特徴量エンジニアリング（feature engineering）、データラベリング、及びハイパーパラメータ調整（hyperparameter tuning）に必要とされる時間は長い。ドメインエキスパートが自ら機械学習アプリケーションを開発することを可能にする自動化された方法がない。

自動機械学習（AutoML）などの機械学習アプリケーションを開発する際にドメインエキスパートをサポートするための既存のアプローチは、表形式、テキスト、又は画像データに対する機械学習のような主流機械学習アプリケーションの同種の特性を活用する。これらのアプローチは、モデル選択及びハイパーパラメータ調整のための目的関数を確立するために、ラベル付けされたデータの利用可能性に依存する。しかしながら、そのようなラベル付けされたデータは、通常、産業機械学習アプリケーションにおいて利用可能ではない。

したがって、産業機械学習アプリケーションの開発のための改善された自動化を提供することが望ましいかもしれない。

これは、独立請求項の主題事項によって達成され、さらなる実施形態は、従属請求項及び以下の説明に組み込まれる。以下に説明するコンピュータ実装方法の任意のステップ、特徴、又は態様は、以下に説明する方法のステップを実行するように構成されたデータ処理システム、コンピュータプログラム、及びコンピュータ読取可能媒体に等しく適用され、その逆も同様であることに留意されたい。

産業機械学習アプリケーションの自動開発のための方法は、産業機械学習問題に応じて反復的に実行されてもよい１つ以上のサブメソッドからなる。サブメソッドは、（ａ）機械学習モデルのトレーニング及び後のアプリケーションにおけるデータクリーニングを自動化するための方法、（ｂ）他のタイムスタンプレコードを使用してセンサ信号などのデータの時系列をラベル付けするための方法、（ｃ）プロセスマイニングを用いた特徴量エンジニアリング、及び（ｄ）データセグメント化及び分類のための自動化されたハイパーパラメータ調整であってもよい。

本開示の第１の態様によれば、機械学習のためのコンピュータ実装方法が提示される。本方法は、産業資産のセンサから、又は産業プロセスもしくはプラントのための制御システムから、第１の時系列データを取得することを含む。さらに、本方法は、イベントログを取得するために、第１の時系列データを処理することと、適合性分析及び／又はボトルネック識別を提供するために、プロセスマイニングをイベントログに適用することとを含む。

第１の時系列データは、モータもしくはロボットなどの産業資産のセンサからの、又はコンピュータ化された分散型もしくは集中型制御システムなどの産業プロセスもしくはプラントのための制御システムからの離散時間信号であってもよい。第１の時系列データを取得することは、例えば、センサもしくは制御システムから第１の時系列データを受信すること、又は記憶媒体から第１の時系列データをロードすることを意味してもよい。例えば、第１の時系列データは、リモートサーバなどのサーバからロードすることができる。第１の時系列データはセンサからもしくは制御システムからの生データを含んでもよく、又は第１の時系列データは処理されたデータ、例えば、クリーニングされた時系列データであってもよい。

第１の時系列データを取得するステップ、第１の時系列データを処理するステップ、及びプロセスマイニングを適用するステップは、第１の機械学習モデルをトレーニング又は適用する前に実行されてもよい前処理ステップであってもよく、第１の機械学習モデルは、例えば、バッチプロセスがどのように進化するかを予知保全又は予測するために利用されてもよい。特に、第１の時系列データを取得するステップ、第１の時系列データを処理するステップ、及びプロセスマイニングを適用するステップは、特徴量エンジニアリングのために、すなわち、第１の機械学習モデルの入力パラメータを決定するために使用されてもよい。

一例では、コンピュータ実装方法は、適合性分析及び／又はボトルネック識別に基づいて産業資産の状態インジケータを決定することをさらに含む。

プロセスマイニングによって提供される適合性分析は、産業資産についての状態インジケータに定量化されてもよい。例えば、異なるタイプの適合性及び閾値を使用及び／又は最適化することができる。これらの状態インジケータを周期的に（例えば、毎秒、毎分、毎時、又は毎日）計算することによって、これらのメトリックは、異常挙動を発見するために比較されることができる。

例えば、制御システムからのアラーム及び／若しくはイベントデータ、並びに／又はモータからのセンサデータは、例えば、その状態を監視するとともにその挙動を予測するために、プロセスマイニングを用いて活用されてもよい。このアプローチは、使用されるセンサ又は制御システムにとらわれず、すなわち、データが経時的に収集されるにつれて資産の正常動作が推測されるので、他の産業資産及び制御システムにも別々に適用されてもよい。言い換えれば、経時的な劣化などの異常を検出するために明示的な情報又は作業モデルが必要とされない。

一例では、コンピュータ実装方法は、プロセス偏差を決定し、潜在的な改善を決定し、条件ベースの監視を実行し、予知保全を実行し、及び／又はバッチプロセスがどのように進化するかを予測するために、第１の機械学習モデルをトレーニング及び／又は適用することをさらに含み、第１の機械学習モデルの入力パラメータは、適合性分析及び／又はボトルネック識別に基づく。

第１の機械学習モデルがトレーニングされるとき、第１の時系列データは、生の又はクリーニングされたトレーニング時系列データなどの時系列データであってもよい。特に、トレーニング時系列データは、履歴時系列データであってもよい。対照的に、第１の機械学習モデルが適用されるとき、第１の時系列データは、産業資産からの、又はコンピュータ化された分散型若しくは集中型制御システムなどの制御システムからのライフデータストリームであってもよい。

第１の機械学習モデルは、プロセス偏差を決定し、潜在的な改善を決定し、条件ベースの監視を実行し、予知保全を実行し、及び／又はバッチプロセスがどのように進化するかを予測するために、トレーニングされてもよい。

第１の機械学習モデルの入力パラメータは、適合性分析及び／若しくはボトルネック識別であってもよく、又はそれに基づいてもよい。特に、第１の機械学習モデルの一部又は全ての入力パラメータは、適合性分析及び／若しくはボトルネック識別から導出される産業資産の状態インジケータであってもよく、又はそれに基づいてもよい。

別の例では、イベントログを取得するために第１の時系列データを処理することは、記号集合近似又は人工知能技術を適用することによって第１の時系列データを符号化することを含む。

時系列データに対してプロセスマイニングを実行するために、時系列データは、イベントログ、すなわち離散イベントのセットに変換される必要がある。そのような符号化は、記号集合近似（Symbolic Aggregate Approximation（SAX））又はAI技術を使用して行われてもよい。

別の例では、イベントログを取得するために第１の時系列データを処理することは、符号化された第１の時系列データに対して抽象化を実行することをさらに含む。

生の低レベルイベントログに対してプロセスマイニングを実行することは困難であるかもしれないので、これらのログは、抽象化を実行することによって変換されてもよい。一例では、これは、生の低レベルイベントを集約すること、又は閾値未満のフィルタを適用することを含むことができる。例えば、閾値未満の生の低レベルイベントは、ノイズを除去するために０に設定されてもよい。生の低レベルイベントの他の抽象化も可能である。

別の例では、コンピュータ実装方法は、第２の時系列データを取得することと、第３の時系列データを得るために第２の時系列データをクリーニングすることとをさらに含む。さらに、データクリーニング機械学習モデルは、複数の第１のトレーニングサンプルを使用してトレーニングされ、第１のトレーニングサンプルは、第３の時系列データからのクリーンデータポイントと、第２の時系列データからの複数の生データポイントとを含む。

したがって、コンピュータ実装方法は、データクリーニングのための機械学習モデルのトレーニングを含むことができる。この機械学習モデルをトレーニングするために、第１のトレーニングサンプルのセットが使用されてもよく、第１のトレーニングサンプルのセットは、第２の時系列データ及び第３の時系列データから導出されてもよい。

第２の時系列データは、産業資産のセンサからの、又は産業プロセスもしくはプラントのための制御システムからの生の時系列データであってもよい。

第３の時系列データは、例えば、ドメインエキスパート又は機械学習エキスパートによって手動で決定されてもよい。第３の時系列データを取得するための第２の時系列データのクリーニングは、欠損値を処理すること、ノイズを除去すること、及び／又は外れ値を除去することを含んでいてもよい。

異なる第１のトレーニングサンプルは、第３の時系列データとは異なるクリーンデータポイントを含んでもよい。第１のトレーニングサンプルの各々は、第２の時系列データからの複数の生データポイントをさらに含んでもよい。それによって、第２の時系列データの生データポイントは、いくつかの第１のトレーニングサンプルに含まれてもよい。特に、第１のトレーニングサンプルは、対応するクリーンデータポイントの時間を中心とすることができる時間ウィンドウ内の第２の時系列データの生データポイントを含むことができる。データクリーニング機械学習モデルをトレーニングするために、トレーニングサンプルのクリーンデータポイントは、機械学習モデルの所望の出力として機能することができ、トレーニングサンプルの生データポイントは、機械学習モデルへの入力パラメータとして機能する。

データクリーニングのために機械学習モデルをトレーニングした後、この機械学習モデルは、クリーン時系列データを提供するために、産業資産のセンサから、又は制御システムからの生の時系列データに適用されてもよい。このクリーン時系列データは、第１の時系列データに等しくてもよい。

別の例では、コンピュータ実装方法は、センサから又は制御システムから第４の時系列データを取得することと、第１の時系列データを取得するために、データクリーニング機械学習モデルを第４の時系列データに適用することとをさらに含む。

データクリーニング機械学習モデルは、第２及び第３の時系列データに基づいて、上記で説明したようにトレーニングされてもよい。これは、例えばドメインエキスパートによる第３の時系列データの手動決定を必要とするかもしれない。

第４の時系列データは、第２の時系列データと異なっていてもよい。言い換えれば、トレーニングされたデータクリーニング機械学習モデルは、第１のトレーニングサンプルのトレーニングセット中にない新しいデータに適用されてもよい。したがって、データクリーニング機械学習モデルは、一般化されたクリーニング論理を提供する。特に、第４の時系列データは、センサから又は制御システムからのライブデータストリームであってもよい。第４の時系列データは、データクリーニング機械学習モデルによってクリーニングされてもよい、毎秒何千ものデータポイントを含んでいてもよい。

第２及び第３の時系列データが、他のアプリケーションからの生及びクリーン時系列データを含むことも可能であり、すなわち、他のアプリケーションからの生及びクリーン時系列データが、データクリーニング機械学習モデルをトレーニングするために利用されてもよい。これは、第３の時系列データのクリーンデータポイントを手動で決定するための労力を低減又は回避できる。

代替的に、別のアプリケーションからのデータクリーニング機械学習モデルが、第４の時系列データをクリーニングするために利用されてもよい。

別の例では、専用データクリーニングアルゴリズムが、第４の時系列データをクリーニングするために使用されてもよい。この専用データクリーニングアルゴリズムは、機械学習モデルに基づかなくてもよい。上記で決定されたデータクリーニング機械学習モデルが十分なデータクリーニング性能を提供しないときに、これは必要とされてもよい。

別の例では、コンピュータ実装方法は、自動ラベル付けのために機械学習モデルをトレーニングするためのラベルの第１のセットを取得することをさらに含む。さらに、１つ以上のデータソースが取得され、特徴の第１のセットが１つ以上のデータソースから抽出される。次いで、自動ラベリングのための機械学習モデルは、複数の第２のトレーニングサンプルを使用してトレーニングされてもよく、第２のトレーニングサンプルは、ラベルの第１のセットからのラベルと、特徴の第１のセットからの１つ以上の特徴とを含む。

ラベルの第１のセットのラベルは、タイムスタンプを有してもよい。これらのラベルは、分類プロセスにおいてクラスラベルとして使用されてもよい。ラベルの第１のセットのラベルは、手動で決定されてもよい。

データソースは、非構造化、半構造化、又は表形式のデータソースであってもよい。典型的な例は、アラーム及びイベントデータ、シフトブックエントリ、ならびにコンピュータ化された保守管理システム（CMMS）におけるエントリである。

１つ以上のデータソースから抽出された特徴は、典型的な自然言語処理特徴（たとえば、バッグオブワーズ（bag-of-words）、認識された固有表現）だけでなく、感情分析又はテキスト分類、統計的数値（アラームレート、#オペレータ動作）、実験室からの品質テスト、又は（CMMSからの）特定のプラントエリア内の資産に関する障害注記も含むことができる。検査室からの品質テストは、ブール値（例えば、仕様内対仕様外）又は数値もしくはカテゴリ品質インジケータであってもよい。

データソース内のエントリは、関係付けられたタイムスタンプを有してもよく、又はこれらのエントリは、時間情報（例えば、シフトブックエントリで言及される時間）を備えてもよい。これは、プロセス値をラベル付けするための時間範囲を抽出するために利用されてもよい。これらのデータソースに関する１つの課題は、それらのタイムスタンプがプロセス値のタイムスタンプと正確に一致しない場合があることである。この問題は、時間ウィンドウにわたる確率でラベルを割り当てることによって解決することができる。ここで、プロセス値は、第１の時系列データのデータポイントであってもよい。しかしながら、産業資産の状態インジケータなどの第１の機械学習問題の特徴にも、それらが導出されるプロセス値と同じラベルが割り当てられてもよい。

自動ラベル付けのための機械学習モデルは、ベイズネットワークなどの確率的ネットワーク／モデルであってもよい。したがって、特徴の第１のセットの特徴は、特徴及び対象のラベル（例えば、正常対異常動作）にわたる同時確率分布を説明する、確率モデルへの入力として使用されてもよい。

各確率モデルについて、データソースからのどのドキュメント又はエントリが確率モデルへの入力を生成するために使用されるか、及び時間ウィンドウ（t_start、t_end）が出力ラベルについてどのように生成されるかが定義されてもよい。例えば、確率モデルは、t_startからt_end=t_start＋4hまでの4時間（4h）ウィンドウについてラベルを生成してもよい。それによって、例えば、t_startとt_endとの間のアラーム及びイベントが使用されてもよい。追加的又は代替的に、例えば、（1シフトにほぼ対応する）t_startとt_start+8hとの間のシフトブックエントリが使用されてもよく、又はt_startからシフトの終了までのシフトブックエントリが使用されてもよい。追加又は代替として、たとえば、t_start-12hとt_start+12hとの間のCMMSデータが使用されてもよい。

自動ラベリングのための機械学習モデルによって生成されるラベルの概念は、ラベルがt_startとt_endとの間の時間ウィンドウ全体の間におそらく存在するということではなく、ラベルがt_startとt_endとの間の少なくともある時間の間におそらく存在するということであってもよい。

自動ラベル付けのために機械学習モデルをトレーニングした後、モデルは、シフトブック、アラームリスト、イベントリスト、及び／又はCMMS内の対応するデータに基づいて、これまでラベル付けされていない時間ウィンドウをラベル付けするために使用されてもよい。

別の例では、コンピュータ実装方法は、１つ以上のデータソースから特徴の第２のセットを抽出することと、自動ラベル付けのための機械学習モデルを特徴の第２のセットからの特徴に適用することによってラベルの第２のセットを決定することとをさらに含む。

特徴の第２のセットは、特徴の第１のセットと比較して、データソースの後のエントリから抽出されてもよい。重複が存在することも可能であり、したがって、データソースのいくつかのエントリは、特徴の第１及び第２のセットの両方の特徴を抽出するために使用されてもよい。

特徴の第２のセットからの特徴が与えられると、ラベル値の確率は、自動ラベル付けのための機械学習モデルによって推論されてもよい。したがって、ラベルの第２のセットのタイムスタンプの押されたラベルは、最大確率を有するラベル値を選択することによって決定されてもよい。これは、ラベルの第２のセットからのラベルで履歴プロセスをラベル付けするために利用されてもよい。

別の例では、単一のラベルの代わりに複数のラベルをプロセス値に割り当てることができる。それに加えて、複数の確率的モデルなどの複数の機械学習モデルが使用されてもよい。例えば、データソースごとに１つの確率モデルを使用することができる。さらに、実際の産業監視及び制御タスクの実装のためのアルゴリズムが使用されてもよく、これは、一貫性のないクラスラベルを取り扱うように構成されてもよい。

別の例では、第１の機械学習モデルは、複数の第３のトレーニングサンプルを使用してトレーニングされ、第３のトレーニングサンプルは、ラベルの第１又は第２のセットからのラベル及び／又は産業資産の状態インジケータを含む。

より具体的には、第１の機械学習モデルのトレーニングのために、ラベルの第１及び／又は第２のセットのラベルが、第１の機械学習モデルの所望の出力値として利用されてもよい。さらに、産業資産の状態インジケータは、第１の機械学習モデルの入力値として利用されてもよい。

本開示によれば、データ処理システムも提示される。データ処理システムは、本発明による方法のいずれかのステップを実行するように構成される。

データ処理システムは、とりわけ、第１、第２、第３、及び／又は第４の時系列データを記憶するための記憶媒体を備えてもよい。データ処理システムは、１つ以上のプロセッサコアを有するマイクロプロセッサなどのプロセッサをさらに備えることができる。加えて、データ処理システムは、第１の機械学習モデル、データクリーニングのための機械学習モデル、及び／又は自動ラベリングのための機械学習モデルを効率的にトレーニングするために使用されてもよい、グラフィックス処理ユニットを備えてもよい。データ処理システムはまた、LAN、WLAN、又はセルラ通信モデムなどの通信手段を備えてもよい。データ処理システムは、通信手段を介して産業資産のセンサに、又は産業プロセスもしくはプラントの制御システムに接続されてもよい。データ処理システムは、１つ以上のサーバにさらに接続されてもよく、１つ以上のサーバは、トレーニングサンプルを記憶してもよく、又は第１の機械学習モデル、データクリーニングのための機械学習モデル、及び／又は自動ラベリングのための機械学習モデルのトレーニングなどのコンピュータ実装方法の１つ以上のステップを実行してもよい。さらに、データ処理システムは、スクリーンなどの周辺機器を備えてもよい。

本開示によれば、コンピュータプログラムも提示され、コンピュータプログラムは、コンピュータプログラムがデータ処理システム上で実行されるときに、独立請求項に記載のデータ処理システムに、本発明による方法のいずれか１つを実行させる命令を含む。

本開示によれば、コンピュータ読取可能媒体も提示され、コンピュータ読取可能媒体は、独立請求項において定義されるコンピュータプログラムを記憶する。

機械学習のためのコンピュータ実装方法、方法のステップを実行するように構成されたデータ処理システム、データ処理システムに方法を実行させるためのコンピュータプログラム、及びそのようなコンピュータプログラムを記憶したコンピュータ読取可能媒体は、特に、従属請求項において定義されるような、類似及び／又は同一の好ましい実施形態を有することを理解されたい。さらに、本発明の好ましい実施形態は、従属請求項とそれぞれの独立請求項との任意の組合せであってもよいことを理解されたい。

本発明のこれら及び他の態様が、以下に記載される実施形態から明らかになり、それらの実施形態を参照して明瞭にされるだろう。

本発明の例示的な実施形態が、添付の図面を参照しながら以下で説明される。
図１は、産業機械学習アプリケーションの開発を自動化するための方法を図示する。図２は、産業資産からオンラインで受信した生データに対する自動化されたデータクリーニングを達成するために、データクリーニングモデルをトレーニング及び適用するための方法を図示する。図３は、自動ラベリングのための機械学習モデルを適用することによって、ラベルを自動的に決定するための方法を示す。図４は、自動ラベリングのための機械学習モデルをトレーニングするための方法を図示する。図５は、時系列データに対してプロセスマイニングを実行する方法を図示する。図６は、シナリオ選択からモデルエクスポートまでのワークフローを図示する。図７は、異常及びプロセスフェーズ検出のための教師なしモデルを生成するプロセスを図示する。

図１は、産業機械学習アプリケーションの開発を自動化するための、特に予知保全、プロセス監視、イベント予測、又は根本原因分析のための方法１００を示す。

ステップＳ１０において、自動データクリーニングアルゴリズムが履歴データに適用される。それに対して、データクリーニングのための機械学習モデルが適用されてもよい。ステップＳ１１において、ラベルが決定され、これは、自動ラベル付けのための機械学習モデルによって実行されてもよい。最後の前処理ステップであるステップＳ１２では、特徴量エンジニアリングがプロセスマイニングによって実行される。ステップＳ１３では、機械学習モデルの従来のトレーニングが実行される。この機械学習モデルは、予知保全、プロセス監視、イベント予測、又は根本原因分析などのアプリケーションのために構成されてもよい。トレーニングデータは、ステップＳ１１において決定されたラベル及びステップＳ１２において決定された特徴を含んでもよく、又はそれらに基づいてもよい。

ステップＳ１４において、自動機械学習オーケストレーションが、ステップＳ１０からＳ１２に対して実行される。このプロセスは反復的であり、ステップＳ１３から取得された機械学習モデルの測定された性能に応じて、ステップＳ１０からＳ１２のうちの１つ以上を再訪してもよい。いくつかの実施形態では、ステップＳ１０からＳ１２のうちの１つ以上は、少なくとも部分的に、たとえば初期データクリーニングを手動で実行することができる。機械学習オーケストレーションも手動で実行されてもよい。ステップＳ１０からＳ１２のうちの１つ以上及びＳ１４、例えば、自動化されたデータラベリング又は特徴量エンジニアリングステップがスキップされることも可能である。

機械学習オーケストレーションアルゴリズムの反復が終了するとき、ステップＳ１５からＳ１７によって図示されるように、ステップＳ１０の最終データクリーニングアルゴリズム、ステップＳ１２の最終特徴前処理アルゴリズム、及びステップＳ１３の最終機械学習モデルが、新しいデータへの適用のために提供されてもよい。

ステップＳ１５において、最終データクリーニングアルゴリズムは、産業設備からのライブデータストリームに適用される。ステップＳ１６において、最終特徴決定アルゴリズムが、ステップＳ１５から取得されたクリーニングされたデータに適用される。ステップＳ１７において、トレーニングされた機械学習モデルが、ステップＳ１６で決定された特徴に適用される。

データクリーニング、ラベリング及び特徴量エンジニアリングステップＳ１０、Ｓ１１及びＳ１２の順序は、それぞれ、異なる実施形態において変更されてもよい。

図２は、産業資産からオンラインで受信した生データに対する自動化されたデータクリーニングを達成するために、データクリーニングモデルをトレーニング及び適用するための方法２００を示す。

ステップＳ２０において、産業資産からの生データが受信され、クリーニングされる。それによって、受信された生の時系列データ内の生データポイントは、クリーン時系列データ内のクリーンデータポイント上にマッピングされてもよい。生データポイントからクリーンデータポイントへのマッピングは、少なくとも部分的に、例えば機械学習エキスパートによって手動で実行されてもよい。受信した生データのクリーニングは、欠損値を処理することを含んでもよい。例えば、欠損値は、先行するデータポイントと後続のデータポイントとの平均に設定されてもよい。さらに、受信した生データのクリーニングは、ノイズを除去することを含んでいてもよい。例えば、ノイズを除去することは、閾値より小さいデータポイントを０に設定することによって達成されてもよい。さらに、受信した生データのクリーニングは、外れ値の除去を含むことができる。

ステップＳ２１において、クリーニングされたデータポイントは、データクリーニングのための機械学習モデルをトレーニングするためのラベルとして使用されてもよい。生データの完全なセットは、リグレッサとして利用可能である。また、測定値又は他のタイプの測定値（温度、レベル、圧力）の間のトポロジカルコネクションなどのメタデータを使用して、生データの完全なセットのサブセットを、クリーニングされたデータポイントに対するリグレッサとして選択することも可能である。したがって、データクリーニングのために機械学習モデルをトレーニングするためのトレーニングサンプルは、クリーニングされたデータポイントと、生データセットのデータポイントのサブセットとを含んでいてもよい。データクリーニングのための機械学習モデルは、対応するトレーニングサンプル中の生データポイントのサブセットからクリーニングされたデータポイントの値を予測するようにトレーニングされてもよい。このモデルのトレーニングは、手動調整を用いた従来の方法で行われてもよく、又はハイパーパラメータ調整のような概念を用いて自動化されてもよい。出力は、複数の生データポイントに基づいてクリーニングされたデータポイントを生成することができる機械学習モデル又はいくつかの機械学習モデルであってもよい。

ステップＳ２２において、ステップＳ２１から取得されたデータクリーニングのための機械学習モデルは、産業プロセスからのデータストリームに、すなわち、時系列データに適用され、生オンラインデータをクリーニングし、それを後続の監視及び／又は制御モデルのための入力として適切にすることができる。監視及び／又は制御モデルの出力は、ヒューマンマシンインターフェース（ＨＭＩ）上に表示されてもよい。追加的又は代替的に、監視モデル及び／又は制御モデルの出力は、例えばモデル予測コントローラにおけるモデルとして使用されるときに、技術システムに対するいくつかの動作をトリガしてもよい。

データクリーニングのための十分な数のトレーニングサンプルが他のアプリケーションからすでに利用可能であるとき、ステップＳ２０はスキップされてもよい。次いで、これらの他のアプリケーションからのトレーニングサンプルは、データクリーニングのために機械学習モデルをトレーニングするために利用されてもよい。この場合、トレーニングデータを決定するための人間の労力はもはや必要とされない。

代替的に、データクリーニングのための機械学習モデルは、他のアプリケーションから取得されてもよい。

一実施形態では、データクリーニングのための十分な数のトレーニングサンプル又はデータクリーニングのための機械学習モデルが他のアプリケーションから利用可能であるかもしれないとしても、データクリーニングのための改善された機械学習モデルのトレーニングが実行されてもよい。これは、アクティブ学習プロセスにおける追加の生データポイントのラベル付け（クリーンデータポイントを指定する）を伴ってもよい。アクティブ学習プロセスは、トレーニングプロセスのためのさらなる情報を提供するために、機械学習開発者又はドメインエキスパートからラベルを選択的に要求してもよい。

別の実施形態では、ハイパーパラメータ最適化及び他のAutoML技術が、データクリーニング論理を学習するための最良の可能なハイパーパラメータ設定及び機械学習モデルアーキテクチャを見つけるために、トレーニングプロセスにおいて使用される。

図３は、タイムスタンプを有する非構造化、半構造化、又は表形式のデータソースを使用してラベルを自動的に決定するための方法３００を示す。例示的なデータソースは、アラーム及び／又はイベントリスト、シフトブック、又はCMMSである。

ステップＳ３０において、異なるデータソースのデータエントリから特徴が抽出される。
例えば、ステップＳ３０ａにおいて、特徴は、シフトブックのデータエントリから抽出されてもよい。ステップＳ３０ｂにおいて、特徴は、アラーム及び／又はイベントリストのデータエントリから抽出されてもよい。ステップＳ３０ｃにおいて、特徴は、CMMS内のデータエントリから抽出されてもよい。抽出される特徴は、典型的な自然言語処理特徴（例えば、バッグオブワーズ、認識された固有表現）だけでなく、感情分析又はテキスト分類、統計的数値（アラームレート、#オペレータ動作）、実験室からの品質テスト、又は（CMMSからの）特定のプラントエリア内の資産に対する障害注記であってもよい。

データソースのエントリは、関係付けられたタイムスタンプを有してもよく、又は時間情報を含んでいてもよい。データソース内のエントリに関係付けられたタイムスタンプ又はエントリ自体内の時間情報（例えば、シフトブックに記載された時間）から、プロセス値にラベル付けするための時間範囲を抽出することができる。シフトブック、アラーム及び／又はイベントリスト、ならびにCMMSなどのデータソースに関する１つの課題は、それらのタイムスタンプをプロセス値のタイムスタンプに正確にマッピングすることができないことである。この問題は、例えば、時間ウィンドウにわたる確率でラベルを割り当てることによって対処することができる。

ステップＳ３１において、抽出された特徴は、確率モデル、例えば、ベイズネットワーク、への入力として使用され、これは、特徴及び対象のラベルにわたる同時確率分布を記述することができる。例えば、対象のラベルは、異常又は正常動作を示すことができる。特徴が与えられると、ラベル値の確率を推測することができ、最大確率を有するラベルを選択することによってタイムスタンプの押されたラベルを作成することができる。

ステップＳ３２において、ステップＳ３１で決定されたラベルは、例えば、プロセス値に、すなわち、時系列データのデータポイントに、又は産業資産の状態インジケータなどの１つ以上のプロセス値から導出された量に割り当てられる。図１のステップＳ１２において決定された特徴とともに、決定されたラベルは、図１のステップＳ１４の機械学習モデルをトレーニングするためのトレーニングサンプルを形成してもよい。

各確率モデルについて、データソースからのどのドキュメント又はエントリが確率モデルへの入力を生成するために使用されるか、及び時間ウィンドウ（t_start、t_end）が出力ラベルについてどのように生成されるかが定義される。

例示的な一実施形態では、確率モデルは、t_startとt_endとの間のアラーム及びイベント、t_startからt_start＋8時間（1シフトにほぼ対応する）又はt_startからシフトの終了までのシフトブックエントリ、及びt_start－12時間とt_end＋12時間との間のCMMSエントリを使用して、4時間ウィンドウ（t_start=t、t_end=t_start＋4時間）のラベルを生成することができる。

生成されたラベルの概念は、ラベルがt_startとt_endとの間の時間ウィンドウ全体の間におそらく存在するということではなく、生成されたラベルがt_startとt_endとの間の少なくともある時間の間におそらく存在するということであってもよい。

図４は、自動ラベリングのための機械学習モデルをトレーニングするための方法４００を示す。ステップＳ４０において、特徴は、異なるデータソースのデータエントリから抽出される。例えば、ステップＳ４０ａにおいて、特徴は、シフトブックのデータエントリから抽出されてもよい。ステップＳ４０ｂにおいて、特徴は、アラーム及び／又はイベントリストのデータエントリから抽出されてもよい。ステップＳ４０ｃにおいて、特徴は、CMMS内のデータエントリから抽出されてもよい。特徴を抽出するためのシフトブック、アラーム／イベントリスト、及びCMMS内のデータエントリの処理は、ステップＳ３０ａからＳ３０ｃの処理と同様又は同一であってもよい。

ステップＳ４１において、自動ラベリングのための機械学習モデルがトレーニングされる。自動ラベリングのための機械学習モデルは、ベイズネットワークなどの確率モデルであってもよい。自動ラベリングのための機械学習モデルをトレーニングするために、タイムスタンプの押されたラベルが、分類プロセスにおいてクラスラベルとして使用される。

トレーニングされた確率モデルは、ステップＳ１１及びＳ３１において、シフトブック、アラーム／イベントリスト、及び／又はCMMS内のデータエントリに基づいて、これまでラベル付けされていない時間ウィンドウに対するラベルを決定するために使用されてもよい。

一実施形態では、単一のラベルの代わりに、複数のラベルが各時間ウィンドウ及び／又はプロセス値について決定されてもよい。それに加えて、いくつかの確率モデルを使用することができ、場合によっては、データソース当たり１つの確率モデル、又は複数の機械学習モデルを使用することさえできる。この場合、一貫性のないクラスラベルを扱うことができる、実際の産業監視及び／又は制御タスクの実装のためのアルゴリズムが使用されてもよい。

図５は、時系列データに対してプロセスマイニングを実行するための方法５００を示し、これは、特徴量エンジニアリングのために、特に、産業資産のための条件ベースの監視又は予知保全のための機械学習モデルのために利用されてもよい。

プロセスマイニングは、適合性分析を実行する能力を提供する。そのような適合性レポートは、産業資産のための状態インジケータに定量化されてもよい。例えば、異なるタイプの適合性及び閾値が使用及び／又は最適化されてもよい。これらの状態インジケータを周期的に（例えば、毎秒、毎分、毎時、又は毎日）計算することによって、これらのメトリックは、異常挙動を発見するために比較されることができる。

例えば、制御システムからのアラーム及び／もしくはイベントデータ、ならびに／又はモータなどの産業資産のセンサデータは、その状態を監視するため、ならびにその挙動を予測するために、プロセスマイニングを用いて活用されてもよい。このアプローチは、使用されるセンサ又は制御システムにとらわれず、すなわち、データが経時的に収集されると資産の正常動作が推測されるので、他の産業資産及び制御システムに（たとえばロボットデータに）別々に適用されてもよい。言い換えれば、経時的な劣化などの異常を検出するために明示的な情報又は作業モデルが必要とされない。

異常をドメインエキスパートに報告すると、異常として新しいデータを検出するための説明を、状態インジケータとして容易に提供することができるとともに、実際の履歴イベントログをすべて容易に取り出すことができる。

実際、このような方法は、状態ベースの監視に限定される必要はない。より多くのデータが収集され、プロセスマイニングのために使用されると、履歴データのこの収集は、将来の状態インジケータ及び他の統計（例えば、異なるイベントの発生頻度）の予測を行うように機械学習モデルをトレーニングするために連続的に使用されることができる。例えば、バッチプロセスの場合、リアルタイムバッチデータを入力として取ることによって、プロセスがどのように進化し続けるかを予測することができる。

図５のステップＳ５０において、時系列データが取得される。この時系列は、モータもしくはロボットなどの産業資産のセンサからの、または産業プロセスもしくはプラントのための分散もしくは集中制御システムなどの制御システムからの生の時系列であってもよい。あるいは、時系列は、センサから又は制御システムからの処理された時系列であってもよい。例えば、センサから又は制御システムからのクリーニングされた時系列が取得されてもよい。

ステップＳ５１では、取得した時系列データを、例えば、記号集合近似（ＳＡＸ）や人工知能技術を使用して符号化する。それによって、時系列データは、生の低レベルイベントログ、すなわち、離散的な生の低レベルイベントのセットに変換される。

オプションのステップＳ５２において、関連イベントは、生の低レベルイベントログから抽出されてもよい。追加又は代替として、生の低レベルイベントログに対して抽象化が実行されてもよい。これは、生の低レベルイベントログに対して集約又はフィルタを実行することを含んでいてもよい。例えば、生の低レベルイベントログのフィルタリングは、ノイズを除去するために実行されてもよい。これは、閾値未満の値を０に設定することによって達成されてもよい。ステップＳ５２は、低レベルイベントログを提供する。

ステップＳ５３において、プロセスマイニングが低レベルイベントログに適用されて、適合性分析及び／又はボトルネック識別を提供する。特に、バッチプロセスにおけるボトルネック及び／又は標準的な操作手順からの逸脱が発見されるかもしれない。

ステップＳ５３のプロセスマイニングにより、対象のケースに絞って調査することができる。これらの対象のケースについて、ステップＳ５４において、さらなるデータ分析が実行されてもよい。これは、通常のワークフローから逸脱した、プロセスをより詳細に調べることにより、その時点におけるオペレータの作業負荷などのコンテキスト情報を考慮に入れることを可能にする。その結果、プロセス効率及び安全性を改善するために、例えば、オペレータにトレーニングを提供すること、標準的な操作手順を適合させることなどによって、異なる動作をとることができる。

プロセスマイニングをどのように適用できるかについての１つの単純な例は、アラームに対する反応である。異なる優先度のアラームがあってもよい。アラームの起動後、オペレータの肯定応答が期待されてもよい。さらに、アラーム優先度に応じて、オペレータの動作は、制限時間内に予期されてもよく、制限時間は、アラームの優先度に依存してもよい。大きな偏差が検出された場合、例えば、優先度１のアラームに対する反応がアラームの５分後よりも後に発生したとき、これを使用して、アラームを再優先順位付けするか、又はより速く行動するようにオペレータを再トレーニングすることができる。正常への迅速な復帰を伴うこれらの動作シーケンスは、アラームに対する標準応答となるはずである。言い換えれば、動作シーケンスは、正常に戻るための最短時間のために最適化されてもよい。

図６は、シナリオ選択からモデルエクスポートまでのワークフロー６００を示す。

ステップＳ６０において、シナリオが選択される。

ステップＳ６１において、データが提供される。

ステップＳ６２において、AutoMLを用いて機械学習モデルを決定する。これは、AutoMLによる教師なし機械学習モデルの決定（ステップＳ６２ａ）、AutoMLによる教師あり機械学習モデルの決定（ステップＳ６２ｂ）、及びモデルマネージャによる自動機械学習オーケストレーション（ステップＳ６２ｃ）を含んでいてもよい。

生のプロセス／時系列データから開始して、本方法は２つの問題クラス：異常検出及び時系列データの位相へのセグメント化をターゲットとする。両方の問題に対して、教師なし機械学習モデルのアンサンブルを実行して、両方のタスクに対する最良の教師なし機械学習モデルを見つける。これらの結果に加えて、順次パターンマイニングを適用して、例えば根本原因分析を支援することができる相関ルールを導出することができる。相関ルールは、例えば、特定の異常が発生する傾向がある状況、又はプロセスの生産性が損なわれる状況（例えば、「フェーズＡが１５分未満であったときの９０％において、異常が後続のフェーズで発生した」）を識別するのに役立つことができる。

ステップＳ６３において、レポートが生成される。時系列のフェーズへのセグメント化、時系列データ内の異常、及びマイニングされたルール／パターンのリストなど、多数の結果をユーザに提示することができる。全ての結果に対する信頼閾値は、機械学習モデルが高度に信頼できるそれらの結果のみが表示されるように、ユーザによって選択されてもよい。

次いで、ユーザは、生産的使用のために、例えば、監視若しくはトラブルシューティングのために機械学習モデルをエクスポートする（ステップＳ６４）か、又は結果、すなわち、検出された異常に関する真／偽（もしくはより詳細なラベル）、検出された位相に関するより高い／より低い粒度（及び任意選択でラベル）へのフィードバックを提供する（ステップＳ６５）ことができる。フィードバックに基づいて、教師なし機械学習モデルが改善されるか、又は教師あり機械学習モデルがAutoMLを用いて作成され（ステップＳ６２ｂ）、教師なし機械学習モデル及びユーザフィードバックの結果がラベルを生成するために使用される。プロセスは、ユーザがエクスポートのための機械学習モデルを受け入れるまで繰り返されてもよい。これは、教師あり又は教師なし機械学習モデルのいずれかであることがある。

図７は、異常及びプロセスフェーズ検出のための教師なし機械学習モデルを生成するプロセス７００を図示する。したがって、図７のプロセスは、時系列セグメンテーション及び／又は異常検出のために使用されてもよい。さらに、セグメントに関する相関ルール又は異常に関する相関ルールを導出することができる。

ステップＳ７０では、例えば記号集合近似又は動的時間伸縮を使用してデータ（前処理）処理が実行される。

ステップＳ７１において、クラスタマイニングが、任意選択でアンサンブル学習を介して実行される。

ステップＳ７２において、モデル及びデータ安定性チェックが実行される。

本発明の実施形態は、異なる主題事項を参照して説明されることに留意されたい。しかしながら、当業者であれば、上記及び以下の説明から、別段の通知がない限り、１つのタイプの主題に属する特徴の任意の組合せに加えて、異なる主題に関する特徴間の任意の組合せも、本出願で開示されているとみなされることを推測するであろう。しかしながら、全ての特徴を組み合わせて、特徴の単純な合計以上の相乗効果を提供することができる。

本発明について、図面及び前述の説明において詳細に例示及び説明したが、そのような例示及び説明は、例示的又は実例的なものであって限定的なものではないとみなすべきである。本発明は、開示された実施形態に限定されるものではない。開示された実施形態に対する他のバリエーションは、図面、開示、及び添付の特許請求の範囲の参酌から、請求項に記載の発明を実施するにあたり当業者が理解及び達成することができる

特許請求の範囲において、「備える」という単語は、他の要素又はステップを除外するものではなく、不定冠詞「ａ」又は「ａｎ」は、複数を除外するものではない。単一のプロセッサ又は他のユニットが、特許請求の範囲に記載されるいくつかのアイテムの機能を果たすことができる。ある特定の手段が相互に異なる従属請求項に記載されているという単なる事実は、これらの手段の組合せが有利に使用できないことを示すものではない。
特許請求の範囲におけるいずれの参照符号も、範囲を限定するものとして解釈されるべきではない。

Claims

機械学習のためのコンピュータ実装方法（１００）であって、
産業資産のセンサから、又は産業プロセスもしくはプラントのための制御システムから、第１の時系列データを取得すること（Ｓ１２、Ｓ１６、Ｓ５０）と、
イベントログを取得するために、前記第１の時系列データを処理すること（Ｓ１２、Ｓ１６、Ｓ５１、Ｓ５２）と、
適合性分析及び／又はボトルネック識別を提供するために、プロセスマイニングを前記イベントログに適用すること（Ｓ１２、Ｓ１６、Ｓ５３）とを含む、コンピュータ実装方法（１００）。
前記適合性分析及び／又はボトルネック識別に基づいて、前記産業資産の状態インジケータを決定することをさらに含む、請求項１に記載のコンピュータ実装方法（１００）。
プロセス偏差を決定し、潜在的な改善を決定し、条件ベースの監視を実行し、予知保全を実行し、及び／又はバッチプロセスがどのように進化するかを予測するために、第１の機械学習モデルをトレーニング（Ｓ１３）及び／又は適用（Ｓ１７）することをさらに含み、前記第１の機械学習モデルへの入力パラメータは、前記適合性分析及び／又はボトルネック識別に基づく、請求項１又は２に記載のコンピュータ実装方法（１００）。
前記イベントログを取得するために前記第１の時系列データを処理することは、記号集合近似又は人工知能技術を適用することによって前記第１の時系列データを符号化すること（Ｓ１２、Ｓ１６、Ｓ５１）を含む、請求項１から３のいずれか一項に記載のコンピュータ実装方法（１００）。
前記イベントログを取得するために前記第１の時系列データを処理することは、前記符号化された第１の時系列データに対して抽象化を実行すること（Ｓ１２、Ｓ１６、Ｓ５２）をさらに含む、請求項４に記載のコンピュータ実装方法（１００）。
前記符号化された第１の時系列データに対して実行される前記抽象化は、データ集約及び／又はノイズ抑制フィルタを含む、請求項５に記載のコンピュータ実装方法（１００）。
第２の時系列データを取得することと、
第３の時系列データを取得するために、前記第２の時系列データをクリーニングすること（Ｓ１０、Ｓ２０）と、
複数の第１のトレーニングサンプルを使用して、データクリーニング機械学習モデルをトレーニングすること（Ｓ１０、Ｓ２１）とをさらに含み、
第１のトレーニングサンプルは、前記第３の時系列データからのクリーンデータポイントと、前記第２の時系列データからの複数の生データポイントとを含む、請求項１から６のいずれか一項に記載のコンピュータ実装方法（１００）。
前記第２の時系列データをクリーニングすることは、欠損値を処理すること、ノイズを除去すること、及び／又は外れ値を除去することを含む、請求項７に記載のコンピュータ実装方法（１００）。
前記センサから又は前記制御システムから第４の時系列データを取得することと、
前記第１の時系列データを取得するために、データクリーニング機械学習モデルを前記第４の時系列データに適用すること（Ｓ１０、Ｓ１５、Ｓ２２）とをさらに含む、請求項１から８のいずれか一項に記載のコンピュータ実装方法（１００）。
自動ラベリングのための機械学習モデルをトレーニングするためのラベルの第１のセットを取得することと、
１つ以上のデータソースを取得することと、
前記１つ以上のデータソースから特徴の第１のセットを抽出すること（Ｓ１１、Ｓ４０）と、
複数の第２のトレーニングサンプルを使用して、自動ラベリングのための機械学習モデルをトレーニングすること（Ｓ１１、Ｓ４１）とをさらに含み、
第２のトレーニングサンプルは、前記ラベルの第１のセットからのラベルと、前記特徴の第１のセットからの１つ以上の特徴とを含む、請求項１から９のいずれか一項に記載のコンピュータ実装方法（１００）。
前記１つ以上のデータソースは、シフトブック、アラームリスト、イベントリスト、及び／又はコンピュータ化された保守管理システムからのデータソースのうちの少なくとも１つを含み、及び／又は、
前記自動ラベリングのための機械学習モデルは、確率モデルである、請求項１０に記載のコンピュータ実装方法（１００）。
前記１つ以上のデータソースから特徴の第２のセットを抽出すること（Ｓ１１、Ｓ３０）と、
ラベルの第２のセットを取得するために、前記自動ラベリングのための機械学習モデルを前記特徴の第２のセットからの特徴に適用すること（Ｓ１１、Ｓ３１）とをさらに含む、請求項１０又は１１に記載のコンピュータ実装方法（１００）。
前記第１の機械学習モデルは、複数の第３のトレーニングサンプルを使用してトレーニングされ、
第３のトレーニングサンプルは、ラベルの前記第１のセットもしくは第２のセットからのラベル、及び／又は前記産業資産の前記状態インジケータを含む、請求項２、３および１２に記載のコンピュータ実装方法（１００）。
請求項１から１３のいずれか一項に記載の方法のステップを実行するための手段を備えるデータ処理システム。
命令を含むコンピュータプログラムであって、前記プログラムがコンピュータによって実行されるとき、前記コンピュータに、請求項１から１３のうちのいずれか一項に記載の方法のステップを実行させる、コンピュータプログラム。
命令を含むコンピュータ読取可能媒体であって、コンピュータによって実行されるとき、前記コンピュータに、請求項１から１３のいずれか一項に記載の方法のステップを実行させる、コンピュータ読取可能媒体。