JP6807649B2

JP6807649B2 - 論理パターンの検索及び取得の方法、システム、及び非一時的コンピュータ可読媒体

Info

Publication number: JP6807649B2
Application number: JP2016054809A
Authority: JP
Inventors: エテシャムハッサン、; モヒトヤダブ、; プニートアガルワール、; ガウタムシロフ、; アシュウィンスリニバサン、
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2015-06-19
Filing date: 2016-03-18
Publication date: 2021-01-06
Anticipated expiration: 2036-03-18
Also published as: EP3107036A1; CA2923908A1; CA2923908C; US9996617B2; MX2016003370A; MX364165B; US20160371376A1; AU2016201689A1; AU2016201689B2; BR102016005928A2; JP2017010523A

Description

ここの実施形態は一般に論理パターンの検索に関し、詳しくは、工業インターネットから入手できる多種多様なデータを含む大量の論理パターンの検索に関する。

関連出願の相互参照及び優先権
本願は、２０１５年６月１９日出願のインド国特許出願第２３５１／ＭＵＭ／２０１５号の優先件を主張する。その全体がここに、参照として組み入れられる。

今日の自動化は、簡単なスイッチから数十万の部品を含む複雑なシステムに至る範囲の機械類の挙動に関する大量のデータをもたらす多数のセンサによる広汎な計装を特徴とする。展開された無数のセンサからのデータの量及び多様性は、当該機械が動作する環境の良好な理解に役立つ潜在性を有する。かかるデータを使用して作業をするエンジニア及び技術者が「ハードストップ」、「レーン変更」、「エンジン過負荷」等のような特定事象を探すことが不可欠となっている。各パターンは通常、多数のセンサにわたる一組の論理パターンの同時発生によって表現することができる。例えば、ハードストップは、短い時間的広がり内においてブレーキ圧力の増加とともに速度が急下降することである。かかるパターンの特定的な発生は、特定されたシーケンスでの各下降又は上昇の正確な性質と同様、実際の持続時間もそれぞれ異なる。したがって、正確に近い波形一致による伝統的な技術は、多くの事例を見逃すことになる。

関心事象はしばしば、同時に発生する多数センサの一組のパターンを特徴とする。さらに、あらゆる事象発生の持続時間が一定というわけではない。例えば、車両運転者が常に、固定された持続時間に毎回急ブレーキをかけるわけではない。また、事象の持続時間は、当該事象に関与するセンサごとに異なるように観測される。例えば、車両において急ブレーキをかける場合、ブレーキセンサにおけるパターンは、速度センサにおけるパターンよりも長い持続時間を有する。問題が複雑となるのは、複数のパターンが、各センサに対して必ずしも同じ時間窓で発生するわけではないことによる。例えば、速度センサにおける「急ブレーキ」パターンの開始とブレーキセンサとの間にはわずかな時間間隔が存在し得る。センサの読みにおける欠損値がさらに事態を複雑にするので、多センサのパターン検索が困難となる。

関心事象は、ドメインの知識に基づく場合が多い。しかしながら、この場合、大量のセンサデータにおいて事象に注釈を付ける著しい手作業が必要となる。実際のところ、そのような事象は、センサ値において観測されるハードコード化条件を検索することによってプログラム検出される。例えば、事象は、「センサ−１が時刻ｔ１においてｓ１よりも高くかつセンサ−２の派生値が持続時間ｔ２にわたってｄ２よりも大きい」との状態を探索するハードコード化規則に翻訳される。現実的な課題ゆえに、そのようなハードコード化規則は、非効率的なだけでなく実装困難な場合が多い。時系列事象検出の代替技術は、機械学習技術を使用することであるが、当該方法は大抵、すでに全時系列から抽出されている時系列サブシーケンス上で動作する。しかしながら、業界周知の当該方法は、ばらつく事象持続時間、センサごとのパターン発生の時間的不整合、及び同じ事象への応答のばらつきを含むがこれらに限られない課題によって悩まされる。また、業界周知の方法は、関心事象に対応し得るすべての事例よりもむしろ、特定のパターンとの一致を見出す。

多くの先行技術はまた、時系列における事象特定のための教師付きクラス分けに焦点を当ててきた。データ組から時間パターンを発見するべく教師付きの方法と教師なしの方法との組み合わせも使用され、当該時間パターンを、その残りから弁別することができる。しかしながら、そのような方法はすべて、クラス分け器を訓練するべく、時系列セグメントの標識化された事例を必要とする。また、当該アプローチはほとんどが、固定長の時系列セグメント上で動作する。しかしながら、当該方法もまた、当該アプローチを使用したコンピュータ集約的な検出を行うべく、全時系列に広がる多数の窓長さを探索する必要があるため、ばらつく長さ及び広がりの多数のセンサにより現実的な事象を検出することに苦戦する。

したがって、検索論理パターンの分野に関連する現行使用の方法及びシステムの上述した及び他の欠点及び限界に対処する方法及びシステムの必要性が存在する。

本開示の実施形態は、従来型システムにおいて本発明者が認識する上述の技術的問題の一以上に対し、解決策としての技術的改善を提示する。

多センサ時系列データからの論理パターン検索を可能とする方法及びシステムが記載される。大量の多センサ時系列データにおける検索及びクエリ、時系列データ要約、時系列検索用のクエリ形成、時系列格納、及びインデクス作成が、本開示のシステム及び方法によって効率及び精度を確保しながらも対処される課題の一部となる。

一側面において、多センサ時系列データから論理パターンを検索及び取得する方法が与えられる。方法は、入力モジュールによって、論理パターンを検索及び取得するべく少なくとも一つのセンサから少なくとも一つの時系列データを受信することと、前処理器によって、受信された少なくとも一つの時系列データを前処理して少なくとも一つの論理記号のシーケンスにすることと、抽出器によって、少なくとも一つの論理記号のシーケンスから論理パターンを抽出することと、オーガナイザによって、抽出された論理パターンをクラスタリングしてディスク及びメモリに格納することと、以下のこと、すなわち、パターン発生器によって、格納されたクラスタから取得予定のパターンを、前定義された検索クエリにおいて記述し、検索エンジンによって、メモリにおいてＴＲＩＥベースのインデクス構造で参照される少なくとも一つのクラスタを、検索クエリとの関連性が見出された場合にディスクから検索及び取得し、ランク付けエンジンによって、検索クエリとの関連性が見出された少なくとも一つのクラスタにおいて取得された論理パターンを、検索クエリとの関連性の度合いに基づいてランク付けし、パターン取得器によって、検索クエリに応答して検出された少なくとも一つの最高ランク付け論理パターンを取得することを反復して行うこととを含み得る。

一実施形態において、受信された少なくとも一つの時系列データを前処理するステップはさらに、受信された少なくとも一つの時系列データを複数の非重複時系列セグメントへと分割することと、各セグメントの傾きを計算することと、計算された傾きに基づいてセグメントを分類して当該分類されたセグメントの組を、サンプル点の数が等しい各グループへとグループ分けすることと、各グループのセグメントに対して平均傾きを計算することと、当該傾きを、対応する計算された平均傾き値と比較することによって、各サンプル点に増加（＋）、不変（０）及び減少（−）との注釈を付けることと、少なくとも一つの時系列データを、セグメントの平均振幅及び長さを含む値となる注釈付きサンプル点を特徴とする論理記号のシーケンスとしてクラス分けすることとを含み得る。

一実施形態において、受信された少なくとも一つの時系列データを前処理するステップよりも、ノイズを除去する平滑化のステップが先行し得る。平滑化のステップは、移動平均フィルタ、加算スムージング、バターワースフィルタ、デジタルフィルタ、カルマンフィルタ、ラプラシアンスムージング、指数平滑化、延伸格子法、ローパスフィルタ、サビツキー・ゴーレイ平滑化フィルタ、局所回帰、平滑化スプライン、Ｒａｍｅｒ−Ｄｏｕｇｌａｓ−Ｐｅｕｃｋｅｒアルゴリズム、及びコルモゴロフ・ズルベンコフィルタからなるグループから選択される少なくとも一つの技術によって行われる。

一実施形態によれば、受信された少なくとも一つの時系列データを前処理するステップはさらに、論理記号のシーケンスを、前定義されたしきい値未満のセグメント長さを有する論理記号を合併させることによってリファインするステップを含み得る。

一実施形態によれば、セグメントの値及び長さは、自由タイプ、近似タイプ及び範囲タイプのような３つの属性の少なくとも一つを含み得る。

一実施形態において、抽出された論理パターンをクラスタリングして格納するステップはさらに、Ｚ正規化を行うことによってすべてのセンサに対して共通しきい値を前定義することと、前定義されたしきい値未満の振幅偏差を有する抽出された論理パターンを拒絶することと、固定長の論理記号のあらゆる抽出された論理パターンをベクトルとして表すことと、関連インデクスか又は当該論理パターンにおける次の記号のインデクスかのいずれかに沿って、関連論理記号のタイムスタンプ、持続時間及び値に応じた同じベクトルをクラスタリングすることと、クラスタをデータベース要約としてディスクに格納することと、クラスタのメタデータをＴＲＩＥベース構造でメモリに格納することとを含み得る。

一実施形態において、格納されたクラスタから取得予定のパターンを、前定義された検索クエリにおいて記述するステップはさらに、各論理記号に対するセグメントの値及び長さに関連する少なくとも一つの属性を定義することを含み得る。

一実施形態において、少なくとも一つのクラスタを検索及び取得するステップはさらに、検索クエリに関与する各センサに対してクラスタコンテナリストを初期化することであって、クラスタコンテナリストは、実行のインデクスを格納するための第１次元と、当該実行において論理パターンが出現したタイムスタンプのインデクスを格納するための第２次元とを含むことと、検索クエリからの距離に基づいてクラスタを、各センサに対しＴＲＩＥベース構造内に分類することと、最も近接するクラスタを、各センサに対しクラスタコンテナリストへとロードすることと、以下のこと、すなわち、検索クエリによって特定された特性を満たす共通タイムスタンプを識別し、ロード予定のクラスタの全選択肢に対してヒューリスティック値を計算し、最高のヒューリスティック値を有するクラスタをロードし、前定義された終了基準が満たされたときに検索を終了させることを反復して行うこととを含み得る。

一実施形態によれば、検索クエリはテキストクエリである。

一実施形態によれば、共通タイムスタンプを識別するステップは、少なくとも一つのセンサにわたって共通タイムスタンプに対する論理パターンの発生の交点を見出すことと、クラスタコンテナリストの第１次元における交点を検出することと、クラスタコンテナリストの第２次元における交点を、第１次元の交点に対する一致が存在する事象において検出することとを含み得る。

他側面において、多センサ時系列データからの論理パターンの検索及び取得のシステムが与えられる。システムは、一以上の処理器と、通信インタフェイスデバイスと、格納のため一以上の処理器に動作可能に結合された一以上の内部データ格納デバイスと、論理パターンの検索及び取得のため、少なくとも一つのセンサから少なくとも一つの時系列データを受信するべく構成された入力モジュールと、受信された少なくとも一つの時系列データを前処理して少なくとも一つのシーケンスの論理記号にするべく構成された前処理器と、少なくとも一つのシーケンスの論理記号から論理パターンを抽出するべく構成された抽出器と、抽出された論理パターンをクラスタリングしてディスク及びメモリに格納するべく構成されたオーガナイザと、格納されたクラスタから取得予定のパターンを、前定義された検索クエリにおいて記述するべく構成されたパターン発生器と、メモリにおいてＴＲＩＥベースのインデクス構造で参照される少なくとも一つのクラスタを、検索クエリとの関連性が見出された場合にディスクから検索及び取得するべく構成された検索エンジンと、検索クエリとの関連性が見出された少なくとも一つのクラスタにおいて取得された論理パターンを、検索クエリとの関連性の度合いに基づいてランク付けするべく構成されたランク付けエンジンと、検索クエリに応答して検出された最高ランク付け論理パターンの少なくとも一つを取得するべく構成されたパターン取得器とを含む。

さらなる他側面において、中にコンピュータ可読プログラムが具体化された非一時的コンピュータ可読媒体を含むコンピュータプログラム製品が与えられる。コンピュータ可読プログラムは、コンピュータデバイス上で実行されると、入力モジュールによって、論理パターンの検索及び取得のために少なくとも一つのセンサから少なくとも一つの時系列データを受信することと、前処理器によって、受信された少なくとも一つの時系列データを前処理して少なくとも一つのシーケンスの論理記号にすることと、抽出器によって、少なくとも一つのシーケンスの論理記号から論理パターンを抽出することと、オーガナイザによって、抽出された論理パターンをクラスタリングしてディスク及びメモリに格納することと、パターン発生器によって、格納されたクラスタから取得予定のパターンを、前定義された検索クエリにおいて記述することと、検索エンジンによって、メモリにおいてＴＲＩＥベースのインデクス構造で参照される少なくとも一つのクラスタを、検索クエリとの関連性が見出された場合にディスクから検索及び取得することと、ランク付けエンジンによって、検索クエリとの関連性が見出された少なくとも一つのクラスタにおいて取得された論理パターンを、検索クエリとの関連性の度合いに基づいてランク付けすることと、パターン取得器によって、検索クエリに応答して検出された最高ランク付け論理パターンの少なくとも一つを取得することとを、コンピュータデバイスに行わせる。

理解すべきことだが、上述の一般的記載及び以下の詳細な説明は双方とも典型的かつ例示的に過ぎず、特許請求の範囲に係る本発明の制限とはならない。

ここの実施形態は、図面を参照する以下の詳細な説明から良好に理解される。

本開示の一実施形態に係る、工業インターネットから入手できる大量の多センサ時系列データから論理パターンを検索するシステムの典型的なブロック図を例示する。本開示の一実施形態に係る、本開示のシステムによって実装されたＴＲＩＥベースのインデクス構造を例示する。本開示の一実施形態に係る、図１のシステムを使用して大量の多センサ時系列データから論理パターンを検索する方法を例示する典型的なフロー図である。ハードストップ条件に対して得られた車両速度及び一次シリンダ圧力データ組による実験設定に関連する出力の例示である。荷積み条件に対してエンジンから得られたセンサデータによる実験設定に関連する出力の例示である。

当業者であれば、ここのいずれのブロック図も、本主題の原理を具体化する例示的システムの概念図を表すことがわかる。同様に、いずれのフローチャート、フロー図、状態遷移図、擬似コード等も、実質的にコンピュータ可読媒体に表されてコンピュータデバイス又は処理器によって、当該コンピュータデバイス又は処理器が明示されるか否かにかかわらず、実行される様々な処理を表すこともわかる。

ここの実施形態並びに様々な特徴及びその有利な詳細が、添付図面に例示されかつ以下の記載に詳述される非制限的な実施形態を参照して十分に説明される。ここで使用される例は、ここの実施形態が実施され得る態様の理解を容易にすること、さらには、当業者がここの実施形態を実施することが意図されるに過ぎない。したがって、当該例は、ここの実施形態の範囲を限定するものと解釈してはならない。

本開示において言及される表現「工業インターネット」は、物理的な機械類と、ネットワークに接続されたセンサ及びソフトウェアとの統合に関連する。多数のセンサからキャプチャした大量のデータは一般に、エンジン、工場装備等を含むあらゆる種類の機械に関連し、関連する機械の、様々な条件でのさらなる挙動分析と目的として送信される。センサから受信されたそのようなデータは、時系列データの形態でシステムに直接又は間接いずれかで結合され、本開示のシステムへの入力としての役割を果たす。

ここの実施形態は、工業インターネットから入手できる大量の多センサ時系列データから論理パターンを検索するシステム及び方法を与える。論理パターンを検索するシステムは、特に、パターンがばらつく事象持続時間に関連する場合、異なるセンサ間でパターンの発生時刻にシフトが存在する場合、及び異なるセンサの、同じ実事象に対する応答にばらつきが存在する場合、現実的な課題に直面する。パターンは事象を特徴付けるので、入手できる大量のデータを有効に使用可能とするには、パターンを有効に検索して関連事象を識別可能とすることが不可欠である。本開示のシステム及び方法は特に、基礎をなすシステムの挙動を特徴付ける時間パターンを発見する代わりに、論理用語で記述されるパターン発生を見出すことによって、業界のこうした問題に対処する。

説明の簡便のため、本開示のシステム及び方法の記載は、例えば車両の走行のような、典型的な機械システムの非制限的な動作セッションを参照して与えられる。理解されることだが、本開示のシステム及び方法は、探索的なデータ分析が必要とされる任意のドメインに適用性を見出し得る。論理パターンクエリに応答して取得された事例の人間の分析によって、機械学習システムを訓練するべく候補事象発生にタグ付けがされ、クラス分け器が適用されるサブシーケンスが選択される。

ここでは本開示のシステム及び方法が、本開示のシステムによって受信された２以上の時系列データを参照して以下に説明されるが、当業者であれば、一つのみの時系列データが関与する場合であっても、本開示のシステム及び方法が適用性を見出し得ることが理解できる。

ここで図面を参照する。図１は、本開示の一実施形態に係る、工業インターネットに統合されたセンサ１０から入手できる大量の多センサ時系列データから論理パターンを検索するシステム１００の、典型的なブロック図を例示する。図３は、本開示の一実施形態に係る、図１のシステムを使用して大量の多センサ時系列データから論理パターンを検索する方法３００を例示する典型的なフロー図である。本開示の方法３００のステップを、図１に描かれるシステム１００の構成要素を参照して以下に説明する。

ステップ３０２において、センサ１０からの時系列データが、論理パターンの検索及び取得を目的としてシステム１００の入力モジュール１２において受信される。

ステップ３０４において、受信された時系列データは、前処理器１４によって処理されて論理記号のシーケンスになる。多センサ時系列データＴが複数のセンサから取得され、車の走行、工場の一日の操業等のような、基礎をなす機械システムの多くの動作セッションのために記録される。説明の目的上、基礎をなす車両の走行のような動作セッションは、時系列Ｔのセグメントとも称する。生データＴは、処理前に、多数のセグメント｛Ｔ_１，Ｔ_２，…，Ｔ_Ｍ｝に分割される。これらは、車両の異なる走行に対応する。あらゆる時系列セグメントＴ_ｉがその後、シーケンスの論理記号Ｚ_ｉ＝｛Ｚ^ｉ _１，Ｚ^ｉ _２，……Ｚ^ｉ _Ｎ｝へと変換される。

ステップ３０６において、抽出器１６によって、論理記号のシーケンスから論理パターンが抽出される。あらゆる走行Ｔ_ｉに対し、隣接センサ値間の差である傾きが計算される。十分に多い数の傾きのサンプルが考慮されて分類される。この分類されたリストがその後、３つのグループへと分割される。各グループにおける点数が同じになるように維持され、その後、あらゆるグループに対する平均傾きが計算される。これらの平均傾きの値に基づき、当該グループは、時系列における増加（＋）、不変（０）及び減少（−）のパターンを代表する記号「＋」、「０」及び「−」によって表される。その後、多変量時系列Ｔ_ｉにおけるあらゆる点の傾きが、３つの記号の傾きの対応平均値と比較され、当該距離のどれが最小なのかに基づいて時系列の当該点が、「＋」、「０」又は「−」として符号化される。すべての連続した記号発生は、記号及びその長さを含む項ペアによって置換される。当該項ペアには、当該ペアをもたらすべく除去された様々な点の平均傾きも含まれる。３要素（論理記号Ｚ、当該記号のカウントｋ、及び当該セグメントのカウントｉ）がＺ^ｉ _ｋ、すなわち時系列のｉ番目のセグメントからｋ番目の記号、として表され、３つの項、すなわち記号、その長さ、及びＺ^ｉ _ｋによって表される点の平均傾き、を含む。その結果、時系列は、論理記号のシーケンスＺ^ｉ＝｛Ｚ^ｉ _１，Ｚ^ｉ _２，……，Ｚ^ｉ _Ｎ｝によって表される。一実施形態によれば、論理シーケンスはさらに、持続時間がしきい値未満の３要素を合併することによってリファインされ、以下に記載のアルゴリズム１に示されるノイズが排除される。

ステップ３０８において、オーガナイザ１８によって、抽出された論理パターンがクラスタリングされ、ディスク２０及びメモリ２２に格納される。論理パターンは、隣接する同記号のペアが一つも存在しない記号「＋」、「０」又は「−」のシーケンスである。固定長（例えば５単位）までの記号の論理パターンすべてが抽出される。シーケンスからの論理パターンの抽出後、前定義されたしきい値未満の振幅偏差を有するパターンが拒絶される。論理パターンの振幅偏差が、当該パターンに対応する時系列の最大値及び最小値間の差として測定される。異なるセンサは異なる範囲の値を有するので、各センサは、異なるしきい値を必要とする。多数のしきい値を回避するべく、Ｚ正規化が行われ、すべてのセンサに対して一つのしきい値が定義される。前定義されたしきい値未満の振幅偏差を有するパターンが除去された後、例えば｛−，０，＋｝のような有効な論理パターンに属する事例すべてがコンパイルされる。記号の固定長のあらゆるパターンが、ベクトルとして表される。ベクトルの次元は、当該パターンにおけるあらゆる記号の長さ（持続時間）、「＋」及び「−」記号の平均傾き、及び、記号「０」に対応する時系列の平均絶対値を含む。異なるセンサの範囲のばらつきの高さゆえに現れる偏りを除去するべく、正規化が行われる。この場合、当該ベクトルは、Ｂｉｒｃｈクラスタリングを含むがこれに限られない業界周知の技術を使用してクラスタリングされる。一実施形態によれば、パターンが「０」記号で開始又は終了する場合、その長さは当該クラスタリングのステップの間、無視される。これは、多くの現実的なシナリオに関連しない様々な事象の後／前において、車両が長い時間間隔にわたり静止したままであるとの事実に基づく。例えば、ハードストップが適用される前に車両が、どれくらい長く走行していたのかは、分析にとって関連性がない。

あらゆるセンサに対してフォルダが保持され、当該フォルダは、当該センサのあらゆる論理パターンに対するファイルを包含し得る。一パターンのすべてのクラスタが、同じファイルに格納される。当該ファイルには、様々なクラスタが、シーケンス態様で記述される。各クラスタ記述は、論理パターンのベクトルを包含し、タイムスタンプに応じて分類され、及び、マークされた時系列セグメントを有する。あらゆるタイムスタンプに対し、時系列セグメントにおいて論理パターンが開始するインデクスに沿って存在するあらゆる記号の持続時間及び値が格納される。「０」から開始する当該論理パターンには例外が存在する。それに対しては、論理パターンに存在する次の記号のインデクスが格納される。

論理パターンをクラスタリングした後に得られた結果を格納することに加え、ＴＲＩＥベースの構造（図２に例示）における任意クエリの実行前にロードされる必要がある当該クラスタのメタデータもまた、計算かつ格納される。図２は、本開示の一実施形態に係る、本開示のシステムによって実装されるＴＲＩＥベースのインデクス構造２００を例示する。ＴＲＩＥベース構造において、ＴＲＩＥのルートノードは、ＮＵＬＬが割り当てられ、３つの子ノードを有する。その一つは、各論理的記号に対して論理パターンの開始時に発生し得る。ＴＲＩＥのあらゆる次レベルにおいて、あらゆるノードが３つの子ノードを有する。その２つは、論理パターンの次の記号に使用され、３つ目のノード（図２において真ん中にあるダイアモンド形状）が、ルートノードから開始して現行ノードで終了する論理パターンに関する情報を格納するべく使用される。あらゆる論理パターンの最後にあるダイアモンドノードは、３つのタイプの情報を包含する。すなわち、クラスタに関する情報、クラスタの位置、クラスタリング中に使用される正規化係数である。クラスタ情報は、重心、半径、及び、包含される実行のリストインデクスを含み、これは、ヒューリスティック値の計算、すなわち、どのクラスタを次にロードすべきかの選択において使用される。クラスタの位置は、スキップすべきバイト数、及び対応論理パターンファイルからロードすべきバイト数を示す２つの指標を使用して格納される。正規化係数は、検索中にクラスタと比較する前に、クエリの持続時間及び値を正規化するべく使用される。

一実施形態によれば、本開示の方法のステップ３０２から３０８は、オフラインで実装することができ、一回のみ実行される必要があるが、ステップ３１０から３１６は、オンラインで実装することができ、各検索クエリに対して反復実行することができる。

ステップ３１０において、パターン発生器２８によって、格納されたクラスタから取得予定のパターンが、前定義された検索クエリにおいて記述される。事象は、多数のセンサの論理パターンを使用してクエリ対象とすることができる。当該パターンのあらゆる記号に対し、持続時間及び値も特定される。「＋」及び「−」記号の値は、その平均傾きを包含するが、「０」記号に対しては、当該記号の平均振幅を包含する。当該値及び持続時間は、以下の３つのタイプの属性の一つを有し得る。
１．自由タイプ：この種の値により、取得された変数は任意値をとることができ、「＊」によって表される。
２．近似タイプ：このタイプの値は、例えば「１０」のような数字によって表される。かかる値は、目標値が近似的に当該値付近であるべきことを示す。
３．範囲タイプ：この種の値は、取得された記号に対して厳しい基準を強制する。これは、３つの態様で表すことができる。第１態様は、例えば「＜１０」のように記号の平均の最大値を境界とし、第２態様は、例えば「＞１０」のように記号の平均の最小値を境界とし、第３態様は、例えば「８−１２」のように最小値及び最大値双方の間を境界とする。
したがって、一つのセンサについての事象に対するクエリは、本開示によれば、「エンジン速度：０−０：＊，３，＊：＞３０：４−８：＜１０」として記述することができる。ここで、＊、３、＊は、記号の持続時間を表し、任意の持続時間に対してエンジン速度が不変「０」となり、近似的に３秒に対しては「−」となり、その後、再びであるが任意の持続時間に対して不変「０」となる。
再びであるが、＞３０：４−８：＜１０は、当該記号に関する情報を表し、エンジン速度が平均絶対値＞３０を有してその後、平均４−８の「−」となって、平均絶対値＜１０である不変状態が追従する。この態様において、本開示のクエリ言語により、極めて複雑な形状を、極めて高い精度で記述することができる。同様に、多センサ論理パターンに対するクエリは、あらゆるセンサに対して有効なクエリを特定することによって定義することができる。

ステップ３１２において、検索エンジン２４によって、メモリ２２においてＴＲＩＥベースのインデクス構造（図２に例示）で参照される少なくとも一つのクラスタが、検索クエリに関連すると見出された場合にディスクから検索及び取得される。多センサ論理パターンの発生を検索するアルゴリズム２を以下に示す。

アルゴリズム２は、クエリにおいて特定された特性を有するパターンのインデクスを見出すべく使用することができる。ステップ３０８において、論理パターンは、上述のようにして分離されたクラスタによってファイルに格納される。インデクスを見出すべく、最初に関連クラスタが、前定義されたヒューリスティックアプローチによってメモリへとロードされる。クエリに存在するあらゆるセンサから一つのクラスタが与えられると、多数のセンサにわたりクエリにおいて特定された特性を有する共通インデクスが識別される。

アルゴリズム２によって実行される第１ステップは、クエリにおいて関与する各センサに対してクラスタコンテナリストを初期化することを含む。これは、論理パターンのクラスタを、特定のセンサに対して表現された論理パターンに対応するＴＲＩＥにおけるノードに基づいてロードするべく使用される。クラスタコンテナリストは２次元リストである。一つの次元が、実行のインデクスを格納するべく使用され、もう一つが、特定の論理パターンが当該実行に関して現れたタイムスタンプのインデクスに対して使用される。実行インデクス及びタイムスタンプの双方は、ステップ３０８において説明されるこれらの格納の前に、これらの交点が迅速に検出できるように分類されている。

アルゴリズム２によって実行される第２ステップは、あらゆるセンサに対するＴＲＩＥ構造内の特定された論理パターンに対応するノードにクラスタを配列することを含む。クラスタＣが、以下の式３に定義されるクエリＱからの距離によって分類される。当該距離は、近似タイプの属性に対して式１に記述される近似距離と、範囲タイプの属性に対して式２に記述される範囲距離との積である。近似距離の測定値は近似距離（Ａ）及び範囲距離（Ｒ）間の距離を推定する。範囲距離（Ｒ）は、当該クラスタに対する範囲内にタイムスタンプを有しない確率を推定する。式１及び式２において、Ａ_ｉ／Ｒ_ｉ（近似距離／範囲距離）は、Ｃにおけるｉ番目の変数が近似／範囲タイプでありかつＱ_ｉ／Ｃ_ｉがクエリ／クラスタのｉ番目の変数である場合、１に等しい。Ｍは、一つのセンサに対して論理パターンに存在する記号のカウントである。半径（Ｃ）は、クラスタＣの半径を表し、重なり_ｉは、ｉ番目の範囲タイプの属性に対する範囲内にあるクラスタの割合となる。例えば、クラスタが（２，０）を中心とする半径２を有する場合、ｘ次元に対する重なり_１は、＞３，１−３，＜０に対応する０．２５，０．５，０となり、ｙ次元に対する重なり_１は、＞１，（−１）−（１），＞−１に対応する０．２５，０．５，０．７５となる。式３から明らかなように、クラスタが、特定された範囲タイプの属性にいずれに対しても範囲から外れると、距離の測定値は∞となる。最も近接するクラスタが距離∞を有する場合、クエリに対して見出される一致は存在しない。

アルゴリズム２によって実行される第３ステップは、あらゆるセンサに対し、最も近接するクラスタをメモリへとロードすることを含む。

アルゴリズム２によって実行される第５ステップは、クエリによって特定された特性を満たす共通タイムスタンプを見出すことを含む。これを行うべく第１に、実行のインデクスとなるクラスタの第１次元における交点が検出される。任意の一致が見出されると、タイムスタンプの他の次元における交点が検出される。異なるセンサにわたる論理パターンの初期タイムスタンプがしきい値未満であっても、タイムスタンプが一致している間は、当該タイムスタンプは、関連する一致とみなされる。これは、特定の事象に対する異なるセンサの応答時間の差を説明するべく行われ、第２に、この差は、記号符号化処理ゆえに存在し得る。

アルゴリズム２の第６ステップは、検索処理を終了させる終了基準のチェックを含む。

アルゴリズム２の第７ステップは、すべての関連クラスタをロードするべく、式４に定義されるヒューリスティック値を計算することを含む。高いヒューリスティック値（ＨＶ）が好まれるのは、第１に一致確率が高いからであり、第２に迅速にヒットするからである。

アルゴリズム２の第８ステップは、最高ヒューリスティック値を有するクラスタをロードすることを含む。このステップの後、ステップ５から８は、第６ステップにおける終了基準が満たされるまで繰り返される。アルゴリズム２のステップ５での新たな反復において、新たにロードされたクラスタゆえに作られたクラスタの、残りのセンサから先にロードされたクラスタとのすべての新たな組み合わせが考慮される。特に初期にロードされたクラスタが小さい場合、検索の初期段階において、希ではあるが、すべてのクラスタが、ゼロのヒューリスティック値を返す可能性はほとんどない。その場合、残りのセンサに対してロードするべく、ランダムなクラスタが選択される。当該残りのセンサは、待ちリストに保持され、次に、他のセンサに対するクラスタリストにおいて取り上げられる。次の反復において、当該待ちクラスタが、リストにおいて次となるクラスタを伴う選択肢とみなされる。

一以上の変数に対して範囲外となるクラスタが、リストの最後においてまとめられる。そのようなクラスタがリストに到来すると、当該センサは、スクリーニングされたとみなされる。すべてのセンサに関連するクラスタがひとたびスクリーニングされると、検索が終了する。それに加え、取得された事例の数が、例えば「最上位」の結果をユーザがクエリ対象とするシナリオでクエリ対象とされたもの以上となる場合、取得された事例の数のカウントが保持されて検索が終了する。

ステップ３１４において、ランク付けエンジン２６によって、検索クエリに関連すると見出された少なくとも一つのクラスタにおいて取得された論理パターンが、検索クエリに関連する度合いに基づいてランク付けされる。ｉ番目のセンサにおいてＭ_ｉ個の記号を包含するＫ個のセンサに対してクエリが作られているとすれば、これは、ｉ番目のセンサに対して合計２×Ｍ_ｉ個の属性を意味する。式５に記述される類似性スコア（ＳＳ）は、取得された事例ＩとクエリＱとの類似性を計算する。ここで、Ｎ_ｉ，ｊ／Ｒ_ｉ，ｊは、近似／範囲タイプの属性又はゼロに等しいｉ番目のセンサのｊ番目の属性であり、Ｑ_ｉ，ｊ／Ｉ_ｉ，ｊは、クエリ／取得された事例に対するｉ番目のセンサのｊ番目の属性の値を表す。Ｑ_＊ｉ，ｊは、最大／最小種類に、又は境界が中間タイプであれば上限及び下限双方の平均に、境界が存在する場合の下限／上限となる範囲属性に対して計算される。Ｔ_ｐは、すべてのタイムスタンプの開始が有し得る合計許容シフトであり、Ｔ_Ｉは、すべてのセンサにわたって取得された事例Ｉの初期タイムスタンプにおける最大差である。

ステップ３１６において、パターン取得器３０によって、最高ランク付け論理パターンの少なくとも一つが、検索クエリに応答して検出及び取得される。

図４Ａは、ハードストップ条件に対して得られた車両速度及び一次シリンダ圧力データ組による実験設定に関連する出力の例示である。ハードストップ条件とは、車輪系車両の速度の急下降、及び一次シリンダ圧力の急増加として定義することができる。典型的な多センサクエリは、「車輪系車両の速度：０−：＊，３：＞２０：＜−５＆一次圧力マスタシリンダ：０＋：＊，３：＜１０，＞２００」として定義される。これは、車輪系車両の速度が、近似的に平均毎時３２．２キロメートル（２０ｍｐｈ）で不変であった後、一次マスタシリンダ圧力に従っておよそ３秒間に１秒当たり毎時８．０キロメートル（５ｍｐｈ）の割合で下降することを意味する。一次マスタシリンダ圧力は、近似的に平均６９．０ｋＰａ（１０ｐｓｉ）で不変であった後、およそ３秒間に１秒当たり１．４ＭＰａ（２００ｐｓｉ）で急上昇する。図４Ａにおいて、当該取得された事例の一つが強調されている。わかるのは、異なるセンサにわたって複数のパターンが別個に記述かつ取り扱われることを示す車輪系車両速度と比べ、一次圧力が早くかつ短い持続時間で応答することである。任意の取得された事例を有するあらゆるフォルダ及びあらゆるファイルが引き抜かれ、当該ファイル又はフォルダにおいて発生した最高ランクを有するあらゆるファイルが、高いランク付けがされた事例が迅速に突き止められるように促される。

図４Ｂは、荷積み条件に対してエンジンから得られたセンサデータを有する実験設定に関連する出力の例示である。荷積み条件は、高トルク及び低加速度が一緒に発生する時間間隔を決定することによって検出することができる。図４Ｂは、トルクの挙動が、予想される持続時間のほとんどにおいてエンジン速度に類似することを示す。荷積み条件を除き、このセンサ挙動は反転される。図４Ｂからわかるように、本開示のシステムによって返される強調されたセグメントが、荷積み条件のセグメントである。

一実施形態によれば、データにノイズが多い場合、時系列Ｔについてなんらかの処理が行われる前に時系列データの平滑化を行うことができる。よくあることだが、高サンプリングレートで収集されたデータが多くのノイズを包含する。平滑化は、時系列データを圧縮するのに役立つ。平滑化は、移動平均フィルタを含むがこれに限られない業界周知の任意の技術によって行われる。移動平均による高度の平滑化が、傾きにゆっくりとした変化をもたらすので、データがさらに圧縮される。しかしながら、この利点は、情報の欠損に対抗する重み付けを必要とする。

一実施形態によれば、多くの事例の取得を可能にするべく、偏差フィルタしきい値を低い値に設定することができる。しかしながら、この利点は、ノイズ発生の増加に対抗する重み付けを必要とする。

一実施形態によれば、論理パターンの初期タイムスタンプにおける合計許容シフトであるパラメータＴ_ｐの値は、Ｔ_ｐの値がノイズ増加をもたらし得るので、適切に調整する必要がある。

一実施形態において、本開示のシステム及び方法は、教師付き又は半教師付き機械学習に基づくアプローチとともに実装することができる。

本開示によれば、ここで上述したクエリ言語は、論理的多センサパターンの点で多センサ事象を記述し得る。記述された時系列データを符号化及び格納することにより、かかる論理パターンに対して効率的な検索が可能となる。本開示のシステム及び方法は、事象に注釈を付けて事象クラス分け器を車両センサデータについて訓練したり、又は検出段階中に当該クラス分け器を適用するサブシーケンスの数を選択したり、さらには探索的データ分析をするためのツールを構築することのような、様々なアプリケーションを見出すことができる。本開示のシステム及び方法は、異なるセンサにわたって発生のシフトを伴う、ばらつく長さかつ類似する形状の論理的多センサパターンを扱うことができる。

記載の説明は、ここでの主題を、当業者が本開示の実施形態を実施及び使用することができるように記述する。ここに画定される主題の実施形態の範囲は、当業者が想起する他の修正例も含み得る。かかる他の修正例は、特許請求の範囲の文言と異なることがない類似の要素を有する場合、又は当該文言との差異がわずかな均等要素を含む場合、当該範囲内に存在することが意図される。

しかしながら、保護範囲がそのようなプログラムへと、さらにはメッセージを有するコンピュータ可読手段へと拡張されることを理解すべきである。そのようなコンピュータ可読格納手段は、プログラムコード手段を包含し、当該プログラムがサーバ若しくは携帯デバイス又は任意の適切なプログラム可能デバイス上で実行されるときに、本方法の一以上のステップを実装する。ハードウェアデバイスは、例えば、サーバ若しくはパーソナルコンピュータ等、又はこれらの任意の組み合わせのような任意の種類のコンピュータを含むプログラム可能な任意の種類のデバイスであり得る。例えば、デバイスはまた、例えば特定用途向け集積回路（ＡＳＩＣ）のようなハードウェア手段、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、又は、例えばＡＳＩＣとＦＰＧＡとの若しくは少なくとも一つのマイクロ処理器とソフトウェアモジュールが中に配置された少なくとも一つのメモリとのようなハードウェア手段とソフトウェア手段との組み合わせ、となり得る手段を含む。すなわち、手段は、ハードウェア手段及びソフトウェア手段の双方を含み得る。ここに記載の方法の実施形態は、ハードウェア及びソフトウェアに実装できる。デバイスはまた、ソフトウェア手段も含み得る。代替的に、システムは、異なるハードウェアデバイスに、例えば複数のＣＰＵを使用して実装し得る。

ここの実施形態は、ハードウェア及びソフトウェア要素を含み得る。ソフトウェアに実装される実施形態は、ファームウェア、常駐ソフトウェア、マイクロコード等を含むがこれらに限られない。本開示の及びここに記載のシステムを含む様々なモジュールによって行われる機能は、他のモジュールに又は他のモジュールの組み合わせに実装することができる。この説明の目的のため、コンピュータ使用可能又はコンピュータ可読媒体を、命令実行システム、装置又はデバイスにより又はこれらと関連して使用されるプログラムを、包含、格納、通信、伝播又は輸送することができる任意の装置とすることができる。ここに記載の様々なモジュールは、ソフトウェア及び／又はハードウェアモジュールのいずれかとして実装され、任意タイプの非一時的コンピュータ可読媒体又は他の格納デバイスに格納され得る。非一時的コンピュータ可読媒体の非制限的な例の一部は、ＣＤ、ＤＶＤ、ＢＬＵ−ＲＡＹ（登録商標）、フラッシュメモリ及びハードディスクドライブを含む。

プログラムコードの格納及び／又は実行に適したデータ処理システムは、システムバスを介してメモリ要素に直接又は間接に結合された少なくとも一つの処理器を含む。メモリ要素は、プログラムコードの実際の実行中に用いられるローカルメモリ、バルクストレージ、及び、実行中にバルクストレージからコードを取得しなければならない回数を低減するための少なくともいくつかのプログラムコードの一時的格納を与えるキャッシュメモリを含み得る。

上記記載は、様々な実施形態を参照して提示された。本願に係る当業者であれば、記載の構造及び動作方法の改変及び変更を、本原理、要旨及び範囲から有意に逸脱することなく実施できることがわかる。

Claims

多センサ時系列データからの論理パターンの検索及び取得の方法であって、
入力モジュールによって、論理パターンを検索及び取得するべく少なくとも一つのセンサから少なくとも一つの時系列データを受信することと、
前処理器によって、前記受信された少なくとも一つの時系列データを前処理して、前記少なくとも一つの時系列データにおける定性的抽象概念を表す少なくとも一つのシーケンスの論理記号にすることであって、前記定性的抽象概念は前記時系列データのデータ値のばらつきに対応することと、
抽出器によって、前記少なくとも一つのシーケンスの論理記号から論理パターンを抽出することと、
オーガナイザにおいて、
Ｚ正規化を行うことによって前記少なくとも一つのセンサに対して共通しきい値を前定義することと、
抽出された論理パターンのサブセットを取得するべく前記前定義されたしきい値未満の振幅偏差を有する抽出された論理パターンを拒絶することと、
固定長の論理記号の前記抽出された論理パターンのサブセットをベクトルとして表すことと、
前記論理パターンにおける次の記号のインデクスに沿って、関連する論理記号のタイムスタンプ、持続時間及び値に応じた同じベクトルをクラスタリングして論理パターンのクラスタを生成することと、
検索エンジンによって、少なくとも一つの論理パターンを特定して前記少なくとも一つの論理パターンを前記生成されたクラスタから取得する検索クエリを受信するときに前記生成されたクラスタについて反復検索を行うことと
によって、前記抽出された論理パターンをクラスタリングしてディスク及びメモリに格納することと
を含む、論理パターンの検索及び取得の方法。
前記検索クエリはテキストクエリである、請求項１の論理パターンの検索及び取得の方法。
前記受信された少なくとも一つの時系列データを前処理するステップは、
前記受信された少なくとも一つの時系列データを複数の非重複時系列のセグメントへと分割することと、
各セグメントの傾きを計算することと、
前記計算された傾きに基づいてセグメントを分類して前記分類されたセグメントの組を、サンプル点の数が等しい各グループへとグループ分けすることと、
各グループのセグメントに対して平均傾きを計算することと、
前記傾きを、対応する計算された平均傾き値と比較することによって、各サンプル点に増加（＋）、不変（０）及び減少（−）との注釈を付けることと、
前記少なくとも一つの時系列データを、前記セグメントの平均振幅及び長さを含む値となる注釈付きサンプル点を特徴とする論理記号のシーケンスとしてクラス分けすることと
を含む、請求項１の論理パターンの検索及び取得の方法。
前記受信された少なくとも一つの時系列データを前処理するステップよりも、ノイズを除去する平滑化のステップが先行し、
前記平滑化のステップは、移動平均フィルタによって行われる、請求項１の論理パターンの検索及び取得の方法。
前記受信された少なくとも一つの時系列データを前処理するステップはさらに、前記論理記号のシーケンスを、前定義されたしきい値未満のセグメント長さを有する論理記号を合併させることによってリファインするステップを含む、請求項３の論理パターンの検索及び取得の方法。
前記セグメントの値及び長さは、自由タイプ、近似タイプ及び範囲タイプのような３つの属性の少なくとも一つを含む、請求項３の論理パターンの検索及び取得の方法。
一つ以上の格納されたクラスタから取得予定のパターンを、前定義された検索クエリにおいて記述することをさらに含み、
前記パターンを記述することは、各論理記号に対する前記セグメントの値及び長さに関連する少なくとも一つの属性を定義することを含む、請求項３の論理パターンの検索及び取得の方法。
前記検索クエリに関与する各センサに対してクラスタコンテナリストを初期化することであって、前記クラスタコンテナリストは、実行のインデクスを格納する第１次元と、前記論理パターンが前記実行の中で出現したタイムスタンプのインデクスを格納する第２次元とを含むことと、
各センサに対するＴＲＩＥベース構造内で、前記検索クエリからの距離に基づいてクラスタを分類することと、
前記各センサに対し、最も近接するクラスタを前記クラスタコンテナリストへとロードすることと、
以下のこと、すなわち、前記検索クエリによって特定された特性を満たす共通タイムスタンプを識別し、
ロード予定のクラスタの全選択肢に対してヒューリスティック値を計算し、
最高のヒューリスティック値を有するクラスタをロードすることを反復して行うことと
を含む、請求項１の論理パターンの検索及び取得の方法。
前記共通タイムスタンプを識別するステップは、
前記少なくとも一つのセンサにわたって共通タイムスタンプに対する論理パターンの発生の交点を見出すことと、
前記クラスタコンテナリストの第１次元における交点を検出することと、
前記クラスタコンテナリストの第２次元における交点を、前記第１次元の交点に対する一致が存在する事象において検出することと
を含む、請求項８の論理パターンの検索及び取得の方法。
多センサ時系列データから論理パターンを検索及び取得するシステムであって、
一以上の処理器と、
通信インタフェイスデバイスと、
格納のため前記一以上の処理器に結合された一以上の内部データ格納デバイスと、
論理パターンの検索及び取得のため、少なくとも一つのセンサから少なくとも一つの時系列データを受信するべく構成された入力モジュールと、
前記受信された少なくとも一つの時系列データを前処理して、前記少なくとも一つの時系列データにおける定性的抽象概念を表す少なくとも一つのシーケンスの論理記号にするべく構成された前処理器であって、前記定性的抽象概念は前記時系列データのデータ値のばらつきに対応する前処理器と、
前記少なくとも一つのシーケンスの論理記号から論理パターンを抽出するべく構成された抽出器と、
前記抽出された論理パターンを、
Ｚ正規化を行うことによって前記少なくとも一つのセンサに対して共通しきい値を前定義することと、
抽出された論理パターンのサブセットを取得するべく前記前定義されたしきい値未満の振幅偏差を有する抽出された論理パターンを拒絶することと、
固定長の論理記号の前記抽出された論理パターンのサブセットをベクトルとして表すことと、
前記論理パターンにおける次の記号のインデクスに沿って、関連する論理記号のタイムスタンプ、持続時間及び値に応じた同じベクトルをクラスタリングして論理パターンのクラスタを生成することと、
検索エンジンによって、少なくとも一つの論理パターンを特定して前記少なくとも一つの論理パターンを前記生成されたクラスタから取得する検索クエリを受信するときに前記生成されたクラスタについて反復検索を行うことと
によってクラスタリングしてディスク及びメモリに格納するべく構成されたオーガナイザと
を含む、システム。
コンピュータ可読プログラムが具体化された非一時的コンピュータ可読媒体であって、
前記コンピュータ可読プログラムは、コンピュータデバイス上で実行されると、
入力モジュールによって、論理パターンの検索及び取得のために少なくとも一つのセンサから少なくとも一つの時系列データを受信することと、
前処理器によって、前記受信された少なくとも一つの時系列データを前処理して、前記少なくとも一つの時系列データにおける定性的抽象概念を表す少なくとも一つのシーケンスの論理記号にすることであって、前記定性的抽象概念は前記時系列データのデータ値のばらつきに対応することと、
抽出器によって、前記少なくとも一つのシーケンスの論理記号から論理パターンを抽出することと、
オーガナイザにおいて、
Ｚ正規化を行うことによって前記少なくとも一つのセンサに対して共通しきい値を前定義することと、
抽出された論理パターンのサブセットを取得するべく前記前定義されたしきい値未満の振幅偏差を有する抽出された論理パターンを拒絶することと、
固定長の論理記号の前記抽出された論理パターンのサブセットをベクトルとして表すことと、
前記論理パターンにおける次の記号のインデクスに沿って、関連する論理記号のタイムスタンプ、持続時間及び値に応じた同じベクトルをクラスタリングして論理パターンのクラスタを生成することと、
検索エンジンによって、少なくとも一つの論理パターンを特定して前記少なくとも一つの論理パターンを前記生成されたクラスタから取得する検索クエリを受信するときに前記生成されたクラスタについて反復検索を行うことと
によって、前記抽出された論理パターンをクラスタリングしてディスク及びメモリに格納することと
をコンピュータデバイスに行わせる、非一時的コンピュータ可読媒体。