JP7211562B2

JP7211562B2 - データ量十分性判定装置、データ量十分性判定方法、データ量十分性判定プログラム、学習モデル生成システム、学習済みの学習モデル生成方法、及び学習済みの学習モデル生成プログラム

Info

Publication number: JP7211562B2
Application number: JP2022532209A
Authority: JP
Inventors: 隆彦増崎; 督那須
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-06-26
Filing date: 2020-06-26
Publication date: 2023-01-24
Anticipated expiration: 2040-06-26
Also published as: CN115836306A; WO2021260922A1; US20230053174A1; DE112020007110T5; TW202201291A; JPWO2021260922A1

Description

本開示は、データ量十分性判定装置、データ量十分性判定方法、データ量十分性判定プログラム、学習モデル生成システム、学習済みの学習モデル生成方法、及び学習済みの学習モデル生成プログラムに関する。

正常な機器の時系列データを用いて学習した学習モデルを用いて、診断対象の機器の時系列データを診断することにより、機器が正常か否かを判定する装置について研究や開発が行われている。ここで、学習モデルを学習させるときに、どれだけのデータを用いて学習を行えばよいかを事前に知っておくことが重要である。早期に異常検知等を行うためには、出来るだけ早期に学習を行いたい一方で、データが十分に集まっていない状態で学習を行い、学習後にデータが不足していることが判明すると、再度学習を行う手戻りが生じてしまう。その一方で、たくさんデータを入力して学習すると学習自体に時間がかかり、また、過学習してしまう可能性もあるため、収集したデータのうち学習に余分なものは捨てる必要がある。

そのため、収集した時系列データのデータ量が、学習モデルの学習を行うのに十分か否かを判定する技術が研究されている。例えば、特許文献１には、データを区分に分けた領域ごとに特徴量を算出して、各領域の特徴量をパターンに分類し、パターン数が収束した場合に学習を終了するデータ処理装置が開示されている。

特開２００９－１３５６４９号公報

しかしながら、特許文献１に開示されたデータ処理装置は、特徴量のパターン数に基づいてデータの十分性を判断するだけであり、さまざまな特性を有する時系列データに柔軟に対応することができず、時系列データの特性によってはデータ量の十分性を判別する精度が低いという課題があった。

本開示は、上記のような課題を解決するためになされたものであり、より高精度に学習用データのデータ量の十分性を判定することができるデータ量十分性判定装置を得ることを目的とする。

本開示に係るデータ量十分性判定装置は、時系列データを取得する時系列データ取得部と、時系列データを複数の部分列データに分割するデータ分割部と、部分列データの集合である部分列データ集合を複数生成するデータ集合生成部と、部分列データの特徴量を算出する特徴量算出部と、部分列データ集合毎に特徴量の確率分布を生成する確率分布生成部と、確率分布が収束したか否かを判定する判定部と、を備えた。

本開示に係るデータ量十分性判定装置は、部分列データの特徴量を算出する特徴量算出部と、部分列データ集合毎に特徴量の確率分布を生成する確率分布生成部と、確率分布が収束したか否かを判定する判定部と、を備えたので、単に特徴量のパターン数に基づくだけでなく、特徴量の確率分布に基づくことにより、より高精度に学習用データのデータ量の十分性を判定することができる。

実施の形態１に係る学習モデル生成システム１０００の構成を示す構成図である。実施の形態１に係るデータ量十分性判定装置１００のハードウェア構成の例を示すハードウェア構成図である。実施の形態１に係るデータ量十分性判定装置１００の動作を示すフローチャートである。実施の形態１に係るデータ分割部２０が時系列データを分割する処理の具体例を説明するための概念図である。実施の形態１に係るデータ集合生成部３０が部分列データ集合を生成する処理の具体例を説明するための概念図である。実施の形態１に係る確率分布生成部５０が確率分布を生成する処理の具体例を説明するための概念図である。実施の形態１に係る確率分布生成部５０が統計量を算出する処理の具体例を説明するための概念図である。実施の形態２に係る学習モデル生成システム２０００の構成を示す構成図である。実施の形態２に係る特徴量算出部２４０の処理の具体例を説明するための概念図である。実施の形態１及び実施の形態２に係るデータ量十分性判定装置の処理の具体例を説明するための概念図である。実施の形態３に係る学習モデル生成システム３０００の構成を示す構成図である。実施の形態３に係るデータ量十分性判定装置３００の処理の具体例を説明するための概念図である。実施の形態４に係る学習モデル生成システム４０００の構成を示す構成図である。実施の形態４に係るデータ量十分性判定装置４００の処理の具体例を説明するための概念図である。実施の形態５に係る学習モデル生成システム５０００の構成を示す構成図である。実施の形態６に係る学習モデル生成システム６０００の構成を示す構成図である。実施の形態６に係るデータ量十分性判定装置６００の処理の具体例を説明するための概念図である。

実施の形態１．
図１は、実施の形態１に係る学習モデル生成システム１０００の構成を示す構成図である。
学習モデル生成システム１０００は、時系列データの収集及び学習モデルの生成を行うものであり、データ量十分性判定装置１００、時系列データ管理装置１１０、及び学習装置１２０を備える。

データ量十分性判定装置１００は、時系列データ管理装置１１０が収集したデータが学習装置１２０で学習モデルの学習を行うのに十分な量集まっているかを判定するものである。

時系列データ管理装置１１０は、時系列データの管理を行うものであり、時系列データの収集を行う時系列データ収集部１１１と、収集した時系列データを記憶する時系列データ記憶部１１２とを備える。

ここで、例えば、時系列データ収集部１１１には、生産設備に設けられたセンサ等が用いられ、時系列データ記憶部１１２には、ハードディスク等の記憶装置が用いられる。

学習装置１２０は、データ量十分性判定装置１００が十分なデータ量が集まっていると判定した場合に、時系列データ管理装置１１０から受信した時系列データを用いて学習モデルの学習を行うものであり、時系列データ管理装置１１０が記憶する時系列データを学習用データとして取得する学習用データ取得部１２１と、学習用データ取得部１２１が取得した学習用データを用いて学習モデルの学習を行い、学習済みの学習モデルを生成する学習済モデル生成部１２２とを備える。

学習装置１２０の各機能は、後述するデータ量十分性判定装置１００と同様に、記憶装置に記憶されたプログラムを処理装置が実行することにより実現される。

次に、データ量十分性判定装置１００の詳細について説明する。
データ量十分性判定装置１００は、時系列データ取得部１０１、データ分割部１０２、データ集合生成部１０３、特徴量算出部１０４、確率分布生成部１０５、及び判定部１０６を備える。

時系列データ取得部１０１は、時系列データを取得するものである。この時系列データは、例えば、製造装置に取り付けたセンサにより取得された電流値や電圧値を示すデータ、振動センサにより検知された機器の振動を示す振動データ、音声センサにより検知された機器の動作音を示す音声データ等である。

実施の形態１において、時系列データ取得部１０１は、学習対象の時系列データを時系列データ記憶部１１２から取得する。ここで、時系列データ取得部１０１は、データ量の十分性を判定する対象としてのまとまった量の時系列データを取得する。取得した時系列データは、時刻とデータが関連付けられており、連続した値を特定のサンプリングレートで離散データに変換したデジタルデータである。

データ分割部１０２は、時系列データ取得部１０１が取得した時系列データを複数の部分列データに分割するものである。すなわち、データ分割部１０２は、時系列データを分割することにより複数の部分列データを生成する。より具体的には、実施の形態１に係るデータ分割部１０２は、取得した時系列データからＷ個の時間的に連続するデータを抽出する。この抽出したＷ個のデータを部分列データと呼ぶ。

ここで、データ分割部１０２は、複数の部分列データが共通の時間帯のデータを含むように部分列データを生成することができる。そのため、波形の特徴が変化する状況をきめ細やかに捉えることができ、判定精度が向上するという効果を奏する。

データ集合生成部１０３は、データ分割部１０２が生成した部分列データの集合である部分列データ集合を複数生成するものである。また、データ集合生成部１０３は、第一の部分列データ集合に第一の部分列データ集合が含まない部分列データを追加することにより、第二の部分列データ集合を生成する。すなわち、実施の形態１において、データ集合生成部１０３は、データ量を段階的に増やすことにより、複数の部分列データ集合を生成する。また、実施の形態１において、データ集合生成部１０３は、複数の部分列データ集合を有する複数のグループを生成する。より具体的には、部分列データ集合を複数有する第一グループと、第一グループと同じ数の部分列データ集合を有し、第一グループが有さない部分列データ集合を少なくとも一つ有する第二グループと、を生成する。

特徴量算出部１０４は、データ分割部１０２が生成した部分列データの特徴量を算出するものである。ここで、特徴量は必ずしも部分列データと１対１に対応するものではない。すなわち、特徴量算出部１０４は、部分列データ毎に特徴量を算出してもよいし、部分列データ同士の関係性から特徴量を算出してもよく、部分列データの特徴量とは、その両者を含むものである。また、特徴量は一つに限らず、複数の特徴量を算出するようにしてもよいが、以下では、特徴量算出部１０４は、部分列データ毎に特徴量を算出するものとする。また、ここでの特徴量とは、例えば、各部分列データの平均、標準偏差、各部分列データを表す波形の傾きの絶対値の平均、標準偏差等である。

確率分布生成部１０５は、データ集合生成部１０３が生成した部分列データ集合毎に特徴量の確率分布を生成するものである。ここで、特徴量の確率分布とは、複数の部分列データにおける各特徴量が取る値の確率の分布である。例えば、特徴量の取る値の範囲を一定幅の区間に区切り、それぞれの区間に含まれる値の数（度数）を求め、正規化することにより得られる。また、実施の形態１において、確率分布生成部１０５は、異なる部分列データ集合の間でそれぞれから生成された確率分布を比較して、確率分布に基づいた特徴量の統計量を算出する。

実施の形態１において、確率分布生成部１０５は、統計量として、第一グループが有する部分列データ集合の確率分布と、第二グループが有する部分列データ集合の前記確率分布との類似度を算出する。類似度は、例えば、ユークリッド距離やコサイン類似度が用いられる。

判定部１０６は、確率分布生成部１０５が生成した確率分布が収束しているか否かを判定するものである。判定部１０６は、確率分布が収束しているか否かを判定することにより、データ量が十分か否かを判定する。すなわち、判定部１０６は、確率分布が収束していることをもって、データ量が十分であると判定する。実施の形態１において、判定部１０６は、確率分布生成部１０５が算出した確率分布同士の類似度が収束した場合に、すなわち、確率分布から得られる特徴量の変化が小さくなったり無くなってきた場合に、確率分布が収束したと判定する。判定部１０６は、判定結果を学習用データ取得部１２１に出力する。

また、判定部１０６は、判定結果をディスプレイ等の表示装置（図示せず）に出力し、判定結果を表示装置に表示させる。

次に、実施の形態１におけるデータ量十分性判定装置１００のハードウェア構成について説明する。データ量十分性判定装置１００の各機能は、コンピュータにより実現される。図２は、実施の形態１に係るデータ量十分性判定装置１００を実現するコンピュータのハードウェア構成の例を示すハードウェア構成図である。

図２に示したハードウェアには、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の処理装置１００００と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ハードディスク等の記憶装置１０００１が備えられる。

図１に示す、時系列データ取得部１０１、データ分割部１０２、データ集合生成部１０３、特徴量算出部１０４、確率分布生成部１０５、及び判定部１０６は、記憶装置１０００１に記憶されたプログラムが処理装置１００００で実行されることにより実現される。ここで、上記の構成は、単数の処理装置１００００及び記憶装置１０００１により実現する構成に限らず、複数の処理装置１００００及び記憶装置１０００１により実現する構成であってもよい。

また、データ量十分性判定装置１００の各機能を実現する方法は、上記したハードウェアとプログラムの組み合わせに限らず、処理装置にプログラムをインプリメントしたＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）のような、ハードウェア単体で実現するようにしてもよいし、一部の機能を専用のハードウェアで実現し、一部を処理装置とプログラムの組み合わせで実現するようにしてもよい。

以上のように、実施の形態１に係るデータ量十分性判定装置１００は構成される。

次に、実施の形態１に係るデータ量十分性判定装置１００の動作について説明する。
図３は、実施の形態１に係るデータ量十分性判定装置１００の動作を示すフローチャートである。

また、以下において、データ量十分性判定装置１００の動作がデータ量十分性判定方法に対応し、データ量十分性判定装置１００の動作をコンピュータに実行させるプログラムがデータ量十分性判定プログラムに対応する。また、学習モデル生成システム１０００の動作が学習済みの学習モデル生成方法に対応し、学習モデル生成システム１０００の動作をコンピュータに実行させるプログラムが学習済みの学習モデル生成プログラムに対応する。また、時系列データ取得部１０１の動作が時系列データ取得工程に対応し、データ分割部１０２の動作がデータ分割工程に対応し、データ集合生成部１０３の動作がデータ集合生成工程に対応し、特徴量算出部１０４の動作が特徴量算出工程に対応し、確率分布生成部１０５の動作が確率分布生成工程に対応し、判定部１０６の動作が判定工程に対応し、学習用データ取得部１２１の動作が学習用データ取得工程に対応し、学習済モデル生成部１２２の動作が学習済モデル生成工程に対応する。

まず、ステップＳ１において、データ量十分性判定装置１００の使用者が入力インターフェース（図示せず）を操作してデータ量十分性判定処理を開始する要求を入力すると、時系列データ取得部１０１は、時系列データ記憶部１１２から判定対象の時系列データを取得する。

次に、ステップＳ２において、データ分割部１０２は、ステップＳ１で時系列データ取得部１０１が取得した時系列データを部分列データに分割する。データ分割部１０２が、時系列データを分割する処理の具体例について、図４を用いて説明する。図４は、実施の形態１に係るデータ分割部１０２が時系列データを分割する処理の具体例を説明するための概念図である。

図４に示すように、データ分割部１０２は、取得した時系列データからＷ個の時間的に連続するデータを部分列データとして抽出する。ここで、Ｗを部分列データ長と呼ぶ。そして、データ分割部１０２は、部分列データを抽出する対象の時刻を少しずつずらしながら、複数の部分列データを順次生成する。部分列データをずらす長さをスライド幅Ｈとする。スライド幅Ｈは、データ量十分性判定の精度と計算量のトレードオフにより決定される。ここでは、一例としてＨ＝Ｗ／２とする。

図３に戻り、続きの動作について説明する。
次に、ステップＳ３において、データ集合生成部１０３は、ステップＳ２で抽出された部分列データを集めて、複数の部分列データ集合を生成する。データ集合生成部１０３が部分列データ集合を生成する処理の具体例について、図５を用いて説明する。図５は、実施の形態１に係るデータ集合生成部１０３が部分列データ集合を生成する処理の具体例を説明するための概念図である。

図５に示すように、データ集合生成部１０３は、複数の部分列データから、ａ，ｂ，ｃ，・・・と部分列データ集合を生成する。また、データ集合生成部１０３は、部分列データ集合のデータ量を段階的に増やした複数の部分列データ集合を含む第１グループと第２グループとを生成する。具体的には、グループ生成部１３は、図５に示すように、部分列データ全体に対する割合が１／６、２／６、３／６、４／６および５／６である部分列データ集合ａ、ｂ、ｃ、ｄおよびｅを第１グループとし、時系列データ全体に対する割合が２／６、３／６、４／６、５／６および６／６である部分列データ集合ｂ、ｃ、ｄ、ｅおよびｆを第２グループとする。

図３に戻り、動作の続きについて説明する。
次に、ステップＳ４において、特徴量算出部１０４は、各部分列データ集合に対して、複数の特徴量を算出する。例えば、部分列データ集合ａが、１０個の部分列データを含むとすると、部分列データごとに特徴量を算出することによって、ａに対する１０個の特徴量を得る。

次に、ステップＳ５において、確率分布生成部１０５は、部分列データ集合毎に特徴量の確率分布を生成する。図６を用いて、確率分布生成部１０５が生成する確率分布の具体例について説明する。図６は、実施の形態１に係る確率分布生成部１０５が確率分布を生成する処理の具体例を説明するための概念図である。

図６に示すように、確率分布生成部１０５は、部分列データ集合ａ、ｂ、ｃ、ｄ、ｅおよびｆのそれぞれについて確率密度ｙと特徴量ｘとの関係を表す確率分布を生成する。

図３に戻り、動作の続きについて説明する。
ステップＳ６において、確率分布生成部１０５は、各部分列データ集合の確率分布から、特徴量の統計量を算出する。

図７を用いて、確率分布生成部１０５が統計量を算出する処理の具体例について説明する。図７は、実施の形態１に係る確率分布生成部１０５が統計量を算出する処理の具体例を説明するための概念図である。
まず、図７に示すように、確率分布生成部１０５は、第１グループのａと第２グループのｂとの確率分布を比較して統計量を算出し、次に、第１グループのｂと第２グループのｃとの確率分布を比較して統計量を算出する。このようにして、確率分布生成部１０５は、第１グループのａ、ｂ、ｃ、ｄおよびｅと、第２グループのｂ、ｃ、ｄ、ｅおよびｆとを比較して、５つの統計量を得る。

確率分布生成部１０５は、確率分布の比較結果の統計量として、例えば、第１グループの特徴量の最頻値ｍ１と第２グループの特徴量の最頻値ｍ２との差の絶対値を算出する。あるいは、第１グループの確率密度をｙ１（ｘ）、第２グループの確率密度をｙ２（ｘ）、ｘの最小値をｍｉｎ、ｘの最大値をｍａｘとして、以下の式で算出しても良い。

図３に戻り、動作の続きについて説明する。
ステップＳ７において、判定部１０６は、ステップＳ５で生成した確率分布が収束しているかを判定する。ここで、実施の形態１において、判定部１０６は、ステップＳ６で算出した統計量が収束しているかを判定することにより、確率分布が収束しているかを判定する。

より具体的には、判定部１０６は、データ量が少ない部分列データ集合、例えばａとｂ、の比較結果の統計量と、データ量が多い部分列データ集合、例えばｅとｆ、の比較結果の統計量とを比較して、データ量が多い部分列データ集合の統計量の方が０に近いこと、統計量の差が次第に小さくなっていくこと、部分列データ集合のデータ量に基づく期待値よりも統計量の方が小さいこと等のあらかじめ決められた基準条件、ないしは動的に決まる基準条件を満たすか否かを判定する。そして、判定部１０６は、基準条件を満たす場合に、時系列データの量が十分であると判定する。

ここで、部分列データ集合のデータ量に基づく期待値とは、例えば比較するうちの小さい方の部分列データ集合に含まれる部分列データの数をｎ、ｎが１のときの値をＡとして、Ａ／ｎとするなどの方法がありうる。仮に影響とデータ量が線形な関係の場合は、データ量がｎ倍になると、同じ量のデータを追加で与えたときの影響が１／ｎになると考えられるためである。期待値はＡ／ｎに限らず、Ａ／（√ｎ）、Ａ／（ｎ＾２）などでもよい。

以上でデータ量十分性判定装置１００は、動作を終了するが、判定部１０６は、判定結果を表示装置に送信し、判定結果を表示させたり、学習装置１２０に送信し、学習モデルの学習を行わせたりするようにしてもよい。

より具体的には、学習用データ取得部１２１は、判定部１０６が、確率分布が収束したと判定した場合、すなわち、データ量が十分であると判定した場合に、時系列データ記憶部１１２から時系列データを学習用データとして、取得する。ここで、学習用データ取得部１２１が取得する学習用データは、判定部１０６が判定を出すのに用いた、時系列データ取得部１０１が取得したデータと同じものである。また、データ量が十分でないと判定した場合には、あらかじめ除外していたデータを追加したり、追加でデータを取得したりするようにしてもよい。

そして、学習済モデル生成部１２２は、学習用データ取得部１２１が取得した学習用データを用いて学習モデルの学習を行い、学習済みの学習モデルを生成する。

以上のような動作により、実施の形態１に係るデータ量十分性判定装置１００は、単に特徴量のパターン数に基づくだけでなく、特徴量の確率分布に基づくことにより、より高精度に学習用データの十分性を判定することができる

また、実施の形態１に係る学習モデル生成システム１０００は、データ量十分性判定装置１００が、データ量が十分であると判定した場合に、学習モデルの学習を行うようにしたので、データ量が不足していて適切な推論を行うことができない学習済みの学習モデルを生成したり、再学習の必要が生じたりする可能性を低減することができる。

また、実施の形態１に係るデータ量十分性判定装置１００は、第一の部分列データ集合に第一の部分列データ集合が含まない部分列データを追加することにより、第二の部分列データ集合を生成する。すなわち、データ量十分性判定装置１００は、ある部分列データ合を生成し、各部分列データ集合の特徴量の確率分布を比較することによって、データ量の十分性を判定する。つまり、実施の形態１は、後述する実施の形態３や実施の形態４と比較すると、確率分布を生成する対象となる区間を広げており、簡易的な手法となっている。そのため、少ない計算量で判定できるという効果を奏する。

また、実施の形態１に係るデータ量十分性判定装置１００は、部分列データ集合を複数有する第一グループと、第一グループと同じ数の部分列データ集合を有し、第一グループが有さない部分列データ集合を少なくとも一つ有する第二グループと、を生成し、統計量算出部は、第一グループが有する部分列データ集合の確率分布と、第二グループが有する部分列データ集合の確率分布との類似度を算出し、判定部は、類似度が収束した場合に、確率分布が収束したと判定するので、順序関係が分かりやすく、見通しが良くなりデータ量の十分性の判定が分かりやすいという効果を奏する。

また、ここまで、グループを用いて説明をしてきたが、明示的にグループを構成せずに同様の処理を行ってもよい。すなわち、部分列データ集合ａの特徴量の確率密度とｂのそれの比較、ｂのそれと、ｃのそれの比較と繰り返していくとしてもよい

また、実施の形態１に係るデータ量十分性判定装置１００は、部分列データ毎に特徴量を算出するので、後述する実施の形態２と比較して、部分列データ間の関係性ではなく各々の部分列データそのものに着目したときの特徴に基づいて判定できるため、各々の部分列データに特徴がよく現れるときに精度よく判定できるという効果を奏する。

実施の形態２．
次に、実施の形態２に係る学習モデル生成システム２０００について説明する。
実施の形態１において、データ量十分性判定装置１００が備える特徴量算出部１０４は、各部分列データの特徴量を算出するものであった。本実施の形態においては、特徴量算出部２０４が、部分列データ同士の比較対から特徴量を算出する、すなわち、各部分列データと他の部分列データとを比較した特徴量を算出する例を示す。以下、実施の形態１と異なる部分を中心に説明する。

図８は、実施の形態２に係る学習モデル生成システム２０００の構成を示す構成図である。学習モデル生成システム２０００は、データ量十分性判定装置２００、時系列データ管理装置２１０、及び学習装置２２０を備える。

時系列データ管理装置２１０は、実施の形態１と同様に、時系列データ収集部２１１及び時系列データ記憶部２１２を備える。また、学習装置２２０も、実施の形態１と同様に、学習用データ取得部２２１及び学習済モデル生成部２２２を備える。

データ量十分性判定装置２００は、時系列データ取得部２０１、データ分割部２０２、データ集合生成部２０３、特徴量算出部２０４、確率分布生成部２０５、及び判定部２０６を備える。

実施の形態２において、特徴量算出部２０４は、各部分列データ集合に含まれる２つの部分列データを比較対として選択し、選択した比較対の特徴量を算出する。すなわち、特徴量算出部２４０は、第一の部分列データと第二の部分列データとの比較値を特徴量として算出する。具体的には、比較対の特徴量は、部分列を空間上の点とみなした場合のユークリッド距離、部分列をベクトルとみなした場合の角度などの部分列同士の相違度を表したものが該当する。

実施の形態２において、特徴量算出部２０４は、この比較対の選択と特徴量の算出を繰り返して、複数の比較対の特徴量を算出する。
実施の形態２において、確率分布生成部２０５は、特徴量算出部２０４が算出した複数の比較対の特徴量に基づいて、各グループの各部分列データ集合の特徴量の確率分布を生成する。

特徴量算出部２０４の処理の具体例について、図９を用いて説明する。
図９は、実施の形態２に係る特徴量算出部２４０の処理の具体例を説明するための概念図である。
特徴量算出部２４０は、図９に示すように、各グループの各部分列データ集合の先頭の部分列データと２番目の部分列データとを比較対として選択して、特徴量を算出する。次に、特徴量算出部２４０は、先頭の部分列データと３番目の部分列データとを比較対として選択して、特徴量を算出する。これを繰り返して、抽出した比較対の特徴量をそれぞれ算出する。

なお、特徴量算出部２４０は、最近傍探索によって算出した最近傍距離を特徴量とする場合、各部分列データ集合内の同一データ部分を除外して、最近傍探索を行う。また、特徴量算出部１４は、ｋ近傍探索によって算出したｋ近傍距離を特徴量としても良い。

その他の構成及び動作については、実施の形態１と同様であるので、説明を省略する。

実施の形態２に係るデータ量十分性判定装置２００は、第一の部分列データと第二の部分列データとの比較値を特徴量として算出する。すなわち、データ量十分性判定装置２００は、部分列データ同士を比較した特徴量に基づいて、データ量の十分性を判定する。これによって、さまざまな特性を持つ時系列データに柔軟に対応した判定が可能となる。

実施の形態３．
次に、実施の形態３に係るデータ量十分性判定装置３００について説明する。
実施の形態１及び実施の形態２においては、図１０に示すように、部分列データ集合が徐々に大きくなっていき、前の部分列データ集合を包含する場合を想定していたが、実施の形態３では、異なる方法により、部分列データ集合を生成する例を示す。以下、実施の形態１及び実施の形態２と異なる部分を中心に説明する。

図１１は、実施の形態３に係る学習モデル生成システム３０００の構成を示す構成図である。学習モデル生成システム３０００は、データ量十分性判定装置３００、時系列データ管理装置３１０、及び学習装置３２０を備える。

時系列データ管理装置３１０は、他の実施の形態と同様に、時系列データ収集部３１１及び時系列データ記憶部３１２を備える。また、学習装置３２０も、他の実施の形態と同様に、学習用データ取得部３２１及び学習済モデル生成部３２２を備える。

データ量十分性判定装置３００は、時系列データ取得部３０１、データ分割部３０２、データ集合生成部３０３、特徴量算出部３０４、確率分布生成部３０５、及び判定部３０６を備える。

実施の形態３において、データ集合生成部３０３は、第一の部分列データ集合と、第一の部分列データ集合と共通の部分列データを含まない第二の部分列データ集合とを生成する。さらに、データ集合生成部３０３は、第一の部分列データ集合と、第二の部分列データ集合が含む少なくとも一つの部分列データとを合わせた第三の部分列データ集合を生成する。すなわち、実施の形態３において、データ集合生成部３０３は、複数の部分列データを２つの部分列データ集合に分割するように部分列データ集合を作成することを、部分列データを増やしながら繰り返す。

また、実施の形態３において、確率分布生成部３０５は、確率分布に基づき、特徴量の平均値を算出し、判定部３０６は、当該平均値が所定の範囲内に収まっている場合に、確率分布が収束したと判定する。ここで、確率分布生成部３０５及び判定部３０６が用いる量は、平均値でなくてもよく、例えば、中央値や、外れ値を除外した上での平均値などでもよい。

実施の形態３に係るデータ量十分性判定装置３００の処理の具体例について、図１２を用いて説明する。
図１２は、実施の形態３に係るデータ量十分性判定装置３００の処理の具体例を説明するための概念図である。

図１２に示すように、データ集合生成部３０３は、ある部分列データ集合と、それと重複しない部分列データ集合の組み合わせを生成する。後者を追加部分列データ集合と呼ぶことにする。

また、図１２に示すように、確率分布生成部３０５は、部分列データ集合と追加部分列データ集合のそれぞれについて、特徴量の確率分布を生成する。そして、判定部３０６は、部分列データ集合の確率分布と追加部分列データ集合の確率分布とを比較する。例えばまず図のａとａ’を比較し、次にｂとｂ’を比較し、という具合である。そして、追加部分列データ集合の特徴量の分布が、対応する部分列データ集合の特徴量の分布の範囲の中に収まっていればデータ量が十分と判断する。より具体的には、追加部分列データ集合ｇ’の特徴量の平均が、部分列データ集合ｇの特徴量の平均±標準偏差区間に含まれれば十分と判断するといった方法がある。特徴量の分布の平均の他、最大値、最小値、四分位点などを利用して判断してもよい。

尚、図１２ではａとａ’を合わせた部分列データ集合が次の部分列データ集合ｂとなっているが、これに限らない。ａとａ’がｂ全体とｂ’の一部に対応してもよいし、ａとａ’がｂの一部に対応してもよい。

実施の形態３に係るデータ量十分性判定装置３００は、第一の部分列データ集合と、第一の部分列データ集合と共通の部分列データを含まない第二の部分列データ集合とを生成し、さらに、第一の部分列データ集合と、第二の部分列データ集合が含む少なくとも一つの部分列データとを合わせた第三の部分列データ集合を生成する。すなわち、ある部分列データ集合（第一の部分列データ集合）と追加部分列データ集合（第二の部分列データ集合）の確率分布を比較し、その次に、部分列データ集合と追加部分列データ集合を合わせた部分列データ集合（第三の部分列データ集合）と、新たな追加部分列データ集合（第四の部分列データ集合）の確率分布を比較するという動作を繰り返すことにより、データ量の十分性を判定する。

このように、比較する部分列データ集合において、共通の部分列データを含ませないことにより、より詳細に時系列データの特性を捉えることができ、データ量の十分性について、より正確な判定が可能となるという効果を奏する。また、実施の形態１及び２と比較して、より狭い期間の部分列データ集合における分布を参照することになり、より詳細に時系列データの特性を捉えることができ、データ量の十分性について、より正確な判定が可能となる。

また、実施の形態２と組み合わせ、特徴量算出部２４０は、部分列データの比較対から特徴量を算出するようにしてもよい。

実施の形態４．
次に、実施の形態４に係るデータ量十分性判定装置４００について説明する。
実施の形態１から３に係るデータ量十分性判定装置とは、異なる方法により部分列データ集合を生成する実施の形態について説明する。
以下、他の実施の形態と異なる部分を中心に説明する。

図１３は、実施の形態４に係る学習モデル生成システム４０００の構成を示す構成図である。学習モデル生成システム４０００は、データ量十分性判定装置４００、時系列データ管理装置４１０、及び学習装置４２０を備える。

時系列データ管理装置４１０は、他の実施の形態と同様に、時系列データ収集部４１１及び時系列データ記憶部４１２を備える。また、学習装置４２０も、他の実施の形態と同様に、学習用データ取得部４２１及び学習済モデル生成部４２２を備える。

データ量十分性判定装置４００は、時系列データ取得部４０１、データ分割部４０２、データ集合生成部４０３、特徴量算出部４０４、確率分布生成部４０５、及び判定部４０６を備える。

実施の形態４において、データ集合生成部４０３は、第一の部分列データ集合と、第一の部分列データ集合と共通の部分列データを含まない第二の部分列データ集合とを生成する。また、データ集合生成部４０３は、第一の部分列データ集合及び第二の部分列データ集合と共通の部分列データを含まない第三の部分列データ集合を生成する。
このように、データ集合生成部４０３は、他の部分列データ集合と共通の部分列データを含まない部分列データ集合を繰り返し生成する。

また、実施の形態４において、確率分布生成部４０５は、確率分布に基づき、特徴量の平均値を算出し、判定部４０６は、当該平均値が所定の範囲内に収まっている場合に、確率分布が収束したと判定する。実施の形態３と同様に、、確率分布生成部４０５及び判定部４０６が用いる量は、平均値でなくてもよく、例えば、中央値や、外れ値を除外した上での平均値などでもよい。

実施の形態４に係るデータ量十分性判定装置４００の処理の具体例について、図１４を用いて説明する。
図１４は、実施の形態４に係るデータ量十分性判定装置４００の処理の具体例を説明するための概念図である。

図１４に示すように、データ集合生成部４０３は、共通の部分列データを含まない複数の部分列データ集合を生成する。そして、判定部４０６は、複数の部分列データ集合と１つまたは複数の部分列データ集合の特徴量の確率分布を比較する。例えばａ，ｂ，ｃ，ｄ，ｅ，ｆとｇを比較し、次にａ，ｂ，ｃ，ｄ，ｅ，ｆ，ｇとｈを比較する。例えば、新たな部分列データ集合の特徴量の確率分布が、これまでの部分列データ集合の特徴量の分布のばらつきの中に収まっていればデータが十分と判断する。具体的には、ｈの特徴量の平均が、ａ～ｇの「特徴量の平均」の平均±標準偏差のＮ倍区間に収まっていれば十分と判断するなどである。特徴量の分布の平均の他、最大値、最小値、四分位点などを利用して判断してもよい。

実施の形態４に係るデータ量十分性判定装置４００は、第一の部分列データ集合と、第一の部分列データ集合と共通の部分列データを含まない第二の部分列データ集合とを生成し、さらに、第一の部分列データ集合及び第二の部分列データ集合と共通の部分列データを含まない第三の部分列データ集合を生成する。すなわち、データ量十分性判定装置４００は、共通の部分列データを含まない部分列データ集合を繰り返し生成し、各部分列データ集合の特徴量の確率分布を比較することにより、データ量の十分性を判定する。

このように、比較する部分列データ集合において、共通の部分列データを含ませないことにより、より詳細に時系列データの特性を捉えることができ、データ量の十分性について、より正確な判定が可能となるという効果を奏する。また、実施の形態３に係るデータ量十分性判定装置と比較して、さらに狭い期間の部分列データ集合に分割し、それぞれの分布を参照しているため、より詳細に特性を捉えることができ、より正確な判定が可能となる。

実施の形態５．
次に、実施の形態５に係るデータ量十分性判定装置５００について説明する。

図１５は、実施の形態５に係る学習モデル生成システム５０００の構成を示す構成図である。学習モデル生成システム５０００は、データ量十分性判定装置５００、時系列データ管理装置５１０、及び学習装置５２０を備える。

時系列データ管理装置５１０は、他の実施の形態と同様に、時系列データ収集部５１１及び時系列データ記憶部５１２を備える。また、学習装置５２０も、他の実施の形態と同様に、学習用データ取得部５２１及び学習済モデル生成部５２２を備える。

データ量十分性判定装置５００は、時系列データ取得部５０１、データ分割部５０２、データ集合生成部５０３、特徴量算出部５０４、確率分布生成部５０５、及び判定部５０６を備える。

これまで、１回の比較結果に基づいてデータが十分かどうかを判定する形態を説明してきたが、実施の形態５に係る判定部５０６は、複数回の比較結果を総合してデータが十分であると判定する。例えば、Ｍ回連続して比較結果が基準条件を満たしたときに十分と判定してもよいし、最後のＭ回中Ｐ回以上比較結果が基準条件を満たしたときに十分と判定してもよい。
実施の形態５に係るデータ量十分性判定装置５００は、１回ではなく複数回の比較結果に基づき判定するため、誤判定の可能性が削減され、判定精度が向上するという効果を奏する。

また、実施の形態５は、実施の形態１から４と適宜組み合わせてもよい。

実施の形態６．
次に、実施の形態６について説明する。

実施の形態１から実施の形態５までは、部分列データおよび部分列データ集合の取得の際、起点を１つとしてきたが、実施の形態６では、複数の起点に基づく部分列データおよび部分列データ集合の生成を行う。以下では、実施の形態１から実施の形態５までとは異なる部分を中心に説明する。

図１６は、実施の形態６に係る学習モデル生成システム６０００の構成を示す構成図である。学習モデル生成システム６０００は、データ量十分性判定装置６００、時系列データ管理装置６１０、及び学習装置６２０を備える。

時系列データ管理装置６１０は、他の実施の形態と同様に、時系列データ収集部６１１及び時系列データ記憶部６１２を備える。また、学習装置６２０も、他の実施の形態と同様に、学習用データ取得部６２１及び学習済モデル生成部６２２を備える。

データ量十分性判定装置６００は、時系列データ取得部６０１、データ分割部６０２、データ集合生成部６０３、特徴量算出部６０４、確率分布生成部６０５、及び判定部６０６を備える。

実施の形態６において、データ集合生成部６０３は、第一の時刻から第二の時刻までに含まれる時系列データから複数の部分列データ集合を有する第一セットを生成し、第三の時刻から第四の時刻までに含まれる時系列データから複数の部分列データ集合を有する第二セットを生成する。ここで、セットとは、複数の部分列データ集合を有し、判定部６０６が基準条件を満たしているか判定を行う単位となる量であり、第一セットが第１の起点に基づく部分列データ集合の集まり、第二セットが第２の起点に基づく部分列データ集合の集まりである。ここで、第一の時刻が第１の起点であり、第三の時刻が第２の起点である。また、第二の時刻、すなわち第１セットの終点と、第三の時刻、すなわち第２セットの終点の位置は任意であり、第二の時刻（第１の終点）と第三の時刻（第２の起点）の順序関係については、どちらが先であってもよいが、第一の時刻（第１の起点）より第三の時刻（第２の起点）の方が後の時刻である状況について考える。

そして、判定部６０６は、第一セットと第二セットの両方で基準条件を満たしている場合に、時系列データの量が十分であると判定する。ここで、データ集合生成部６０３は、さらに第三セット以降を生成し、判定部６０６は、第一セットから第三セットの全てにおいて基準条件を満たしている場合に、時系列データの量が十分であると判定するようにしてもよい。

実施の形態６に係るデータ量十分性判定装置６００の処理の具体例について、図１７を用いて説明する。
図１７は、実施の形態６に係るデータ量十分性判定装置６００の処理の具体例を説明するための概念図である。

図１７に示すように、データ集合生成部６０３は、第１の起点に基づく部分列データ集合を１ａ、１ｂ、１ｃ・・・、第２の起点に基づく部分列データ集合を２ａ、２ｂ、２ｃ・・・として生成する。そして、判定部６０６は、それぞれの起点毎に、確率分布が収束しているかを判定することにより、データが十分であるか判定し、それらの判定結果を総合して、最終的な判定結果として、データが十分であるか判定する。この起点の位置は一定間隔で定めても良いし、ランダムに決めても良い。

対象とするデータは周期波形である必要はないが、特定のパターンが繰り返し出る、想定している波形のどれかが任意のタイミングで出現するような波形を想定している。正常波形の場合は、想定していない波形が混在することはなく、もし混在した場合は、それは異常波形である。このような想定より、それぞれの起点の位置における、起点からの十分なデータ量はおおむね同程度のデータ量となることが期待される。よってこの方法が利用できる。

実施の形態６に係るデータ量十分性判定装置６００は、データ集合生成部６０３が、第一の時刻から第二の時刻までに含まれる時系列データから複数の部分列データ集合を有する第一セットを生成し、第三の時刻から第四の時刻までに含まれる時系列データから複数の部分列データ集合を有する第二セットを生成し、判定部６０６が、第一セットと第二セットの両方で所定の条件を満たしている場合に、時系列データの量が十分であると判定する。すなわち、データ量十分性判定装置６００は、１箇所ではなく複数個所の起点に基づき判定するため、誤判定の可能性が削減され、判定精度が向上するという効果を奏する。

また、実施の形態６は、実施の形態１から５と適宜組み合わせてもよい。

以下において、本開示に係るデータ量十分性判定装置の変形例について説明する。

上述の実施の形態において示した部分列データ集合の生成方法はあくまで例示であって、発明の目的および機能を満たすならば、他の生成方法であっても良い。例えば、部分列データ集合のデータ量の増やし方が一定間隔である例を示したが、徐々に間隔を大きくしてもよい（例えば指数的に増やす）し、または徐々に間隔を小さくしてもよい（例えば対数的に増やす）。実施の形態１の場合、データの追加量はそれまでのデータ量に対して相対的に減っていくため、特徴量の分布の比較結果の差が小さくなる場合や、特徴量の分布の比較結果の誤差が期待値に対して大きくなる場合が考えられる。そのため、それらを防ぐために、徐々に間隔を大きくしていくことが有効である。また、データを増やすにつれて十分なデータ量に近づいていくことを想定すると、徐々に細かく確認することでより高精度に十分であると判定できる可能性がある。そのようなときに、間隔を徐々に小さくしていくことが有効である。
また、データ集合生成部は、第１グループの部分列データと、第２グループの部分列データと、をそれぞれ等しいデータ量で生成しても良い。

また、上述の実施の形態において示した確率分布の比較方法はあくまで例示であって、発明の目的および機能を満たすならば、他の比較方法であっても良い。例えば、各グループの確率分布を確率密度関数で近似して、近似した確率密度関数同士を比較しても良い。

さらに、実施の形態２において示した比較対の生成方法はあくまで例示であって、発明の目的および機能を満たすならば、他の生成方法であっても良い。例えば、先頭の部分列データとの組み合わせを比較対とするのではなく、時間的に隣接する部分列データ同士を比較対とする方法でも良い。また、例えば、部分列データ集合ａの部分列データと、他の部分列データ集合の部分列データとの比較対を使用して特徴量を算出しても良い。この場合、第１グループのａ、ｂ、ｃ、ｄおよびｅから、ａ対ｂ、ａ対ｃ、ａ対ｄ、ａ対ｅといった４つの特徴量の確率分布が算出される。

本開示に係るデータ量十分性判定装置は、例えば、工場のＦＡ（ＦａｃｔｏｒｙＡｕｔｏｍａｔｉｏｎ）システムや電力プラントの発電システムに用いるのに適している。より具体的には、データ量十分性判定装置が十分性を判定するデータとして、工場のＦＡシステムにおける製造機器および製造装置に取り付けたセンサから出力される、トルクや電流、電圧などのデータ、または、電力プラント（発電所）内の機器で測定されるデータや別途取り付けたセンサから出力される、電流、電圧、圧力、温度などのデータが想定される。工場では製品が繰り返し製造されることが多く、製造時に取得されるデータは、周期的な波形や、周期的な波形でなくとも、特定の１つまたは複数のパターンが繰り返し出現するような波形であることが想定される。また、電力プラントも、起動、稼働中、停止の処理を１つのサイクルとして繰り返され、また、稼働中であっても、定期的に試験動作が行われ、それに伴う波形パターンが出現することが想定される。

１００，２００，３００，４００，５００，６００データ量十分性判定装置、１１０，２１０，３１０，４１０，５１０，６１０時系列データ管理装置、１２０，２２０，３２０，４２０，５２０，６２０学習装置、１０００，２０００，３０００，４０００，５０００，６０００学習モデル生成システム、１０１，２０１，３０１，４０１，５０１，６０１時系列データ取得部、１０２，２０２，３０２，４０２，５０２，６０２データ分割部、１０３，２０３，３０３，４０３，５０３，６０３データ集合生成部、１０４，２０４，３０４，４０４，５０４，６０４特徴量算出部、１０５，２０５，３０５，４０５，５０５，６０５確率分布生成部、１０６，２０６，３０６，４０６，５０６，６０６判定部、１１１，２１１，３１１，４１１，５１１，６１１時系列データ収集部、１１２，２１２，３１２，４１２，５１２，６１２時系列データ記憶部、１２１，２２１，３２１，４２１，５２１，６２１学習用データ取得部、１２２，２２２，３２２，４２２，５２２，６２２学習済モデル生成部。

Claims

時系列データを取得する時系列データ取得部と、
前記時系列データを複数の部分列データに分割するデータ分割部と、
前記部分列データの集合である部分列データ集合を複数生成するデータ集合生成部と、
前記部分列データの特徴量を算出する特徴量算出部と、
前記部分列データ集合毎に前記特徴量の確率分布を生成する確率分布生成部と、
前記確率分布が収束したか否かを判定する判定部と、
を備えるデータ量十分性判定装置。
前記データ集合生成部は、第一の部分列データ集合に前記第一の部分列データ集合が含まない部分列データを追加することにより、第二の部分列データ集合を生成する
ことを特徴とする請求項１に記載のデータ量十分性判定装置。
前記データ集合生成部は、第一の部分列データ集合と、第一の部分列データ集合と共通の前記部分列データを含まない第二の部分列データ集合とを生成する
ことを特徴とする請求項１に記載のデータ量十分性判定装置。
前記データ集合生成部は、前記第一の部分列データ集合と、前記第二の部分列データ集合が含む少なくとも一つの部分列データとを合わせた第三の部分列データ集合を生成する
ことを特徴とする請求項３に記載のデータ量十分性判定装置。
前記データ集合生成部は、前記第一の部分列データ集合及び前記第二の部分列データ集合と共通の部分列データを含まない第三の部分列データ集合を生成する
ことを特徴とする請求項３に記載のデータ量十分性判定装置。
前記データ集合生成部は、前記部分列データ集合を複数有する第一グループと、前記第一グループと同じ数の前記部分列データ集合を有し、前記第一グループが有さない部分列データ集合を少なくとも一つ有する第二グループと、を生成し、
前記確率分布生成部は、前記第一グループが有する前記部分列データ集合の前記確率分布と、前記第二グループが有する前記部分列データ集合の前記確率分布との類似度を算出し、
前記判定部は、前記類似度が収束した場合に、前記確率分布が収束したと判定する
ことを特徴とする請求項１または２に記載のデータ量十分性判定装置。
前記特徴量算出部は、前記部分列データ毎に前記特徴量を算出する
ことを特徴とする請求項１から６のいずれか一項に記載のデータ量十分性判定装置。
前記特徴量算出部は、第一の部分列データと第二の部分列データとの比較値を前記特徴量として算出する
ことを特徴とする請求項１から６のいずれか一項に記載のデータ量十分性判定装置。
前記データ集合生成部は、第一の時刻から第二の時刻までに含まれる前記時系列データから複数の前記部分列データ集合を有する第一セットを生成し、前記第三の時刻から第四の時刻までに含まれる前記時系列データから複数の前記部分列データ集合を有する第二セットを生成し、
前記判定部は、前記第一セットと前記第二セットの両方で所定の条件を満たしている場合に、前記時系列データの量が十分であると判定する
ことを特徴とする請求項１から８のいずれか一項に記載のデータ量十分性判定装置。
時系列データを取得する時系列データ取得部と、
前記時系列データを複数の部分列データに分割するデータ分割部と、
前記部分列データの集合である部分列データ集合を複数生成するデータ集合生成部と、
前記部分列データの特徴量を算出する特徴量算出部と、
前記部分列データ集合毎に前記特徴量の確率分布を生成する確率分布生成部と、
前記確率分布が収束したか否かを判定する判定部と、
前記判定部が、前記確率分布が収束したと判定した場合に、前記時系列データを学習用データとして取得する学習用データ取得部と、
前記学習用データを用いて学習モデルの学習を行い、学習済みの学習モデルを生成する学習済モデル生成部と、
を備える学習モデル生成システム。
コンピュータが、時系列データを取得する時系列データ取得工程と、
コンピュータが、前記時系列データを複数の部分列データに分割するデータ分割工程と、
コンピュータが、前記部分列データの集合である部分列データ集合を複数生成するデータ集合生成工程と、
コンピュータが、前記部分列データの特徴量を算出する特徴量算出工程と、
コンピュータが、前記部分列データ集合毎に前記特徴量の確率分布を生成する確率分布生成工程と、
コンピュータが、前記確率分布が収束したか否かを判定する判定工程と、
を含むデータ量十分性判定方法。
請求項１１に記載の全工程をコンピュータに実行させるデータ量十分性判定プログラム。
コンピュータが、時系列データを取得する時系列データ取得工程と、
コンピュータが、前記時系列データを複数の部分列データに分割するデータ分割工程と、
コンピュータが、前記部分列データの集合である部分列データ集合を複数生成するデータ集合生成工程と、
コンピュータが、前記部分列データの特徴量を算出する特徴量算出工程と、
コンピュータが、前記部分列データ集合毎に前記特徴量の確率分布を生成する確率分布生成工程と、
コンピュータが、前記確率分布が収束したか否かを判定する判定工程と、
コンピュータが、前記判定工程において、前記確率分布が収束したと判定した場合に、前記時系列データを学習用データとして取得する学習用データ取得工程と、
コンピュータが、前記学習用データを用いて学習モデルの学習を行い、学習済みの学習モデルを生成する学習済モデル生成工程と、
を含む学習済みの学習モデル生成方法。
請求項１３に記載の全工程をコンピュータに実行させる学習済みの学習モデル生成プログラム。