JP6740157B2 - 解析装置、解析方法、及び、プログラム - Google Patents

解析装置、解析方法、及び、プログラム Download PDF

Info

Publication number
JP6740157B2
JP6740157B2 JP2017047837A JP2017047837A JP6740157B2 JP 6740157 B2 JP6740157 B2 JP 6740157B2 JP 2017047837 A JP2017047837 A JP 2017047837A JP 2017047837 A JP2017047837 A JP 2017047837A JP 6740157 B2 JP6740157 B2 JP 6740157B2
Authority
JP
Japan
Prior art keywords
variable
feature amount
regression model
data
explanatory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017047837A
Other languages
English (en)
Other versions
JP2018151883A (ja
Inventor
正彬 高田
正彬 高田
西川 武一郎
武一郎 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2017047837A priority Critical patent/JP6740157B2/ja
Priority to KR1020170109511A priority patent/KR20180104542A/ko
Priority to US15/692,796 priority patent/US11216741B2/en
Publication of JP2018151883A publication Critical patent/JP2018151883A/ja
Application granted granted Critical
Publication of JP6740157B2 publication Critical patent/JP6740157B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Description

本発明の実施形態は、解析装置、解析方法、及び、プログラムに関する。
上下水道プラント、発電プラント、化学プラントといったプラント管理において、重要な品質指標を目的変数とし、種々の特徴量を説明変数とする回帰モデルを構築し、特徴量の影響度を推定することが広く行われている。また、説明変数が多い場合、罰則項付回帰モデルを用いて、自動的に特徴量の抽出と回帰モデルの構築を行うことが可能である。
しかしながら、罰則項付き回帰モデルの手法では、説明変数として選択された特徴量に類似する特徴量(共線性の高い特徴量)は、抽出されないという特徴がある。この結果、重要な要因が見落とされやすいという問題がある。
特許第5108116号公報 国際公開第2015/145500号 国際公開第2016/088362号
そこで、本発明の実施形態は、抽出された特徴量と類似性の高い特徴量を抽出する。
一実施形態に係る解析装置は、複数の特徴量を含む解析対象データを用いて、前記複数の特徴量のうちの1つを目的変数として回帰分析することにより、それぞれ前記複数の特徴量のいずれか1つに対応する複数の説明変数と、前記複数の説明変数の回帰係数とによって前記目的変数を表す回帰モデルを構築する、回帰モデル構築部と、前記解析対象データにおいて前記目的変数及び前記複数の説明変数に対応する特徴量以外の特徴量について、前記複数の説明変数のそれぞれとの類似度を計算し、前記類似度が所定値と比較して高い類似特徴量を抽出する、類似特徴量抽出部と、を備える。
第1実施形態に係る解析装置のブロック図。 第1実施形態に係る解析処理の一例を示すフローチャート。 目的変数と説明変数の一例を示す図。 目的変数とカテゴリ変数を有する説明変数の一例を示す図。 カテゴリ変数をダミー変数化した説明変数の一例を示す図。 第1実施形態に係る影響性表示処理の一例を示すフローチャート。 説明変数及び類似特徴量の回帰係数の結果表示の一例を示す図。 説明変数及び類似特徴量の影響度の結果表示の一例を示す図。 ネットワーク図の出力結果の一例を示す図。 第1実施形態に係る精度表示処理の一例を示すフローチャート。 第2実施形態に係る解析装置のブロック図。 説明変数をグループ化した一例を示す図。 グループ化された説明変数の回帰係数の結果表示の一例を示す図。 グループ化された類似特徴量の回帰係数の結果表示の一例を示す図。 ネットワーク図の出力結果の一例を示す図。 ネットワーク図の出力結果の別の例を示す図。 本実施形態に係る解析システムの構成の一例を示す図。
以下、図面を参照しながら、本発明の実施形態について詳しく説明する。
(第1実施形態)
本実施形態に係る解析装置は、上下水道プラント、発電プラント、化学プラントで行われる産業プロセスにより生成されるデータを蓄積するデータ管理システムにおいて、特定の特性値の変動要因となる特徴量を抽出する解析装置である。データは、プロセス内に設置されたセンサから取得される値(センサ値)や、プロセス条件や目標値といった管理者により設定されている設定値が含まれる。データのうち、特に品質に重要な特性値(以下、重要特性値)は常時監視されている。品質管理では、この重要特性値(目的変数)の変動、あるいは、その予兆を検知し、変動要因を特定し、対策の検討・実施を行う。解析装置は、この重要特性値の変動要因の特定を支援するものである。
図1は、本実施形態に係る解析システム1を示すブロック図である。解析システム1は、データ管理システム2と、解析装置3と、ユーザ入出力インターフェース4(以下、ユーザ入出力I/F 4と記載する。)と、を備えている。
データ管理システム2は、プラントの産業プロセス中に生成されたデータを管理するシステムであり、例えば、データベースを備える。図1においては、解析装置3とは別の構成となっているが、これには限られず、解析装置3内に備えられていてもよい。
解析装置3は、データ管理システム2に蓄積されているデータに基づいて、目的変数となる重要特性値の変動要因を特定する装置であり、データ洗浄部300と、解析対象データ格納部302と、回帰モデル構築部304と、類似特徴量抽出部306と、要因・影響度格納部310と、要因・影響度表示部312と、精度算出部314と、精度格納部316と、精度表示部318と、解析対象データ設定部320と、パラメータ設定部322と、を備える。
データ洗浄部300は、データ管理システム2に格納されているデータを取得し、取得したデータを必要に応じて加工して、解析対象データを生成する。データの取得は、ユーザがその期間や特徴量を指定したり、所定の設定項目、設定値を利用したりする。取得したデータの加工として、データに欠陥等がある場合に、欠測処理、異常値処理を行い、また、カテゴリ変数がある場合には、ダミー変数化といった処理を行う。
欠測処理においては、データに欠測がある場合に、その欠測を除去したり、他のデータから補間したりする。異常値処理においては、データに異常値がある場合に、当該値が適正な範囲となるように、除去したり、補正したりする。ダミー変数化処理においては、値がA、Bといったカテゴリ値(離散値)を有する場合に、カテゴリ値を0または1のダミー変数に変換する。このようにして生成された解析対象データは、それぞれ異なる時刻に対応する複数の特徴量を含む。なお、個々の時刻における特徴量セットは、サンプルとも呼ばれる。
データ洗浄部300は、解析対象データを解析対象データ格納部302へと格納する。本実施形態において、複数の特徴量のうち、重要特性値を目的変数として扱う。その他の特徴量(特性値)は、説明変数として扱う。
なお、重要特性値である目的変数は、あらかじめデータ管理システム2において別に保持されていてもよい。この場合、データ洗浄部300は、目的変数の抽出を行うことなく、上述した欠測処理等を行い、データ管理システム2上の目的変数データと、データ洗浄した解析対象データとを解析対象データ格納部302へと格納する。
回帰モデル構築部304は、目的変数である重要特性値に対して、その変動を説明する回帰モデルを構築する。回帰モデル構築に必要な各種パラメータは、パラメータ設定部322により設定される。回帰モデルは、サンプル数をn、特徴量の数をpとし、目的変数をy∈R、説明変数をX∈Rn×p、回帰係数をβ∈Rとすると、y=Xβと表される。定数項αを追加して、y=Xβ+αとしてもよい。
特徴量が膨大にある場合には、過学習を抑制し、解釈性を高めるために、説明変数となる特徴量を選択(特徴選択)する必要がある。特徴選択と、回帰モデル構築を同時に実行する方法として、罰則項付回帰モデルがある。罰則項付回帰モデルでは、回帰モデルの尤度関数に、回帰係数に応じた罰則項を追加し、最適化を行う。代表的な手法としては、Lasso(Least Absolute Selection and Shrinkage Operator)がある。Lassoは、以下の式(1)で表す最適化問題に帰着される。
Figure 0006740157
ただし、式(1)において、X(={x,x,・・・,x})に対して、xは、平均が0、標準偏差が1となるように変換されており、yは、平均が0となるように変換されている。式中のノルム記号は、ベクトルz={z,z,・・・,z}に対して、以下のように定義される。
Figure 0006740157
Figure 0006740157
。||z||、||z||は、それぞれベクトルzのL1ノルムと、L2ノルムを表す。
Lassoは、この最適化問題を解くことにより、特徴選択と回帰モデル構築とを同時に最適化する。なお、用いる手法は、Lassoには限られず、Elastic Net、Ridge、Group Lasso、Adaptive Lasso、SCAD(Smoothly Clipped Absolute Deviation)と言った他の罰則項付回帰モデルを用いてもよい。また、罰則項付回帰モデル以外であっても、回帰モデルが出力される手法であれば、例えば、AIC(赤池情報量基準:Akaike’s Information Criteria)、BIC(ベイズ情報量基準:Bayesian Information Criteria)を用いたステップワイズ法といった手法を用いてもよい。上記の手法で求めた回帰係数βの要素には、非ゼロの要素と、0の要素が存在し、非ゼロの回帰係数に対応する特徴量を選択する。別の手法として、0より大きい閾値以上の値を有する要素に対応する特徴量のみを選択してもよい。回帰モデル構築部304は、選択した特徴量と、その回帰係数とを含む回帰モデル350を出力する。
類似特徴量抽出部306は、回帰モデル構築部304により説明変数として選択されなかった特徴量に対して、説明変数との類似度を解析し、類似度が所定の値と比較して高い特徴量である類似特徴量を抽出する。類似特徴量の抽出に必要な各種パラメータは、パラメータ設定部322により設定される。類似度の解析は、解析対象データ格納部302に格納されているデータ及び回帰モデル350(例えば選択された特徴量)に基づいて行う。例えば、相関係数や偏相関係数を算出することにより行われる。相関係数を用いる場合には、選択された特徴量をxとし、その他の特徴量(選択されなかった特徴量)をxとすると、x /nと表される。ただし、xおよびxのそれぞれは、平均が0、標準偏差が1となるように標準化されているとする。ここで、xは、ベクトルxの転置ベクトルを意味する。
また、類似度は、回帰モデル構築部304で選択された特徴量(説明変数)xの寄与ベクトルβに対して、選択されなかった各特徴量xで回帰分析を行った結果の決定係数または決定係数の平方根であってもよい。具体的に、回帰モデル構築部304で選択された全ての説明変数xと、選択されなかった全ての特徴量xとに対して、それぞれの組合せ(x、x)について、以下の式(4)で示される回帰問題を解く。ただし、以下の式において、j≠kであるものとする。
Figure 0006740157
この回帰問題の決定係数は、xとxの類似として見ることができる。式(4)の場合における決定係数は、相関係数(x )の2乗に一致する。回帰問題として類似度を計算することにより、後述する影響度を計算することが可能となる。
類似度(xとxの類似度をrjkと表す)が、所定のしきい値θ以上となった場合(rjk≧θ)、xを類似特徴量として抽出する。このしきい値θは、あらかじめ固定された値を用いるものであってもよいし、ユーザがインタラクティブに設定するものであってもよい。一例として、標準化された相関係数が0.8となる値を所定のしきい値θとして設定してもよい。これには限られず、ユーザやシステムにより、あらかじめ設定されていてもよい。この設定は、プラントの種別やプラントの状況、又は、目的変数に基づいて決められるものであってもよい。また、選択される特徴量の数などの条件により、自動的にしきい値が決定されてもよい。
類似特徴量抽出部306は、例えば、回帰モデル構築部304で選択された特徴量xと、類似特徴量xと、類似度rjkと、回帰係数βと、の組合せを類似性モデル352として出力する。類似度rjkの算出方法も、上述したものには限られず、類似性を算出する手法であれば何でもよい。
影響度算出部308は、回帰モデル構築部304が構築した回帰モデル350に基づいて各説明変数が目的変数へと与える影響を示す指標である影響度を算出する。また、影響度算出部308は、類似特徴量抽出部306が算出した類似性モデル352に基づいて、各類似特徴量が目的変数へと与える影響を示す指標である影響度を算出する。そして、影響度算出部308は、算出した影響度を要因・影響度格納部310へと格納する。
各説明変数の影響度は、それぞれの説明変数が、目的変数へと与える影響を数値化したものである。本実施形態において、目的変数に対する各説明変数の影響度として、例えば、回帰モデル350における各説明変数の回帰係数β、又は、回帰係数βにxの標準偏差σ(x)を掛け合わせたβσ(x)を用いる。
類似特徴量の影響度についても同様であり、それぞれの類似特徴量が、目的変数へと与える影響を数値化したものである。目的変数に対する類似特徴量の影響度としては、例えば、類似特徴量抽出部306が出力した類似特徴量の回帰係数β、又は、回帰係数βに類似特徴量xの標準偏差を掛けたβσ(x)を用いる。
要因・影響度格納部310は、回帰モデル構築部304が出力した回帰モデル350のデータ、影響度算出部308が算出した影響度、及び、類似特徴量抽出部306が出力した類似性モデル352のデータを格納する。
要因・影響度表示部312は、要因・影響度格納部310に格納されている各種データを出力し、ユーザ入出力I/F 4を介して表示する。ユーザは、ユーザ入出力I/F 4に表示されたデータを元に、要因の特定を行ったり、各種パラメータの再設定等を行ったりする。表示されるデータとして、抽出された特徴量をリスト化してもよい。さらに、リスト内の特徴量を、それぞれの影響度に基づいて優先付けし、優先度順に並べて表示するようにしてもよい。
要因・影響度表示部312は、回帰モデル構築部304により抽出された特徴量xについて、回帰係数βを表示することにより、説明変数(特徴量)が1増加した場合の目的変数の変化量を可視化することができる。これに加え、要因・影響度表示部312は、影響度としてβσ(x)を表示することにより、目的変数への説明変数(特徴量)の影響性を可視化することもできる。
類似特徴量についても同様に、要因・影響度表示部312は、類似特徴量抽出部306が出力した類似特徴量の回帰係数βを表示することにより、類似特徴量が1増加した場合の目的変数の変化量を可視化できる。また、類似特徴量の影響度としてβσ(x)を表示することにより、類似特徴量が目的変数へ与える影響性を可視化することもできる。
精度算出部314は、回帰モデル構築部304により生成された回帰モデルの精度を算出する。精度算出部314は、回帰モデル構築部304が出力した回帰モデル350に、解析対象データを適用し、回帰モデル350の精度を算出する。精度の指標には、平均2乗誤差、交差検証平均2乗誤差、決定係数、自由度調整付決定係数等を用いる。入力する解析対象データは、モデル化に利用したデータと同一のデータであってもよいし、異なるデータであってもよい。このように、精度算出部314が算出した精度のデータは、精度格納部316へと格納される。
また、精度算出部314が算出した精度に基づいて回帰分析を再度行ってもよい。例えば、精度算出部314により交差検証を行い、精度を算出し、精度に基づいて回帰分析を再度行うことにより、過学習(オーバーフィッティング)等の問題を回避し、汎化性能を向上させることもできる。
精度表示部318は、精度格納部316に格納されている精度データをユーザ入出力I/F 4を介してユーザへと表示する。ユーザは、精度を確認することにより、回帰モデルでどの程度要因を説明できるかを理解することが可能である。また、この精度の表示は、目的変数の実績値と、回帰モデルに説明変数データを代入して得られる推定値とを表示するものであってもよい。表示方法としては、数値で表示するものであってもよいし、グラフで表示するものであってもよい。
解析対象データ設定部320は、解析対象とするデータの期間や、解析で使用する特徴量の設定を行う。設定値は、あらかじめ所定の値を設定しておいてもよい。また、精度等を確認し、より高精度なモデルの構築を行いたい場合や、明らかな誤りであると認識される要因(特徴量)を排除するように、対象期間を変更したり(例えば長くする)、解析対象から特定の特徴量を外すことも可能である。この設定は、ユーザにより変更できるようにしてもよいし、精度情報等に基づき自動的に変更できるものであってもよい。
例えば、精度が所定の値よりも低い場合には、解析対象とするデータの期間を現状よりも長くしてノイズの影響を抑制したり、説明変数の目的変数に対する影響度が所定の値より小さい場合には、当該説明変数が選択されないようにしたりすることもできる。解析対象データ設定部320は、上記のような条件に当てはまる場合に、自動的に解析対象とするデータの期間の設定、又は、排除する特徴量の設定をできるようにしておいてもよい。なお、設定方法はこれには限られない。
パラメータ設定部322は、回帰モデル構築部304での回帰モデル構築に用いるパラメータと、類似特徴量抽出部306での類似特徴量の抽出に用いるパラメータとを設定する。回帰モデル構築用のパラメータでは、例えば、Lassoに用いられる正則化パラメータλを設定する。正則化パラメータλに複数通り値を設定し、複数の回帰モデルの構築を行うようにしてもよい。この場合、それぞれのモデルに応じて類似特徴量が抽出される。また、別の例としては、特徴量ごとに罰則項の重みを設定し、これらの罰則項重みにあらかじめ優先度付けをしておいてもよい。
類似特徴量抽出用のパラメータでは、例えば、類似特徴量を抽出するために用いる類似度のしきい値を設定する。回帰モデル構築用パラメータと同様に、複数のしきい値を設定し、複数のパターンで解析を行うようにしてもよい。また、抽出する特徴量の数などの設定をして、それに応じたしきい値を自動的に設定するようにしてもよい。精度や抽出要因(抽出された特徴量)を確認し、抽出要因の拡大や優先度付けのために、ユーザは、パラメータ設定部322を介してパラメータの設定を変更することが可能である。
これらの設定、すなわち、解析対象データ設定部320における設定、及び、パラメータ設定部322における設定を、ユーザが行う場合、ユーザは、ユーザ入出力I/F 4を介してそれぞれの設定部に任意の値を設定する。このようにパラメータを設定することにより、解析装置3が自動的に、又は、ユーザからの指示にしたがい、回帰モデル構築の精度や、抽出する類似特徴量の調整を行う。
ユーザ入出力I/F 4は、ユーザへの情報の出力、及び、ユーザからの入力を受け付けるインターフェースである。例えば、ディスプレイ、タブレット、スマートホン、スピーカ、プリンタ等、ユーザへと情報を出力する出力装置と、キーボード、マウス、タッチパネル、マイク等、ユーザからの入力を受け付ける入力装置と、を備える。また、タッチパネル付ディスプレイ等、入力装置と出力装置とを兼ね備える装置を備えて構成されていてもよい。
以下、それぞれの処理についてフローチャートを用いて説明する。まず、回帰モデル構築と、類似特徴量抽出処理について説明する。図2は、本実施形態に係る回帰モデル構築処理、及び、類似特徴量抽出処理についての処理の流れを示すフローチャートである。フローチャートにおける左側のレーンは、パラメータ設定等の解析装置3が自動的に行う処理、又は、ユーザにより任意のタイミングで行う処理を示し、右側のレーンは、解析装置3における演算処理等を示す。左側のレーンの処理がユーザにより実行される場合には、それぞれの処理の後にユーザからの指示待ち状態になるようにしてもよい。なお、ユーザがパラメータ等の設定をする場合、ユーザは、ユーザ入出力I/F 4を介して解析装置3へパラメータ等の設定を行う。
まず、解析対象データ設定部320により解析対象データの設定が実行される(ステップS100)。データ管理システム2に格納されているデータのうち、解析対象データを取得する条件が設定され、この設定は、データ洗浄部300へと通知される。
次に、通知を受けたデータ洗浄部300は、データ管理システム2に格納されているデータのうち、解析対象データの取得処理を行う(ステップS202)。データの取得は、上述したように、設定された期間等に格納されたデータの取得を行う。また、取得処理と併せて、データの欠測処理、異常値処理等の洗浄処理も行う。
図3は、データ洗浄部300により処理された目的変数y、及び、特徴量x、xの一例を示す表である。このように、監視している目的変数の値ごとに、複数の特徴量の値が存在する。例えば、y=5.1との観測結果が出ている場合に、x=2.3、x=1.1という特徴量を有していることを意味する。
図2に戻り、次に、データ洗浄部300は、取得したデータにカテゴリ値が存在するか否かを判定する(ステップS204)。カテゴリ値が存在する場合(ステップS204:Yes)、データ洗浄部300は、続いて、カテゴリ値のダミー変数化の処理を行う。一方で、カテゴリ値が存在しない場合(ステップS204:No)、ステップS206の処理はスキップされる。
ステップS206の処理は、例えば、図4に示すように、解析対象データがxのようなカテゴリ値を含む場合、図5のようにダミー変数を設定し、解析対象データ格納部302へと格納する。具体的には、xは、A、B、又は、Cというカテゴリ値を有する変数であるが、このままの形では回帰分析を行うことが困難であるため、図5のように、x[A]、x[B]、x[C]のようなダミー変数を設定する。
=Aの場合には、x[A]=1、x[B]=0、x[C]=0となるように、各カテゴリ値に対応するダミー変数が1、他のダミー変数が0となるようにダミー変数の値が設定される。このようにカテゴリ値がある場合には、カテゴリ値は、ダミー変数へと変換される。
図2に戻り、次に、パラメータ設定部322は、回帰モデル構築パラメータを設定する(ステップS108)。設定された回帰モデル構築パラメータは、回帰モデル構築部304へと通知される。
次に、パラメータ設定部322は、類似特徴量パラメータを設定する(ステップS110)。設定された類似特徴量パラメータは、類似特徴量抽出部306へと通知される。なお、ステップS108と、ステップS110の処理を分けて行う必要は無く、パラメータ設定部322は、設定された各々のパラメータを、それぞれ回帰モデル構築部304と、類似特徴量抽出部306とに同じタイミングで通知するようにしてもよい。
次に、回帰モデル構築部304、及び、類似特徴量抽出部306は、それぞれにパラメータ設定部322から通知されたパラメータを取得する(ステップS212)。この後、回帰モデル構築部304、及び、類似特徴量抽出部306は、回帰モデル構築の実行指示、及び、類似特徴量抽出の実行指示があるまで待機状態となる。
次に、回帰モデル構築の実行指示がされる(ステップS114)。ユーザにより実行指示が為される場合、ユーザ入出力I/F 4を介して回帰モデル構築部304へと回帰モデルを構築する旨の指示が通知される。
次に、実行指示を受信した回帰モデル構築部304は、解析対象データ格納部302に格納されている目的変数に対して、説明変数と回帰係数の算出処理を行う(ステップS216)。上述したように、この処理は、例えば、Lassoを用いることにより、解析対象データからの説明変数の選択と、回帰モデルの構築とを同時に行うようにしてもよい。回帰モデル構築部304は、算出された回帰係数等のモデル構成要素値を含む回帰モデル350を、精度算出部314、類似特徴量抽出部306、影響度算出部308へと出力するとともに、要因・影響度格納部310へと格納する。要因・影響度表示部312は、このタイミングにおいて、回帰モデルが構築されたこと、そして、回帰モデルをユーザ入出力I/F 4を介してユーザへと出力してもよい。
次に、類似特徴量抽出の実行指示がされる(ステップS118)。ユーザにより実行指示が為される場合、ユーザ入出力I/F 4を介して類似特徴量抽出部306へと類似特徴量抽出処理を行う旨の指示が通知される。
次に、実行指示を受信した類似特徴量抽出部306は、回帰モデル構築部304が出力した回帰モデル350、及び、解析対象データ格納部302に格納されている解析対象データに基づいて、ステップS216で説明変数として抽出されなかった各特徴量と、各説明変数との間の類似度を解析、計算する(ステップS220)。
続いて、類似特徴量抽出部306は、求められた類似度に基づいて、説明変数との類似度の高い類似特徴量を抽出する(ステップS222)。類似度は、上述したように所定のしきい値と比較をすることにより、その高低が判定される。抽出された類似特徴量等のデータは、類似性モデル352として要因・影響度格納部310へと格納される。回帰データと同様に、このタイミングにおいて、ユーザへと類似性モデル352を出力するようにしてもよい。
なお、上述した説明においては、回帰モデル構築部304、及び、類似特徴量抽出部306は、ユーザから、ユーザ入出力I/F 4を介して指示を受ける場合を説明したがこれには限られない。具体的には、ステップS212のパラメータ取得処理の後、続けて回帰モデルの構築処理と、類似特徴量の抽出処理とを行うようにしてもよい。この場合、ステップS114及びステップS118の処理は、省略することも可能である。すなわち、ユーザが任意のタイミングで実行指示を出すのではなく、解析装置3が自動的にこれらの処理を行うようにしてもよい。
次に、精度算出部314は、回帰モデルの精度を算出し、精度格納部316へと算出した精度を格納するとともに、回帰の精度が十分に高いか否かを判定する(ステップS124)。回帰の精度が十分で無い場合(ステップS124:No)、ステップS100からの処理を繰り返す。なお、精度表示部318が、ユーザ入出力I/F 4を介して精度格納部316に格納されている精度データをユーザへと出力し、ユーザが回帰精度を判断するようにしてもよい。
次に、回帰の精度が十分である場合(ステップS124:Yes)、回帰の説明変数と、その類似特徴量とが妥当であるか否かを判定する(ステップS126)。回帰モデル及び類似性モデルとして抽出された特徴量が妥当であるか否かは、例えば、ユーザ入出力I/F 4に表示される特徴量と、特徴量間との関係性と、ユーザのプロセス知見や物理的関係性に基づき、ユーザが判断する。また、影響性が既知の特徴量が、回帰モデルあるいは類似性モデルに含まれているか否かにより判断してもよい。
抽出された特徴量が妥当では無い場合(ステップS126:No)、ステップS100からの処理を繰り返す。この場合、解析対象とする期間や特徴量を調整する。また、解析対象データを変更せず、図2において点線で示すようにステップS108からの処理を繰り返してもよい。この場合、例えば、妥当な特徴量が抽出可能となるように、回帰パラメータを調整したり、類似度のしきい値を下げたりする。抽出された特徴量が妥当では無い場合とは、例えば、既知要因を表す特徴量がユーザ入出力I/F 4に表示される回帰モデル及び類似性モデルのいずれにも含まれていない場合、既知要因を表す特徴量が類似特徴量として抽出されているが回帰モデルに含まれていない場合、明らかに適切でない特徴量が回帰モデルに含まれている場合、又は、回帰モデルの特徴量よりもその類似特徴量の方が物理的に妥当である場合等の場合を言う。
抽出された特徴量が妥当である場合(ステップS126:Yes)、例えば、既知要因を表す特徴量がユーザ入出力I/F 4に表示される回帰モデルに含まれている場合、又は、抽出された特徴量が物理的に妥当であると判断できる場合、解析装置3は、処理を終了する。
なお、図2においては、回帰精度と抽出特徴量妥当性とが続いて判断されるようになっているが、これらの処理は、個々に行うことも可能である。すなわち、回帰モデル350が算出されたタイミングにおいて回帰精度と抽出特徴量妥当性の判断を行い、回帰精度が十分でない、又は、回帰の説明変数が妥当でなければ回帰モデル構築を再度行ってもよい。そして、類似特徴量が抽出されたタイミングにおいて、類似特徴量の妥当性を判定し、その判定結果に基づいて回帰モデルの再構築、又は、類似特徴量の再抽出をするようにしてもよい。すなわち、ステップS216の後、ステップS118の前にステップS124と、ステップS126の一部の処理を行うようにしてもよい。
次に、要因と、影響度の表示の例について説明する。図6は、要因の表示処理の流れを示すフローチャートである。
まず、影響度算出部308は、回帰モデル構築部304が出力した回帰モデル350と、類似特徴量抽出b306が出力した類似性モデル352を取得する(ステップS300)。なお、図1においては、直接取得するようになっているが、これらのモデルは、一度要因・影響度格納部310へ格納され、その後、影響度算出部308が取得するようにしてもよい。
次に、影響度算出部308は、取得した回帰モデル350と、類似性モデル352とから、影響度を算出する(ステップS302)。上述したように、影響度算出部308は、回帰モデル350から各説明変数が目的変数へと与える影響度を算出し、回帰モデル350及び類似性モデル352から各類似特徴量が目的変数へと与える影響度を算出する。
次に、要因・影響度表示部312は、ユーザ入出力I/F 4を介して、説明変数及び類似特徴量、並びに、影響度算出部308が算出した、説明変数及び類似特徴量が目的変数へと与える影響度をユーザへと出力する(ステップS304)。この出力は、例えば、ユーザ入出力I/F 4に備えられているモニタに表示することにより実行される。
図7及び図8は、要因と、影響度の表示例を示す図である。図7(a)は、説明変数の回帰係数の一例を示す図である。表示されているグラフは、説明変数である特徴量1、特徴量2、特徴量3についての構築された回帰モデルにおける回帰係数あらわすものである。このグラフは、各説明変数が1増加した場合の目的変数の変化量を示す。図7(a)の例においては、説明変数である特徴量1は、特徴量2、特徴量3に比べて、1増加した場合の目的変数の変化量が大きく、また、特徴量2と特徴量3が増加した場合の目的変数の変化量は、ほぼ等しい値となるが、その符号が逆になっていることを示す。
図7(b)は、図7(a)に示した、説明変数である特徴量1と類似すると判定された類似特徴量である特徴量4、特徴量5を特徴量1と並べて、その回帰係数をあらわした図である。図7(a)と同様に、回帰係数を示すものであるので、各特徴量が1増加した場合の目的変数の変動を示している。図7(b)に示すように、類似する特徴量であっても、その回帰係数は、大きく異なることがある。これは、類似度の計測の仕方により変化するものであり、本実施形態においては、一例として、上述したように、標準化した変数同士の相関係数を類似度として算出しているためである。
図8(a)及び図8(b)は、それぞれ説明変数である特徴量1、特徴量2、特徴量3と、説明変数である特徴量1に類似する類似特徴量である特徴量4、特徴量5の影響度を並べてあらわした図である。例えば、これらの図においては、回帰係数と、特徴量の分散とを掛け合わせた数値をグラフ化したものである。
図8(a)の各特徴量についてのグラフに示すように、各説明変数を構成する特徴量のそれぞれが目的変数へと与える影響度は、各特徴量により大きく異なるものとなる。一方、図8(b)に示すように、類似する特徴量においては、上述した図7(b)とは異なり、各特徴量が目的変数へと与える影響度がほぼ同等なものとなっている。このように、グラフとして可視化して表示することにより、ユーザは、類似特徴量が目的変数へと与える影響を目視することが可能となる。
要因・影響度表示部312は、図7に示すような回帰係数を出力するようにしてもよいし、図8に示すような影響度を出力するようにしてもよい。また、これらの情報を併せて表示するようにしてもよい。なお、図7及び図8においては、特徴量2、特徴量3の類似特徴量を示していないが、これらも併せて表示するようにしてもよいし、ユーザの操作により観測したい説明変数の特徴量を切り替えて表示するようにしてもよい。
さらに、別の例として、目的変数、説明変数、及び、類似特徴量とをネットワーク図(グラフ)にして表示するようにしてもよい。図9は、重要特性値と、特徴量との関係、すなわち、目的変数、説明変数、及び、類似特徴量の関係をネットワーク図として表示する一例を示す図である。
この図9に示すように、重要特性値(目的変数)と、特徴量(説明変数及び類似特徴量)、そして、説明変数が目的変数へと与える影響性と、類似特徴量と説明変数との間の類似度とを表現することができる。例えば、目的変数、説明変数、及び、類似特徴量として抽出された特徴量をノードとし、影響度、又は、類似度をエッジの太さ、又は、長さとして表現することも可能である。
別の例としては、各説明変数が目的変数へと与える影響度の大きさを、各説明変数のノードの大きさであらわし、各類似特徴量と説明変数との間の類似度を、各類似特徴量のノードの大きさであらわすようにしてもよい。このように、ネットワーク図として表現することにより、ユーザが、複数の要因の関連性を直感的に確認できるようにしてもよい。さらに別の例として、影響度や類似度の高さに応じてノードやエッジの色を変化させるなどとして表現してもよい。
次に、回帰モデル350の精度を表示する処理について説明する。図10は、回帰モデル350の精度を表示する処理の流れを示すフローチャートである。
回帰モデル構築処理が終了した後、精度算出部314は、解析対象データ格納部302に格納されている解析対象データ、及び、回帰モデル構築部が出力した回帰モデル350を取得する(ステップS400)。
次に、精度算出部314は、目的変数の推定値を、回帰モデルに解析対象データを適用することにより算出する(ステップS402)。
次に、精度算出部314は、算出された推定値と、実績値とに基づいて回帰モデルの精度を算出する(ステップS403)。算出された精度は、精度格納部316へと格納される。
次に、精度表示部318は、精度格納部316に格納されている回帰モデルの精度をユーザI/F 4を介してユーザへと出力する(ステップS406)。ユーザは、表示された精度を確認することにより、回帰モデルにおいてどの程度要因を説明できるかを知ることができる。精度の表示としては、算出された精度自体を表示するものであってもよいし、推定値と実績値とをグラフで表現するものであってもよい。また、これらを併せて表示するものであってもよい。
このように、本実施形態に係る解析装置3によれば、重要特性値の変動要因を特定するという課題に対して、重要特性値の変動を説明する特徴量を抽出し、回帰モデルを構築し、回帰モデルに含まれる特徴量に類似した特徴量を抽出することにより、回帰モデル構築における特徴抽出においては共線性を持つために抽出されずに見落とされやすい変動要因をも抽出する。この結果、変動要因の抽出漏れを抑制することが可能となる。
(第2実施形態)
上述の第1実施形態に係る解析処理は、データにカテゴリ値が含まれている場合には、ダミー変数化して回帰モデル構築、及び、類似特徴量抽出の処理を行うものとしたが、本実施形態に係る解析処理は、データにカテゴリ値が含まれている場合に、カテゴリ変数ごとにグループ化することにより解析処理を行うものである。以下、上述した第1実施形態と異なる部分について詳しく説明する。
図11は、本実施形態に係る解析システム1の構成を示すブロック図である。この図11に示すように、本実施形態に係る解析装置3は、上述した第1実施形態の構成に、さらに、特徴量グルーピング部324を備える。
プラントにおいて観測されるデータには、センサで測定された連続値だけではなく、加工条件や利用機器と言ったカテゴリ値が含まれることがある。カテゴリ値が変動要因に大きく影響している場合、加工条件を変更したり、利用機器を切り替えたりすることで、直接的に変動を制御できる可能性がある。したがって、カテゴリ値を含んだ形で要因を解析することが重要となる。
データにカテゴリ値が含まれている場合、そのままでは回帰モデル構築や類似特徴量抽出が困難である。そこで、上述したように、カテゴリ値の水準ごとに特徴量を作成し、水準に該当するか否かを0、又は、1で表現するダミー変数を導入する。このようにすると、ダミー変数の値は0、又は、1の数値変数となるため、回帰モデル構築や類似特徴量抽出の処理を行うことが可能となる。
しかしながら、カテゴリ値を単純にダミー変数化しただけでは、ダミー変数ごとに回帰モデル構築や類似特徴量抽出の処理が行われるため、必ずしも正しい解析結果が求められるわけではない。例えば、加工条件Aと加工条件Bのいずれか一方が排他的に成立する場合に、条件Aが抽出されたとしても、実際には条件Bが重要特性値に影響している可能性があり、実用上は条件Aと条件Bの差異に興味がある場合が多い。このように、元は同一カテゴリ変数であった水準が選択されたり選択されなかったりすることにより、解釈性が損なわれる場合がある。
そこで、特徴量グルーピング部324は、同一カテゴリの水準を1つのグループとみなすようにダミー変数化する。図12はこのようにグループ化されたダミー変数を示す図である。特徴量グルーピング部324は、データ洗浄部により洗浄し、ダミー変数化されたデータを、この図12に示すようにグループ化する。
すなわち、特徴量xは、グループgと、特徴量xは、グループgと、それぞれの1変数のグループとする一方、特徴量xについては、ダミー変数x[A]、x[B]、x[C]をまとめてグループgとしてグループ化する。このように、同一のカテゴリデータ(x)から生成されたダミー変数の集合(x[A]、x[B]、x[C])を同一のグループ(g)としてグループ化する。
本実施形態においては、回帰モデル構築部304、及び、類似特徴量抽出部306は、このようにグループ化された特徴量に基づいて、グループごとに特徴量を選択、抽出する回帰モデル構築と、類似特徴量抽出を実行する。なお、このグループ化は、カテゴリのダミー変数化に伴うものに限定する必要は無く、任意のグループ化された変数に対しても適用可能である。例えば、ある特徴量x、x間に強い正又は負の相関があることが事前に判明している場合などは、これらの特徴量をグループ化することにより、回帰モデルの構築の精度を高めることも可能である。他の例として、所定の複数の加工条件等があり、それらの加工条件が選択される組合せが決まっている場合においても、これら複数の加工条件を表す特徴量をグループ化することは有効である。
グループごとに解析を行う罰則項付回帰モデルとして、Group Lassoがある。このGroup Lassoは、以下の式であらわされる関数の最適化問題である。
Figure 0006740157
ここで、pはグループlの水準数(グループlに含まれる特徴量の数)であり、βは、グループ内の各特徴量に対応する回帰係数である。例えば、6変数のグループgが、g={1}、g={2,3}、g={4,5,6}である場合、p=1、p=2、p=3、β=β、β=[β β、β=[β β βとなり、式(5)は、次の式のような形となる。
Figure 0006740157
回帰モデル構築部304は、Group Lassoを用いることにより、グループごとに特徴抽出をすることが可能となる。すなわち、グループごとに選択するか否かが決定され、選択されたグループの回帰係数は、全て0以外、選択されなかったグループの回帰係数が、全て0となる。なお、回帰モデルは、Group Lassoには限られず、Fused LassoやClustered Lassoを用いてもよい。さらに、グループごとにステップワイズ法を適用したり、非線形の手法を適用したりしてもよい。
類似特徴量抽出部306は、グループ同士の類似度を算出し、グループごとに類似特徴量を抽出する。グループ同士の類似度は、例えば、正準相関を用いることができる。変数をA、Bとしたとき、正準相関は、A、及び、Bをそれぞれ一次結合したベクトルの相関係数の最大値と考えることができる。正準相関rは、平均0に基準化されたA=[A,A,・・・,A]、B=[B,B,・・・,B]に対して、ベクトルa∈R、b∈Rを用いて、以下のように定義される。
Figure 0006740157
また、グループごとの罰則項付回帰モデルにより選択されたグループXの回帰係数βを用いて、類似度を以下のように定義してもよい。ただし、以下の式においてl≠kであるものとする。
Figure 0006740157
この類似度rは、Xβを目的変数、Xを説明変数として回帰したときの決定係数の平方根に一致する。
各グループの要素がカテゴリの各水準に対応している場合、多重共線性が発生する可能性が高くなる。このような場合には、別の例として、線形回帰の代わりに、Ridge回帰の決定係数を用いてもよい。Ridge回帰の問題は、以下の式により表される。
Figure 0006740157
上記の問題を解いたときの決定係数は、多重共線性を除去したグループ間の類似度とみなすことができる。上述した第1実施形態と同様に、類似度が所定のしきい値以上となった場合、類似特徴量抽出部306は、グループXを説明変数のグループXの類似グループとして抽出する。式(9)は、Xのyへの影響性を目的変数とした、説明変数グループXによる罰則項付回帰モデルを構築していることに相当する。
要因・影響度表示部312は、前記の回帰モデル構築部と、前記の類似特徴量抽出部により、抽出されたグループのリストをユーザ入出力I/F 4を介してユーザに表示する。このリストは、影響度算出部308が算出した影響度に応じて優先付けし、優先度順に並べて表示することもできる。
影響度算出部308は、それぞれのグループの目的変数への影響度を以下のように算出する。回帰モデル構築部304により説明変数として抽出された特徴量については、各水準の回帰係数を影響度とする他、グループlに含まれる各変数jに対してσ(X)βを並べたベクトルのL2ノルムを影響度として算出してもよい。このような指標を影響度とすることにより、グループの影響性を表すことが可能となる。
同様に、影響度算出部308は、類似特徴量抽出部306が抽出した類似特徴量については、例えば、式(9)のRidgeの回帰係数を影響度とすることができる。他の例としては、影響度算出部308は、グループkに含まれる各変数jに対してσ(X)βを並べたベクトルのL2ノルムを影響度として算出してもよい。このような指標を影響度とすることにより、類似特徴量のグループが目的変数へと与える影響性を表すことが可能となる。
図13は、グループ化された説明変数が目的変数へと与える影響度として、回帰係数を、要因・影響度表示部312がユーザ入出力I/F 4を介して表示した一例を示す図である。この図13において、特徴量1−Aと、特徴量1−Bは、グループ1に属している説明変数であり、特徴量1−Aは、グループ1に属する特徴量Aであり、特徴量1−Bは、グループ1に属する特徴量Bであることを示している。他の特徴量についても同様である。
この図13に示すように、各グループが目的変数へと与える影響度の傾向を視覚的に表示するとともに、各グループに属する個々の説明変数が目的変数へと与える影響度の詳細についても表示することが可能である。
図14は、グループ化された説明変数の1つと、グループ化された類似特徴量とが目的変数へと与える影響度を回帰モデルにおける回帰係数として示す図である。この図14においても、図13と同様に、各特徴量のグループ1、グループ4、グループ5とが示されている。このように類似する特徴量同士を並べて表示することもできる。
図15は、グループ化された重要特性値(目的変数)と、グループ化された特徴量(説明変数、類似特徴量)とのグループ同士の関係をネットワーク図により示したものである。グループのノードごとに、特徴量のノードが含まれている。この図に示すように、重要特性値は、グループ1、グループ2、グループ3からの影響度が強く、グループ1は、グループ4、グループ5と類似するグループであることが視覚的にとらえることが可能である。前述した図9の説明と同様に、ノードやエッジの表現により、影響度や類似度を表すようにしてもよい。
図15は、グループ同士の関係性について示したネットワーク図であるが、個々の特徴量についての関連性が示されていない。そこで、図16のように、グループ内の各特徴量をノードとするネットワーク図を表示するようにしてもよい。このように表示することにより、グループ同士の関連性とともに、グループを構成する特徴量同士の関連性も表現することが可能となる。
例えば、グループ1とグループ4との関係を見ると、特徴量1−Aの重要特性値への影響性は、特徴量4−A及び特徴量4−Cの影響性に類似しており、特徴量1−Bの重要特性値への影響性は、特徴量4−Bの影響性に類似している。また、特徴量5に含まれる特定の水準が特徴量1のいずれにも類似していない場合も考えられる。図16のように表すことにより、このような個々の特徴量同士の関連性も視覚的に表示することが可能となる。
以上のように、本実施形態に係る解析装置3によっても、重要特性値の変動要因を特定するという課題に対して、重要特性値の変動を説明する特徴量を抽出し、回帰モデルを構築し、回帰モデルに含まれる特徴量に類似した特徴量を抽出することにより、回帰モデル構築における特徴抽出においては共線性を持つために抽出されずに見落とされやすい変動要因をも抽出する。さらに、本実施形態に係る解析装置3によれば、カテゴリ値のように切り離すことが困難である特徴量同士をグループ化することで、単純にダミー変数を用いることにより解釈性を損ねることなく、各特徴量が目的変数へと与える影響を表示することが可能となる。
上述した全ての実施形態は、例えば、図17に示すようなハードウェア構成により実施される。すなわち、サーバ20内にデータ管理システム2が構築され、コンピュータ30、及び、ハードディスク32に解析装置3が構築され、マウス40、ディスプレイ42、及び、キーボード44を備えるユーザ入出力I/F 4によりユーザに情報を示したり、又は、ユーザからの入力を受け付けたりする。
上述した全ての実施形態で説明した解析システム及び解析装置の少なくとも一部は、ハードウェアで構成されていてもよいし、ソフトウェアで構成されていてもよい。ソフトウェアで構成される場合には、解析システム及び解析装置の少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD−ROM等の記憶媒体に収納し、コンピュータに読み込ませて実行させるものであってもよい。記憶媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記憶媒体であってもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。また、当然のことながら、本発明の要旨の範囲内で、これらの実施の形態を部分的に適宜組み合わせることも可能である。
3:解析装置、300:データ洗浄部、304:回帰モデル構築部、306:類似特徴量抽出部、308:影響度算出部、312:要因・影響度表示部、314:精度算出部、318:精度表示部、320:解析対象データ設定部、322:パラメータ設定部

Claims (16)

  1. 複数の特徴量を含む解析対象データを用いて、前記複数の特徴量のうち1つである目的変数を、前記複数の特徴量のうちの1つに対応する説明変数から取得する回帰モデルを構築する、回帰モデル構築部と、
    前記複数の特徴量のうち前記目的変数及び前記説明変数に対応する特徴量以外の特徴量について、前記説明変数との類似度を計算し、前記類似度が所定値と比較して高い類似特徴量を抽出する、類似特徴量抽出部と、
    を備える解析装置。
  2. 前記複数の特徴量を含むデータを取得し、加工し、前記解析対象データを生成する、データ洗浄部をさらに備え、
    前記回帰モデル構築部は、前記データ洗浄部が生成した前記解析対象データに基づいて前記回帰モデルを構築し、
    前記類似特徴量抽出部は、前記データ洗浄部が生成した前記解析対象データ、及び、前記回帰モデル構築部が選択した前記説明変数に基づいて前記類似特徴量を抽出する請求項1に記載の解析装置。
  3. 前記データ洗浄部は、さらに、前記複数の特徴量を含むデータのうち、カテゴリを表す変数であるカテゴリデータを、各カテゴリを表すダミー変数データに変換し、前記解析対象データを生成する請求項2に記載の解析装置。
  4. 前記説明変数は、複個存在し
    前記複数個の前記説明変数は、それぞれが前記複数の特徴量のいずれか1つに対応する、
    請求項1乃至請求項3のいずれかに記載の解析装置。
  5. 前記回帰モデル構築部は、前記目的変数と前記説明変数とを用いて回帰分析し、前記説明変数と前記説明変数の回帰係数とに基づいて前記目的変数を取得する前記回帰モデルを構築する、
    請求項1乃至請求項4のいずれかに記載の解析装置。
  6. 前記回帰モデル構築部は、罰則項付回帰モデルに基づいて、前記説明変数を選択して前記回帰モデルを構築する請求項1乃至請求項5のいずれかに記載の解析装置。
  7. 前記類似特徴量抽出部は、前記解析対象データに含まれるデータであって、前記目的変数以外、かつ、前記説明変数以外のそれぞれのデータと、それぞれの前記説明変数との相関係数を算出し、類似度を計算する請求項1乃至請求項6のいずれかに記載の解析装置。
  8. 前記目的変数に対する前記説明変数の影響度、及び、前記目的変数に対する前記類似特徴量の影響度を算出する、影響度算出部をさらに備える請求項1乃至請求項7のいずれかに記載の解析装置。
  9. 前記目的変数に対する前記類似特徴量の影響度、及び、前記類似特徴量と前記説明変数との間の類似度、のうち少なくとも一方を含むデータを出力データとして出力する、出力部を備える請求項8に記載の解析装置。
  10. 前記出力部は、
    前記目的変数、前記説明変数、及び、前記類似特徴量をノードとして表し、
    前記目的変数に対する前記説明変数の影響度に基づいて、前記目的変数と前記説明変数とをエッジで接続し、
    前記説明変数と前記類似特徴量との間の類似度に基づいて、前記説明変数と前記類似特徴量とをエッジで接続するネットワーク図を前記出力データとして出力する請求項9に記載の解析装置。
  11. 前記解析対象データに含まれる前記複数の特徴量をグループ化する、特徴量グルーピング部をさらに備え、
    前記回帰モデル構築部は、グループ化された前記複数の特徴量を用いて回帰分析することにより、前記グループ化された複数の特徴量のいずれか1つのグループに対応するグループ化された説明変数と、前記グループ化された説明変数に含まれる特徴量の回帰係数とによって前記目的変数を表す前記回帰モデルを構築し、
    前記類似特徴量抽出部は、前記グループ化された説明変数、及び、前記グループ化された解析対象データについて前記類似特徴量を抽出する、
    請求項1に記載の解析装置。
  12. 前記解析対象データに含まれる前記複数の特徴量をグループ化する、特徴量グルーピング部をさらに備え、
    前記回帰モデル構築部は、グループ化された前記複数の特徴量を用いて回帰分析することにより、前記グループ化された複数の特徴量のいずれか1つのグループに対応するグループ化された説明変数と、前記グループ化された説明変数に含まれる特徴量の回帰係数とによって前記目的変数を表す前記回帰モデルを構築し、
    前記類似特徴量抽出部は、前記グループ化された説明変数、及び、前記グループ化された解析対象データについて前記類似特徴量を抽出し、
    前記データ洗浄部は、前記特徴量を含むデータのうち、カテゴリを表す変数であるカテゴリデータを、各カテゴリを表すダミー変数データに変換し、
    前記特徴量グルーピング部は、同一の前記カテゴリデータから変換された前記ダミー変数データの集合を同一のグループとしてグループ化する請求項2に記載の解析装置。
  13. 前記回帰モデル構築部は、前記グループ化された説明変数ごとに罰則付回帰モデルに基づいて前記回帰モデルを構築し、
    前記類似特徴量抽出部は、前記グループ化された説明変数ごと、及び、前記グループ化された複数の特徴量ごとに前記類似特徴量を抽出する、
    請求項11又は請求項12に記載の解析装置。
  14. 前記回帰モデルの精度を算出する、回帰モデル精度算出部をさらに備え、
    前記類似特徴量抽出部は、算出された前記回帰モデルの精度に基づいて前記複数の特徴量を選択し、選択された前記回帰モデルを構築するパラメータと、選択された前記類似特徴量を抽出するパラメータと、に基づいて抽出される前記特徴量を調整する、
    請求項1又は請求項2に記載の解析装置。
  15. 回帰モデル構築部が、複数の特徴量を含む解析対象データを用いて、前記複数の特徴量のうちの1つである目的変数を、前記複数の特徴量のうちの1つに対応する説明変数から取得する回帰モデルを構築するステップと、
    類似特徴量抽出部が、前記複数の特徴量のうち前記目的変数及び前記説明変数に対応する特徴量以外の特徴量について、前記説明変数との類似度を計算し、前記類似度が所定値と比較して高い類似特徴量を抽出するステップと、
    を備える解析方法。
  16. コンピュータに、
    複数の特徴量を含む解析対象データを用いて、前記複数の特徴量のうち1つである目的変数を、前記複数の特徴量のうちの1つに対応する説明変数から取得する回帰モデルを構築する、回帰モデル構築手段、
    前記複数の特徴量のうち前記目的変数及び前記説明変数に対応する特徴量以外の特徴量について前記説明変数との類似度を計算し、前記類似度が所定値と比較して高いデータである類似特徴量を抽出する、類似特徴量抽出手段、
    解析された前記類似特徴量に関するデータを含む出力データを出力する、出力手段、
    として機能させるためのプログラム。
JP2017047837A 2017-03-13 2017-03-13 解析装置、解析方法、及び、プログラム Active JP6740157B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017047837A JP6740157B2 (ja) 2017-03-13 2017-03-13 解析装置、解析方法、及び、プログラム
KR1020170109511A KR20180104542A (ko) 2017-03-13 2017-08-29 해석 장치, 해석 방법 및 기억 매체
US15/692,796 US11216741B2 (en) 2017-03-13 2017-08-31 Analysis apparatus, analysis method, and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017047837A JP6740157B2 (ja) 2017-03-13 2017-03-13 解析装置、解析方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2018151883A JP2018151883A (ja) 2018-09-27
JP6740157B2 true JP6740157B2 (ja) 2020-08-12

Family

ID=63445431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017047837A Active JP6740157B2 (ja) 2017-03-13 2017-03-13 解析装置、解析方法、及び、プログラム

Country Status (3)

Country Link
US (1) US11216741B2 (ja)
JP (1) JP6740157B2 (ja)
KR (1) KR20180104542A (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580414B2 (en) * 2016-03-23 2023-02-14 Nec Corporation Factor analysis device, factor analysis method, and storage medium on which program is stored
JP2019101743A (ja) * 2017-12-01 2019-06-24 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP7014686B2 (ja) * 2018-08-06 2022-02-01 三菱パワー株式会社 性能評価装置、性能評価方法及び性能影響度出力方法
JP7127477B2 (ja) * 2018-10-23 2022-08-30 日本製鉄株式会社 学習方法、装置及びプログラム、並びに設備の異常診断方法
CN109343489B (zh) * 2018-10-30 2020-02-11 杭州安脉盛智能技术有限公司 烟草制丝工艺参数自愈控制方法及系统
JP7225688B2 (ja) * 2018-11-05 2023-02-21 日本電気株式会社 解析装置、解析方法、および解析プログラム
WO2020095357A1 (ja) * 2018-11-06 2020-05-14 データ・サイエンティスト株式会社 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
JP7145059B2 (ja) * 2018-12-11 2022-09-30 株式会社日立製作所 モデルの予測根拠提示システム及びモデルの予測根拠提示方法
JP2020149281A (ja) * 2019-03-13 2020-09-17 日本電信電話株式会社 データ予測装置、データ予測方法、及びデータ予測プログラム
JP2020149282A (ja) * 2019-03-13 2020-09-17 日本電信電話株式会社 データ予測装置、データ予測方法、及びデータ予測プログラム
US11475296B2 (en) 2019-05-29 2022-10-18 International Business Machines Corporation Linear modeling of quality assurance variables
US11551123B2 (en) * 2019-06-11 2023-01-10 International Business Machines Corporation Automatic visualization and explanation of feature learning output from a relational database for predictive modelling
JP7116711B2 (ja) * 2019-06-14 2022-08-10 株式会社東芝 情報処理装置、情報処理方法及びコンピュータプログラム
WO2021053782A1 (ja) * 2019-09-19 2021-03-25 オムロン株式会社 生産設備に生じ得る事象の解析装置
US11410064B2 (en) * 2020-01-14 2022-08-09 International Business Machines Corporation Automated determination of explanatory variables
WO2022173522A1 (en) * 2021-02-12 2022-08-18 Microchip Technology Incorporated Deep learning-based holdover compensation, and related systems, methods and devices
WO2023139718A1 (ja) * 2022-01-20 2023-07-27 日本電気株式会社 特徴量選定装置、特徴量選定方法、身体状態推定システム、および記録媒体
CN116227961B (zh) * 2022-12-05 2024-04-09 贝壳找房(北京)科技有限公司 一种资源分配方法、装置、设备及计算机可读存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05108116A (ja) 1991-10-18 1993-04-30 Matsushita Electric Ind Co Ltd 工程管理装置
US6895411B2 (en) * 2000-11-29 2005-05-17 International Business Machines Corp. Partial stepwise regression for data mining
JP4376799B2 (ja) * 2005-01-19 2009-12-02 株式会社日立製作所 内燃機関の点火時期制御装置
WO2009139052A1 (ja) * 2008-05-14 2009-11-19 日東紡音響エンジニアリング株式会社 信号判定方法、信号判定装置、プログラム、信号判定システム
GB2476220A (en) * 2008-12-22 2011-06-15 Crystal World Holdings Inc Systems and methods for risk management of sports-associated businesses
JP5108116B2 (ja) * 2009-01-14 2012-12-26 株式会社日立製作所 装置異常監視方法及びシステム
JP5297272B2 (ja) * 2009-06-11 2013-09-25 株式会社日立製作所 装置異常監視方法及びシステム
US8239178B2 (en) * 2009-09-16 2012-08-07 Schneider Electric USA, Inc. System and method of modeling and monitoring an energy load
JP5751045B2 (ja) * 2010-08-31 2015-07-22 富士電機株式会社 プラントの運転条件最適化システム、プラントの運転条件最適化方法、プラントの運転条件最適化プログラム
JP5068382B1 (ja) * 2011-06-21 2012-11-07 ヤンマー株式会社 予測装置、予測方法及び予測プログラム
JP6082564B2 (ja) * 2012-10-16 2017-02-15 株式会社日立製作所 データ統合分析システム
JP6300572B2 (ja) * 2013-08-30 2018-03-28 株式会社日立ソリューションズ西日本 データ分析プログラム、及びデータ分析装置
US20170103148A1 (en) 2014-03-27 2017-04-13 Nec Corporation System-analyzing device, analysis-model generation method, system analysis method, and system-analyzing program
WO2016002133A1 (ja) * 2014-06-30 2016-01-07 日本電気株式会社 予測システムおよび予測方法
WO2016088362A1 (ja) 2014-12-05 2016-06-09 日本電気株式会社 システム分析装置、システム分析方法および記憶媒体

Also Published As

Publication number Publication date
US11216741B2 (en) 2022-01-04
US20180260726A1 (en) 2018-09-13
KR20180104542A (ko) 2018-09-21
JP2018151883A (ja) 2018-09-27

Similar Documents

Publication Publication Date Title
JP6740157B2 (ja) 解析装置、解析方法、及び、プログラム
CN111222290B (zh) 一种基于多参数特征融合的大型设备剩余使用寿命预测方法
JP2021101388A (ja) 予測分析用の動作中心型第一原理プロセスモデルの動的構築及びオンライン配備のためのコンピュータシステム及び方法
JP5734961B2 (ja) 多変数プロセス制御においてモデルの品質を推定しモデルを適応させる装置およびその方法
US8250006B2 (en) Inferential sensors developed using three-dimensional pareto-front genetic programming
JP5434837B2 (ja) 品質予測装置、品質予測方法、プログラムおよびコンピュータ読み取り可能な記録媒体
CN112862127B (zh) 一种传感器数据的异常处理方法、装置、电子设备及介质
JP6707716B2 (ja) 異常情報推定装置、異常情報推定方法及びプログラム
JP2022035686A (ja) 診断装置及びパラメータ調整方法
JP2020035146A (ja) 情報処理装置、情報処理システム及び情報処理方法
EP3267173A1 (en) An improved system for estimating water flows at the boundaries of a sub-network of a water distribution network
JP5401885B2 (ja) モデルの構築方法、構築システム及び構築用プログラム
JP6767355B2 (ja) モデル構築システムおよびモデル構築方法
Perry et al. Identifying the time of step change in the mean of autocorrelated processes
JP2019032807A (ja) 要因分析システム、要因分析方法およびプログラム
US20220253051A1 (en) Method and assistance system for detecting an abnormal behaviour of a device
JP6929260B2 (ja) 時系列特徴抽出装置、時系列特徴抽出方法及びプログラム
KR101615346B1 (ko) 반도체 제조 공정에서의 이상 감지 방법, 장치 및 기록매체
US11768852B2 (en) System and method for data analysis and presentation of data
TW202121221A (zh) 可轉移性判定裝置、可轉移性判定方法、及可轉移性判定程式
JP2021144637A (ja) 情報処理装置、情報処理方法およびプログラム
RU2622858C1 (ru) Способ оценки информации об эффективности функционирования системы и устройство на его основе для решения задач управления, контроля и диагностики
WO2023175922A1 (ja) モデル分析装置、モデル分析方法、及び、記録媒体
JP2018014071A (ja) センサログ推定による予知保全プログラム
JP7135025B2 (ja) 情報処理装置、情報処理方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200722

R151 Written notification of patent or utility model registration

Ref document number: 6740157

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151