JP6740157B2

JP6740157B2 - 解析装置、解析方法、及び、プログラム

Info

Publication number: JP6740157B2
Application number: JP2017047837A
Authority: JP
Inventors: 正彬高田; 西川　武一郎; 武一郎西川
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-03-13
Filing date: 2017-03-13
Publication date: 2020-08-12
Anticipated expiration: 2037-03-13
Also published as: US11216741B2; US20180260726A1; KR20180104542A; JP2018151883A

Description

本発明の実施形態は、解析装置、解析方法、及び、プログラムに関する。

上下水道プラント、発電プラント、化学プラントといったプラント管理において、重要な品質指標を目的変数とし、種々の特徴量を説明変数とする回帰モデルを構築し、特徴量の影響度を推定することが広く行われている。また、説明変数が多い場合、罰則項付回帰モデルを用いて、自動的に特徴量の抽出と回帰モデルの構築を行うことが可能である。

しかしながら、罰則項付き回帰モデルの手法では、説明変数として選択された特徴量に類似する特徴量（共線性の高い特徴量）は、抽出されないという特徴がある。この結果、重要な要因が見落とされやすいという問題がある。

特許第５１０８１１６号公報国際公開第２０１５／１４５５００号国際公開第２０１６／０８８３６２号

そこで、本発明の実施形態は、抽出された特徴量と類似性の高い特徴量を抽出する。

一実施形態に係る解析装置は、複数の特徴量を含む解析対象データを用いて、前記複数の特徴量のうちの１つを目的変数として回帰分析することにより、それぞれ前記複数の特徴量のいずれか１つに対応する複数の説明変数と、前記複数の説明変数の回帰係数とによって前記目的変数を表す回帰モデルを構築する、回帰モデル構築部と、前記解析対象データにおいて前記目的変数及び前記複数の説明変数に対応する特徴量以外の特徴量について、前記複数の説明変数のそれぞれとの類似度を計算し、前記類似度が所定値と比較して高い類似特徴量を抽出する、類似特徴量抽出部と、を備える。

第１実施形態に係る解析装置のブロック図。第１実施形態に係る解析処理の一例を示すフローチャート。目的変数と説明変数の一例を示す図。目的変数とカテゴリ変数を有する説明変数の一例を示す図。カテゴリ変数をダミー変数化した説明変数の一例を示す図。第１実施形態に係る影響性表示処理の一例を示すフローチャート。説明変数及び類似特徴量の回帰係数の結果表示の一例を示す図。説明変数及び類似特徴量の影響度の結果表示の一例を示す図。ネットワーク図の出力結果の一例を示す図。第１実施形態に係る精度表示処理の一例を示すフローチャート。第２実施形態に係る解析装置のブロック図。説明変数をグループ化した一例を示す図。グループ化された説明変数の回帰係数の結果表示の一例を示す図。グループ化された類似特徴量の回帰係数の結果表示の一例を示す図。ネットワーク図の出力結果の一例を示す図。ネットワーク図の出力結果の別の例を示す図。本実施形態に係る解析システムの構成の一例を示す図。

以下、図面を参照しながら、本発明の実施形態について詳しく説明する。

（第１実施形態）
本実施形態に係る解析装置は、上下水道プラント、発電プラント、化学プラントで行われる産業プロセスにより生成されるデータを蓄積するデータ管理システムにおいて、特定の特性値の変動要因となる特徴量を抽出する解析装置である。データは、プロセス内に設置されたセンサから取得される値（センサ値）や、プロセス条件や目標値といった管理者により設定されている設定値が含まれる。データのうち、特に品質に重要な特性値（以下、重要特性値）は常時監視されている。品質管理では、この重要特性値（目的変数）の変動、あるいは、その予兆を検知し、変動要因を特定し、対策の検討・実施を行う。解析装置は、この重要特性値の変動要因の特定を支援するものである。

図１は、本実施形態に係る解析システム１を示すブロック図である。解析システム１は、データ管理システム２と、解析装置３と、ユーザ入出力インターフェース４（以下、ユーザ入出力Ｉ／Ｆ４と記載する。）と、を備えている。

データ管理システム２は、プラントの産業プロセス中に生成されたデータを管理するシステムであり、例えば、データベースを備える。図１においては、解析装置３とは別の構成となっているが、これには限られず、解析装置３内に備えられていてもよい。

解析装置３は、データ管理システム２に蓄積されているデータに基づいて、目的変数となる重要特性値の変動要因を特定する装置であり、データ洗浄部３００と、解析対象データ格納部３０２と、回帰モデル構築部３０４と、類似特徴量抽出部３０６と、要因・影響度格納部３１０と、要因・影響度表示部３１２と、精度算出部３１４と、精度格納部３１６と、精度表示部３１８と、解析対象データ設定部３２０と、パラメータ設定部３２２と、を備える。

データ洗浄部３００は、データ管理システム２に格納されているデータを取得し、取得したデータを必要に応じて加工して、解析対象データを生成する。データの取得は、ユーザがその期間や特徴量を指定したり、所定の設定項目、設定値を利用したりする。取得したデータの加工として、データに欠陥等がある場合に、欠測処理、異常値処理を行い、また、カテゴリ変数がある場合には、ダミー変数化といった処理を行う。

欠測処理においては、データに欠測がある場合に、その欠測を除去したり、他のデータから補間したりする。異常値処理においては、データに異常値がある場合に、当該値が適正な範囲となるように、除去したり、補正したりする。ダミー変数化処理においては、値がＡ、Ｂといったカテゴリ値（離散値）を有する場合に、カテゴリ値を０または１のダミー変数に変換する。このようにして生成された解析対象データは、それぞれ異なる時刻に対応する複数の特徴量を含む。なお、個々の時刻における特徴量セットは、サンプルとも呼ばれる。

データ洗浄部３００は、解析対象データを解析対象データ格納部３０２へと格納する。本実施形態において、複数の特徴量のうち、重要特性値を目的変数として扱う。その他の特徴量（特性値）は、説明変数として扱う。

なお、重要特性値である目的変数は、あらかじめデータ管理システム２において別に保持されていてもよい。この場合、データ洗浄部３００は、目的変数の抽出を行うことなく、上述した欠測処理等を行い、データ管理システム２上の目的変数データと、データ洗浄した解析対象データとを解析対象データ格納部３０２へと格納する。

回帰モデル構築部３０４は、目的変数である重要特性値に対して、その変動を説明する回帰モデルを構築する。回帰モデル構築に必要な各種パラメータは、パラメータ設定部３２２により設定される。回帰モデルは、サンプル数をｎ、特徴量の数をｐとし、目的変数をｙ∈Ｒ^ｎ、説明変数をＸ∈Ｒ^ｎ×ｐ、回帰係数をβ∈Ｒ^ｐとすると、ｙ＝Ｘβと表される。定数項αを追加して、ｙ＝Ｘβ＋αとしてもよい。

特徴量が膨大にある場合には、過学習を抑制し、解釈性を高めるために、説明変数となる特徴量を選択（特徴選択）する必要がある。特徴選択と、回帰モデル構築を同時に実行する方法として、罰則項付回帰モデルがある。罰則項付回帰モデルでは、回帰モデルの尤度関数に、回帰係数に応じた罰則項を追加し、最適化を行う。代表的な手法としては、Ｌａｓｓｏ（ＬｅａｓｔＡｂｓｏｌｕｔｅＳｅｌｅｃｔｉｏｎａｎｄＳｈｒｉｎｋａｇｅＯｐｅｒａｔｏｒ）がある。Ｌａｓｓｏは、以下の式（１）で表す最適化問題に帰着される。

ただし、式（１）において、Ｘ（＝｛ｘ_１，ｘ_２，・・・，ｘ_ｐ｝）に対して、ｘ_ｊは、平均が０、標準偏差が１となるように変換されており、ｙは、平均が０となるように変換されている。式中のノルム記号は、ベクトルｚ＝｛ｚ_１，ｚ_２，・・・，ｚ_ｎ｝に対して、以下のように定義される。

。｜｜ｚ｜｜_１、｜｜ｚ｜｜_２は、それぞれベクトルｚのＬ１ノルムと、Ｌ２ノルムを表す。

Ｌａｓｓｏは、この最適化問題を解くことにより、特徴選択と回帰モデル構築とを同時に最適化する。なお、用いる手法は、Ｌａｓｓｏには限られず、ＥｌａｓｔｉｃＮｅｔ、Ｒｉｄｇｅ、ＧｒｏｕｐＬａｓｓｏ、ＡｄａｐｔｉｖｅＬａｓｓｏ、ＳＣＡＤ（ＳｍｏｏｔｈｌｙＣｌｉｐｐｅｄＡｂｓｏｌｕｔｅＤｅｖｉａｔｉｏｎ）と言った他の罰則項付回帰モデルを用いてもよい。また、罰則項付回帰モデル以外であっても、回帰モデルが出力される手法であれば、例えば、ＡＩＣ（赤池情報量基準：Ａｋａｉｋｅ’ｓＩｎｆｏｒｍａｔｉｏｎＣｒｉｔｅｒｉａ）、ＢＩＣ（ベイズ情報量基準：ＢａｙｅｓｉａｎＩｎｆｏｒｍａｔｉｏｎＣｒｉｔｅｒｉａ）を用いたステップワイズ法といった手法を用いてもよい。上記の手法で求めた回帰係数βの要素には、非ゼロの要素と、０の要素が存在し、非ゼロの回帰係数に対応する特徴量を選択する。別の手法として、０より大きい閾値以上の値を有する要素に対応する特徴量のみを選択してもよい。回帰モデル構築部３０４は、選択した特徴量と、その回帰係数とを含む回帰モデル３５０を出力する。

類似特徴量抽出部３０６は、回帰モデル構築部３０４により説明変数として選択されなかった特徴量に対して、説明変数との類似度を解析し、類似度が所定の値と比較して高い特徴量である類似特徴量を抽出する。類似特徴量の抽出に必要な各種パラメータは、パラメータ設定部３２２により設定される。類似度の解析は、解析対象データ格納部３０２に格納されているデータ及び回帰モデル３５０（例えば選択された特徴量）に基づいて行う。例えば、相関係数や偏相関係数を算出することにより行われる。相関係数を用いる場合には、選択された特徴量をｘ_ｊとし、その他の特徴量（選択されなかった特徴量）をｘ_ｋとすると、ｘ_ｊ ^Ｔｘ_ｋ／ｎと表される。ただし、ｘ_ｊおよびｘ_ｋのそれぞれは、平均が０、標準偏差が１となるように標準化されているとする。ここで、ｘ^Ｔは、ベクトルｘの転置ベクトルを意味する。

また、類似度は、回帰モデル構築部３０４で選択された特徴量（説明変数）ｘ_ｊの寄与ベクトルβ_ｊｘ_ｊに対して、選択されなかった各特徴量ｘ_ｋで回帰分析を行った結果の決定係数または決定係数の平方根であってもよい。具体的に、回帰モデル構築部３０４で選択された全ての説明変数ｘ_ｊと、選択されなかった全ての特徴量ｘ_ｋとに対して、それぞれの組合せ（ｘ_ｊ、ｘ_ｋ）について、以下の式（４）で示される回帰問題を解く。ただし、以下の式において、ｊ≠ｋであるものとする。

この回帰問題の決定係数は、ｘ_ｊとｘ_ｋの類似として見ることができる。式（４）の場合における決定係数は、相関係数（ｘ_ｊ ^Ｔｘ_ｋ）の２乗に一致する。回帰問題として類似度を計算することにより、後述する影響度を計算することが可能となる。

類似度（ｘ_ｊとｘ_ｋの類似度をｒ_ｊｋと表す）が、所定のしきい値θ以上となった場合（ｒ_ｊｋ≧θ）、ｘ_ｋを類似特徴量として抽出する。このしきい値θは、あらかじめ固定された値を用いるものであってもよいし、ユーザがインタラクティブに設定するものであってもよい。一例として、標準化された相関係数が０．８となる値を所定のしきい値θとして設定してもよい。これには限られず、ユーザやシステムにより、あらかじめ設定されていてもよい。この設定は、プラントの種別やプラントの状況、又は、目的変数に基づいて決められるものであってもよい。また、選択される特徴量の数などの条件により、自動的にしきい値が決定されてもよい。

類似特徴量抽出部３０６は、例えば、回帰モデル構築部３０４で選択された特徴量ｘ_ｊと、類似特徴量ｘ_ｋと、類似度ｒ_ｊｋと、回帰係数β_ｋと、の組合せを類似性モデル３５２として出力する。類似度ｒ_ｊｋの算出方法も、上述したものには限られず、類似性を算出する手法であれば何でもよい。

影響度算出部３０８は、回帰モデル構築部３０４が構築した回帰モデル３５０に基づいて各説明変数が目的変数へと与える影響を示す指標である影響度を算出する。また、影響度算出部３０８は、類似特徴量抽出部３０６が算出した類似性モデル３５２に基づいて、各類似特徴量が目的変数へと与える影響を示す指標である影響度を算出する。そして、影響度算出部３０８は、算出した影響度を要因・影響度格納部３１０へと格納する。

各説明変数の影響度は、それぞれの説明変数が、目的変数へと与える影響を数値化したものである。本実施形態において、目的変数に対する各説明変数の影響度として、例えば、回帰モデル３５０における各説明変数の回帰係数β_ｊ、又は、回帰係数β_ｊにｘ_ｊの標準偏差σ（ｘ_ｊ）を掛け合わせたβ_ｊσ（ｘ_ｊ）を用いる。

類似特徴量の影響度についても同様であり、それぞれの類似特徴量が、目的変数へと与える影響を数値化したものである。目的変数に対する類似特徴量の影響度としては、例えば、類似特徴量抽出部３０６が出力した類似特徴量の回帰係数β_ｋ、又は、回帰係数β_ｋに類似特徴量ｘ_ｋの標準偏差を掛けたβ_ｋσ（ｘ_ｋ）を用いる。

要因・影響度格納部３１０は、回帰モデル構築部３０４が出力した回帰モデル３５０のデータ、影響度算出部３０８が算出した影響度、及び、類似特徴量抽出部３０６が出力した類似性モデル３５２のデータを格納する。

要因・影響度表示部３１２は、要因・影響度格納部３１０に格納されている各種データを出力し、ユーザ入出力Ｉ／Ｆ４を介して表示する。ユーザは、ユーザ入出力Ｉ／Ｆ４に表示されたデータを元に、要因の特定を行ったり、各種パラメータの再設定等を行ったりする。表示されるデータとして、抽出された特徴量をリスト化してもよい。さらに、リスト内の特徴量を、それぞれの影響度に基づいて優先付けし、優先度順に並べて表示するようにしてもよい。

要因・影響度表示部３１２は、回帰モデル構築部３０４により抽出された特徴量ｘ_ｊについて、回帰係数β_ｊを表示することにより、説明変数（特徴量）が１増加した場合の目的変数の変化量を可視化することができる。これに加え、要因・影響度表示部３１２は、影響度としてβ_ｊσ（ｘ_ｊ）を表示することにより、目的変数への説明変数（特徴量）の影響性を可視化することもできる。

類似特徴量についても同様に、要因・影響度表示部３１２は、類似特徴量抽出部３０６が出力した類似特徴量の回帰係数β_ｋを表示することにより、類似特徴量が１増加した場合の目的変数の変化量を可視化できる。また、類似特徴量の影響度としてβ_ｋσ（ｘ_ｋ）を表示することにより、類似特徴量が目的変数へ与える影響性を可視化することもできる。

精度算出部３１４は、回帰モデル構築部３０４により生成された回帰モデルの精度を算出する。精度算出部３１４は、回帰モデル構築部３０４が出力した回帰モデル３５０に、解析対象データを適用し、回帰モデル３５０の精度を算出する。精度の指標には、平均２乗誤差、交差検証平均２乗誤差、決定係数、自由度調整付決定係数等を用いる。入力する解析対象データは、モデル化に利用したデータと同一のデータであってもよいし、異なるデータであってもよい。このように、精度算出部３１４が算出した精度のデータは、精度格納部３１６へと格納される。

また、精度算出部３１４が算出した精度に基づいて回帰分析を再度行ってもよい。例えば、精度算出部３１４により交差検証を行い、精度を算出し、精度に基づいて回帰分析を再度行うことにより、過学習（オーバーフィッティング）等の問題を回避し、汎化性能を向上させることもできる。

精度表示部３１８は、精度格納部３１６に格納されている精度データをユーザ入出力Ｉ／Ｆ４を介してユーザへと表示する。ユーザは、精度を確認することにより、回帰モデルでどの程度要因を説明できるかを理解することが可能である。また、この精度の表示は、目的変数の実績値と、回帰モデルに説明変数データを代入して得られる推定値とを表示するものであってもよい。表示方法としては、数値で表示するものであってもよいし、グラフで表示するものであってもよい。

解析対象データ設定部３２０は、解析対象とするデータの期間や、解析で使用する特徴量の設定を行う。設定値は、あらかじめ所定の値を設定しておいてもよい。また、精度等を確認し、より高精度なモデルの構築を行いたい場合や、明らかな誤りであると認識される要因（特徴量）を排除するように、対象期間を変更したり（例えば長くする）、解析対象から特定の特徴量を外すことも可能である。この設定は、ユーザにより変更できるようにしてもよいし、精度情報等に基づき自動的に変更できるものであってもよい。

例えば、精度が所定の値よりも低い場合には、解析対象とするデータの期間を現状よりも長くしてノイズの影響を抑制したり、説明変数の目的変数に対する影響度が所定の値より小さい場合には、当該説明変数が選択されないようにしたりすることもできる。解析対象データ設定部３２０は、上記のような条件に当てはまる場合に、自動的に解析対象とするデータの期間の設定、又は、排除する特徴量の設定をできるようにしておいてもよい。なお、設定方法はこれには限られない。

パラメータ設定部３２２は、回帰モデル構築部３０４での回帰モデル構築に用いるパラメータと、類似特徴量抽出部３０６での類似特徴量の抽出に用いるパラメータとを設定する。回帰モデル構築用のパラメータでは、例えば、Ｌａｓｓｏに用いられる正則化パラメータλを設定する。正則化パラメータλに複数通り値を設定し、複数の回帰モデルの構築を行うようにしてもよい。この場合、それぞれのモデルに応じて類似特徴量が抽出される。また、別の例としては、特徴量ごとに罰則項の重みを設定し、これらの罰則項重みにあらかじめ優先度付けをしておいてもよい。

類似特徴量抽出用のパラメータでは、例えば、類似特徴量を抽出するために用いる類似度のしきい値を設定する。回帰モデル構築用パラメータと同様に、複数のしきい値を設定し、複数のパターンで解析を行うようにしてもよい。また、抽出する特徴量の数などの設定をして、それに応じたしきい値を自動的に設定するようにしてもよい。精度や抽出要因（抽出された特徴量）を確認し、抽出要因の拡大や優先度付けのために、ユーザは、パラメータ設定部３２２を介してパラメータの設定を変更することが可能である。

これらの設定、すなわち、解析対象データ設定部３２０における設定、及び、パラメータ設定部３２２における設定を、ユーザが行う場合、ユーザは、ユーザ入出力Ｉ／Ｆ４を介してそれぞれの設定部に任意の値を設定する。このようにパラメータを設定することにより、解析装置３が自動的に、又は、ユーザからの指示にしたがい、回帰モデル構築の精度や、抽出する類似特徴量の調整を行う。

ユーザ入出力Ｉ／Ｆ４は、ユーザへの情報の出力、及び、ユーザからの入力を受け付けるインターフェースである。例えば、ディスプレイ、タブレット、スマートホン、スピーカ、プリンタ等、ユーザへと情報を出力する出力装置と、キーボード、マウス、タッチパネル、マイク等、ユーザからの入力を受け付ける入力装置と、を備える。また、タッチパネル付ディスプレイ等、入力装置と出力装置とを兼ね備える装置を備えて構成されていてもよい。

以下、それぞれの処理についてフローチャートを用いて説明する。まず、回帰モデル構築と、類似特徴量抽出処理について説明する。図２は、本実施形態に係る回帰モデル構築処理、及び、類似特徴量抽出処理についての処理の流れを示すフローチャートである。フローチャートにおける左側のレーンは、パラメータ設定等の解析装置３が自動的に行う処理、又は、ユーザにより任意のタイミングで行う処理を示し、右側のレーンは、解析装置３における演算処理等を示す。左側のレーンの処理がユーザにより実行される場合には、それぞれの処理の後にユーザからの指示待ち状態になるようにしてもよい。なお、ユーザがパラメータ等の設定をする場合、ユーザは、ユーザ入出力Ｉ／Ｆ４を介して解析装置３へパラメータ等の設定を行う。

まず、解析対象データ設定部３２０により解析対象データの設定が実行される（ステップＳ１００）。データ管理システム２に格納されているデータのうち、解析対象データを取得する条件が設定され、この設定は、データ洗浄部３００へと通知される。

次に、通知を受けたデータ洗浄部３００は、データ管理システム２に格納されているデータのうち、解析対象データの取得処理を行う（ステップＳ２０２）。データの取得は、上述したように、設定された期間等に格納されたデータの取得を行う。また、取得処理と併せて、データの欠測処理、異常値処理等の洗浄処理も行う。

図３は、データ洗浄部３００により処理された目的変数ｙ、及び、特徴量ｘ_１、ｘ_２の一例を示す表である。このように、監視している目的変数の値ごとに、複数の特徴量の値が存在する。例えば、ｙ＝５．１との観測結果が出ている場合に、ｘ_１＝２．３、ｘ_２＝１．１という特徴量を有していることを意味する。

図２に戻り、次に、データ洗浄部３００は、取得したデータにカテゴリ値が存在するか否かを判定する（ステップＳ２０４）。カテゴリ値が存在する場合（ステップＳ２０４：Ｙｅｓ）、データ洗浄部３００は、続いて、カテゴリ値のダミー変数化の処理を行う。一方で、カテゴリ値が存在しない場合（ステップＳ２０４：Ｎｏ）、ステップＳ２０６の処理はスキップされる。

ステップＳ２０６の処理は、例えば、図４に示すように、解析対象データがｘ_３のようなカテゴリ値を含む場合、図５のようにダミー変数を設定し、解析対象データ格納部３０２へと格納する。具体的には、ｘ_３は、Ａ、Ｂ、又は、Ｃというカテゴリ値を有する変数であるが、このままの形では回帰分析を行うことが困難であるため、図５のように、ｘ_３［Ａ］、ｘ_３［Ｂ］、ｘ_３［Ｃ］のようなダミー変数を設定する。

ｘ_３＝Ａの場合には、ｘ_３［Ａ］＝１、ｘ_３［Ｂ］＝０、ｘ_３［Ｃ］＝０となるように、各カテゴリ値に対応するダミー変数が１、他のダミー変数が０となるようにダミー変数の値が設定される。このようにカテゴリ値がある場合には、カテゴリ値は、ダミー変数へと変換される。

図２に戻り、次に、パラメータ設定部３２２は、回帰モデル構築パラメータを設定する（ステップＳ１０８）。設定された回帰モデル構築パラメータは、回帰モデル構築部３０４へと通知される。

次に、パラメータ設定部３２２は、類似特徴量パラメータを設定する（ステップＳ１１０）。設定された類似特徴量パラメータは、類似特徴量抽出部３０６へと通知される。なお、ステップＳ１０８と、ステップＳ１１０の処理を分けて行う必要は無く、パラメータ設定部３２２は、設定された各々のパラメータを、それぞれ回帰モデル構築部３０４と、類似特徴量抽出部３０６とに同じタイミングで通知するようにしてもよい。

次に、回帰モデル構築部３０４、及び、類似特徴量抽出部３０６は、それぞれにパラメータ設定部３２２から通知されたパラメータを取得する（ステップＳ２１２）。この後、回帰モデル構築部３０４、及び、類似特徴量抽出部３０６は、回帰モデル構築の実行指示、及び、類似特徴量抽出の実行指示があるまで待機状態となる。

次に、回帰モデル構築の実行指示がされる（ステップＳ１１４）。ユーザにより実行指示が為される場合、ユーザ入出力Ｉ／Ｆ４を介して回帰モデル構築部３０４へと回帰モデルを構築する旨の指示が通知される。

次に、実行指示を受信した回帰モデル構築部３０４は、解析対象データ格納部３０２に格納されている目的変数に対して、説明変数と回帰係数の算出処理を行う（ステップＳ２１６）。上述したように、この処理は、例えば、Ｌａｓｓｏを用いることにより、解析対象データからの説明変数の選択と、回帰モデルの構築とを同時に行うようにしてもよい。回帰モデル構築部３０４は、算出された回帰係数等のモデル構成要素値を含む回帰モデル３５０を、精度算出部３１４、類似特徴量抽出部３０６、影響度算出部３０８へと出力するとともに、要因・影響度格納部３１０へと格納する。要因・影響度表示部３１２は、このタイミングにおいて、回帰モデルが構築されたこと、そして、回帰モデルをユーザ入出力Ｉ／Ｆ４を介してユーザへと出力してもよい。

次に、類似特徴量抽出の実行指示がされる（ステップＳ１１８）。ユーザにより実行指示が為される場合、ユーザ入出力Ｉ／Ｆ４を介して類似特徴量抽出部３０６へと類似特徴量抽出処理を行う旨の指示が通知される。

次に、実行指示を受信した類似特徴量抽出部３０６は、回帰モデル構築部３０４が出力した回帰モデル３５０、及び、解析対象データ格納部３０２に格納されている解析対象データに基づいて、ステップＳ２１６で説明変数として抽出されなかった各特徴量と、各説明変数との間の類似度を解析、計算する（ステップＳ２２０）。

続いて、類似特徴量抽出部３０６は、求められた類似度に基づいて、説明変数との類似度の高い類似特徴量を抽出する（ステップＳ２２２）。類似度は、上述したように所定のしきい値と比較をすることにより、その高低が判定される。抽出された類似特徴量等のデータは、類似性モデル３５２として要因・影響度格納部３１０へと格納される。回帰データと同様に、このタイミングにおいて、ユーザへと類似性モデル３５２を出力するようにしてもよい。

なお、上述した説明においては、回帰モデル構築部３０４、及び、類似特徴量抽出部３０６は、ユーザから、ユーザ入出力Ｉ／Ｆ４を介して指示を受ける場合を説明したがこれには限られない。具体的には、ステップＳ２１２のパラメータ取得処理の後、続けて回帰モデルの構築処理と、類似特徴量の抽出処理とを行うようにしてもよい。この場合、ステップＳ１１４及びステップＳ１１８の処理は、省略することも可能である。すなわち、ユーザが任意のタイミングで実行指示を出すのではなく、解析装置３が自動的にこれらの処理を行うようにしてもよい。

次に、精度算出部３１４は、回帰モデルの精度を算出し、精度格納部３１６へと算出した精度を格納するとともに、回帰の精度が十分に高いか否かを判定する（ステップＳ１２４）。回帰の精度が十分で無い場合（ステップＳ１２４：Ｎｏ）、ステップＳ１００からの処理を繰り返す。なお、精度表示部３１８が、ユーザ入出力Ｉ／Ｆ４を介して精度格納部３１６に格納されている精度データをユーザへと出力し、ユーザが回帰精度を判断するようにしてもよい。

次に、回帰の精度が十分である場合（ステップＳ１２４：Ｙｅｓ）、回帰の説明変数と、その類似特徴量とが妥当であるか否かを判定する（ステップＳ１２６）。回帰モデル及び類似性モデルとして抽出された特徴量が妥当であるか否かは、例えば、ユーザ入出力Ｉ／Ｆ４に表示される特徴量と、特徴量間との関係性と、ユーザのプロセス知見や物理的関係性に基づき、ユーザが判断する。また、影響性が既知の特徴量が、回帰モデルあるいは類似性モデルに含まれているか否かにより判断してもよい。

抽出された特徴量が妥当では無い場合（ステップＳ１２６：Ｎｏ）、ステップＳ１００からの処理を繰り返す。この場合、解析対象とする期間や特徴量を調整する。また、解析対象データを変更せず、図２において点線で示すようにステップＳ１０８からの処理を繰り返してもよい。この場合、例えば、妥当な特徴量が抽出可能となるように、回帰パラメータを調整したり、類似度のしきい値を下げたりする。抽出された特徴量が妥当では無い場合とは、例えば、既知要因を表す特徴量がユーザ入出力Ｉ／Ｆ４に表示される回帰モデル及び類似性モデルのいずれにも含まれていない場合、既知要因を表す特徴量が類似特徴量として抽出されているが回帰モデルに含まれていない場合、明らかに適切でない特徴量が回帰モデルに含まれている場合、又は、回帰モデルの特徴量よりもその類似特徴量の方が物理的に妥当である場合等の場合を言う。

抽出された特徴量が妥当である場合（ステップＳ１２６：Ｙｅｓ）、例えば、既知要因を表す特徴量がユーザ入出力Ｉ／Ｆ４に表示される回帰モデルに含まれている場合、又は、抽出された特徴量が物理的に妥当であると判断できる場合、解析装置３は、処理を終了する。

なお、図２においては、回帰精度と抽出特徴量妥当性とが続いて判断されるようになっているが、これらの処理は、個々に行うことも可能である。すなわち、回帰モデル３５０が算出されたタイミングにおいて回帰精度と抽出特徴量妥当性の判断を行い、回帰精度が十分でない、又は、回帰の説明変数が妥当でなければ回帰モデル構築を再度行ってもよい。そして、類似特徴量が抽出されたタイミングにおいて、類似特徴量の妥当性を判定し、その判定結果に基づいて回帰モデルの再構築、又は、類似特徴量の再抽出をするようにしてもよい。すなわち、ステップＳ２１６の後、ステップＳ１１８の前にステップＳ１２４と、ステップＳ１２６の一部の処理を行うようにしてもよい。

次に、要因と、影響度の表示の例について説明する。図６は、要因の表示処理の流れを示すフローチャートである。

まず、影響度算出部３０８は、回帰モデル構築部３０４が出力した回帰モデル３５０と、類似特徴量抽出ｂ３０６が出力した類似性モデル３５２を取得する（ステップＳ３００）。なお、図１においては、直接取得するようになっているが、これらのモデルは、一度要因・影響度格納部３１０へ格納され、その後、影響度算出部３０８が取得するようにしてもよい。

次に、影響度算出部３０８は、取得した回帰モデル３５０と、類似性モデル３５２とから、影響度を算出する（ステップＳ３０２）。上述したように、影響度算出部３０８は、回帰モデル３５０から各説明変数が目的変数へと与える影響度を算出し、回帰モデル３５０及び類似性モデル３５２から各類似特徴量が目的変数へと与える影響度を算出する。

次に、要因・影響度表示部３１２は、ユーザ入出力Ｉ／Ｆ４を介して、説明変数及び類似特徴量、並びに、影響度算出部３０８が算出した、説明変数及び類似特徴量が目的変数へと与える影響度をユーザへと出力する（ステップＳ３０４）。この出力は、例えば、ユーザ入出力Ｉ／Ｆ４に備えられているモニタに表示することにより実行される。

図７及び図８は、要因と、影響度の表示例を示す図である。図７（ａ）は、説明変数の回帰係数の一例を示す図である。表示されているグラフは、説明変数である特徴量１、特徴量２、特徴量３についての構築された回帰モデルにおける回帰係数あらわすものである。このグラフは、各説明変数が１増加した場合の目的変数の変化量を示す。図７（ａ）の例においては、説明変数である特徴量１は、特徴量２、特徴量３に比べて、１増加した場合の目的変数の変化量が大きく、また、特徴量２と特徴量３が増加した場合の目的変数の変化量は、ほぼ等しい値となるが、その符号が逆になっていることを示す。

図７（ｂ）は、図７（ａ）に示した、説明変数である特徴量１と類似すると判定された類似特徴量である特徴量４、特徴量５を特徴量１と並べて、その回帰係数をあらわした図である。図７（ａ）と同様に、回帰係数を示すものであるので、各特徴量が１増加した場合の目的変数の変動を示している。図７（ｂ）に示すように、類似する特徴量であっても、その回帰係数は、大きく異なることがある。これは、類似度の計測の仕方により変化するものであり、本実施形態においては、一例として、上述したように、標準化した変数同士の相関係数を類似度として算出しているためである。

図８（ａ）及び図８（ｂ）は、それぞれ説明変数である特徴量１、特徴量２、特徴量３と、説明変数である特徴量１に類似する類似特徴量である特徴量４、特徴量５の影響度を並べてあらわした図である。例えば、これらの図においては、回帰係数と、特徴量の分散とを掛け合わせた数値をグラフ化したものである。

図８（ａ）の各特徴量についてのグラフに示すように、各説明変数を構成する特徴量のそれぞれが目的変数へと与える影響度は、各特徴量により大きく異なるものとなる。一方、図８（ｂ）に示すように、類似する特徴量においては、上述した図７（ｂ）とは異なり、各特徴量が目的変数へと与える影響度がほぼ同等なものとなっている。このように、グラフとして可視化して表示することにより、ユーザは、類似特徴量が目的変数へと与える影響を目視することが可能となる。

要因・影響度表示部３１２は、図７に示すような回帰係数を出力するようにしてもよいし、図８に示すような影響度を出力するようにしてもよい。また、これらの情報を併せて表示するようにしてもよい。なお、図７及び図８においては、特徴量２、特徴量３の類似特徴量を示していないが、これらも併せて表示するようにしてもよいし、ユーザの操作により観測したい説明変数の特徴量を切り替えて表示するようにしてもよい。

さらに、別の例として、目的変数、説明変数、及び、類似特徴量とをネットワーク図（グラフ）にして表示するようにしてもよい。図９は、重要特性値と、特徴量との関係、すなわち、目的変数、説明変数、及び、類似特徴量の関係をネットワーク図として表示する一例を示す図である。

この図９に示すように、重要特性値（目的変数）と、特徴量（説明変数及び類似特徴量）、そして、説明変数が目的変数へと与える影響性と、類似特徴量と説明変数との間の類似度とを表現することができる。例えば、目的変数、説明変数、及び、類似特徴量として抽出された特徴量をノードとし、影響度、又は、類似度をエッジの太さ、又は、長さとして表現することも可能である。

別の例としては、各説明変数が目的変数へと与える影響度の大きさを、各説明変数のノードの大きさであらわし、各類似特徴量と説明変数との間の類似度を、各類似特徴量のノードの大きさであらわすようにしてもよい。このように、ネットワーク図として表現することにより、ユーザが、複数の要因の関連性を直感的に確認できるようにしてもよい。さらに別の例として、影響度や類似度の高さに応じてノードやエッジの色を変化させるなどとして表現してもよい。

次に、回帰モデル３５０の精度を表示する処理について説明する。図１０は、回帰モデル３５０の精度を表示する処理の流れを示すフローチャートである。

回帰モデル構築処理が終了した後、精度算出部３１４は、解析対象データ格納部３０２に格納されている解析対象データ、及び、回帰モデル構築部が出力した回帰モデル３５０を取得する（ステップＳ４００）。

次に、精度算出部３１４は、目的変数の推定値を、回帰モデルに解析対象データを適用することにより算出する（ステップＳ４０２）。

次に、精度算出部３１４は、算出された推定値と、実績値とに基づいて回帰モデルの精度を算出する（ステップＳ４０３）。算出された精度は、精度格納部３１６へと格納される。

次に、精度表示部３１８は、精度格納部３１６に格納されている回帰モデルの精度をユーザＩ／Ｆ４を介してユーザへと出力する（ステップＳ４０６）。ユーザは、表示された精度を確認することにより、回帰モデルにおいてどの程度要因を説明できるかを知ることができる。精度の表示としては、算出された精度自体を表示するものであってもよいし、推定値と実績値とをグラフで表現するものであってもよい。また、これらを併せて表示するものであってもよい。

このように、本実施形態に係る解析装置３によれば、重要特性値の変動要因を特定するという課題に対して、重要特性値の変動を説明する特徴量を抽出し、回帰モデルを構築し、回帰モデルに含まれる特徴量に類似した特徴量を抽出することにより、回帰モデル構築における特徴抽出においては共線性を持つために抽出されずに見落とされやすい変動要因をも抽出する。この結果、変動要因の抽出漏れを抑制することが可能となる。

（第２実施形態）
上述の第１実施形態に係る解析処理は、データにカテゴリ値が含まれている場合には、ダミー変数化して回帰モデル構築、及び、類似特徴量抽出の処理を行うものとしたが、本実施形態に係る解析処理は、データにカテゴリ値が含まれている場合に、カテゴリ変数ごとにグループ化することにより解析処理を行うものである。以下、上述した第１実施形態と異なる部分について詳しく説明する。

図１１は、本実施形態に係る解析システム１の構成を示すブロック図である。この図１１に示すように、本実施形態に係る解析装置３は、上述した第１実施形態の構成に、さらに、特徴量グルーピング部３２４を備える。

プラントにおいて観測されるデータには、センサで測定された連続値だけではなく、加工条件や利用機器と言ったカテゴリ値が含まれることがある。カテゴリ値が変動要因に大きく影響している場合、加工条件を変更したり、利用機器を切り替えたりすることで、直接的に変動を制御できる可能性がある。したがって、カテゴリ値を含んだ形で要因を解析することが重要となる。

データにカテゴリ値が含まれている場合、そのままでは回帰モデル構築や類似特徴量抽出が困難である。そこで、上述したように、カテゴリ値の水準ごとに特徴量を作成し、水準に該当するか否かを０、又は、１で表現するダミー変数を導入する。このようにすると、ダミー変数の値は０、又は、１の数値変数となるため、回帰モデル構築や類似特徴量抽出の処理を行うことが可能となる。

しかしながら、カテゴリ値を単純にダミー変数化しただけでは、ダミー変数ごとに回帰モデル構築や類似特徴量抽出の処理が行われるため、必ずしも正しい解析結果が求められるわけではない。例えば、加工条件Ａと加工条件Ｂのいずれか一方が排他的に成立する場合に、条件Ａが抽出されたとしても、実際には条件Ｂが重要特性値に影響している可能性があり、実用上は条件Ａと条件Ｂの差異に興味がある場合が多い。このように、元は同一カテゴリ変数であった水準が選択されたり選択されなかったりすることにより、解釈性が損なわれる場合がある。

そこで、特徴量グルーピング部３２４は、同一カテゴリの水準を１つのグループとみなすようにダミー変数化する。図１２はこのようにグループ化されたダミー変数を示す図である。特徴量グルーピング部３２４は、データ洗浄部により洗浄し、ダミー変数化されたデータを、この図１２に示すようにグループ化する。

すなわち、特徴量ｘ_１は、グループｇ_１と、特徴量ｘ_２は、グループｇ_２と、それぞれの１変数のグループとする一方、特徴量ｘ_３については、ダミー変数ｘ_３［Ａ］、ｘ_３［Ｂ］、ｘ_３［Ｃ］をまとめてグループｇ_３としてグループ化する。このように、同一のカテゴリデータ（ｘ_３）から生成されたダミー変数の集合（ｘ_３［Ａ］、ｘ_３［Ｂ］、ｘ_３［Ｃ］）を同一のグループ（ｇ_３）としてグループ化する。

本実施形態においては、回帰モデル構築部３０４、及び、類似特徴量抽出部３０６は、このようにグループ化された特徴量に基づいて、グループごとに特徴量を選択、抽出する回帰モデル構築と、類似特徴量抽出を実行する。なお、このグループ化は、カテゴリのダミー変数化に伴うものに限定する必要は無く、任意のグループ化された変数に対しても適用可能である。例えば、ある特徴量ｘ_ｎ、ｘ_ｍ間に強い正又は負の相関があることが事前に判明している場合などは、これらの特徴量をグループ化することにより、回帰モデルの構築の精度を高めることも可能である。他の例として、所定の複数の加工条件等があり、それらの加工条件が選択される組合せが決まっている場合においても、これら複数の加工条件を表す特徴量をグループ化することは有効である。

グループごとに解析を行う罰則項付回帰モデルとして、ＧｒｏｕｐＬａｓｓｏがある。このＧｒｏｕｐＬａｓｓｏは、以下の式であらわされる関数の最適化問題である。

ここで、ｐ_ｌはグループｌの水準数（グループｌに含まれる特徴量の数）であり、β^ｌは、グループ内の各特徴量に対応する回帰係数である。例えば、６変数のグループｇが、ｇ_１＝｛１｝、ｇ_２＝｛２，３｝、ｇ_３＝｛４，５，６｝である場合、ｐ_１＝１、ｐ_２＝２、ｐ_３＝３、β^１＝β_１、β^２＝［β_２ β_３］^Ｔ、β^３＝［β_４ β_５ β_６］^Ｔとなり、式（５）は、次の式のような形となる。

回帰モデル構築部３０４は、ＧｒｏｕｐＬａｓｓｏを用いることにより、グループごとに特徴抽出をすることが可能となる。すなわち、グループごとに選択するか否かが決定され、選択されたグループの回帰係数は、全て０以外、選択されなかったグループの回帰係数が、全て０となる。なお、回帰モデルは、ＧｒｏｕｐＬａｓｓｏには限られず、ＦｕｓｅｄＬａｓｓｏやＣｌｕｓｔｅｒｅｄＬａｓｓｏを用いてもよい。さらに、グループごとにステップワイズ法を適用したり、非線形の手法を適用したりしてもよい。

類似特徴量抽出部３０６は、グループ同士の類似度を算出し、グループごとに類似特徴量を抽出する。グループ同士の類似度は、例えば、正準相関を用いることができる。変数をＡ、Ｂとしたとき、正準相関は、Ａ、及び、Ｂをそれぞれ一次結合したベクトルの相関係数の最大値と考えることができる。正準相関ｒは、平均０に基準化されたＡ＝［Ａ_１，Ａ_２，・・・，Ａ_ｐ］、Ｂ＝［Ｂ_１，Ｂ_２，・・・，Ｂ_ｑ］に対して、ベクトルａ∈Ｒ^ｐ、ｂ∈Ｒ^ｑを用いて、以下のように定義される。

また、グループごとの罰則項付回帰モデルにより選択されたグループＸ^ｌの回帰係数β^ｌを用いて、類似度を以下のように定義してもよい。ただし、以下の式においてｌ≠ｋであるものとする。

この類似度ｒは、Ｘ^ｌβ^ｌを目的変数、Ｘ^ｋを説明変数として回帰したときの決定係数の平方根に一致する。

各グループの要素がカテゴリの各水準に対応している場合、多重共線性が発生する可能性が高くなる。このような場合には、別の例として、線形回帰の代わりに、Ｒｉｄｇｅ回帰の決定係数を用いてもよい。Ｒｉｄｇｅ回帰の問題は、以下の式により表される。

上記の問題を解いたときの決定係数は、多重共線性を除去したグループ間の類似度とみなすことができる。上述した第１実施形態と同様に、類似度が所定のしきい値以上となった場合、類似特徴量抽出部３０６は、グループＸ^ｋを説明変数のグループＸ^ｌの類似グループとして抽出する。式（９）は、Ｘ^ｌのｙへの影響性を目的変数とした、説明変数グループＸ^ｋによる罰則項付回帰モデルを構築していることに相当する。

要因・影響度表示部３１２は、前記の回帰モデル構築部と、前記の類似特徴量抽出部により、抽出されたグループのリストをユーザ入出力Ｉ／Ｆ４を介してユーザに表示する。このリストは、影響度算出部３０８が算出した影響度に応じて優先付けし、優先度順に並べて表示することもできる。

影響度算出部３０８は、それぞれのグループの目的変数への影響度を以下のように算出する。回帰モデル構築部３０４により説明変数として抽出された特徴量については、各水準の回帰係数を影響度とする他、グループｌに含まれる各変数ｊに対してσ（Ｘ_ｊ）β_ｊを並べたベクトルのＬ２ノルムを影響度として算出してもよい。このような指標を影響度とすることにより、グループの影響性を表すことが可能となる。

同様に、影響度算出部３０８は、類似特徴量抽出部３０６が抽出した類似特徴量については、例えば、式（９）のＲｉｄｇｅの回帰係数を影響度とすることができる。他の例としては、影響度算出部３０８は、グループｋに含まれる各変数ｊに対してσ（Ｘ_ｊ）β_ｊを並べたベクトルのＬ２ノルムを影響度として算出してもよい。このような指標を影響度とすることにより、類似特徴量のグループが目的変数へと与える影響性を表すことが可能となる。

図１３は、グループ化された説明変数が目的変数へと与える影響度として、回帰係数を、要因・影響度表示部３１２がユーザ入出力Ｉ／Ｆ４を介して表示した一例を示す図である。この図１３において、特徴量１−Ａと、特徴量１−Ｂは、グループ１に属している説明変数であり、特徴量１−Ａは、グループ１に属する特徴量Ａであり、特徴量１−Ｂは、グループ１に属する特徴量Ｂであることを示している。他の特徴量についても同様である。

この図１３に示すように、各グループが目的変数へと与える影響度の傾向を視覚的に表示するとともに、各グループに属する個々の説明変数が目的変数へと与える影響度の詳細についても表示することが可能である。

図１４は、グループ化された説明変数の１つと、グループ化された類似特徴量とが目的変数へと与える影響度を回帰モデルにおける回帰係数として示す図である。この図１４においても、図１３と同様に、各特徴量のグループ１、グループ４、グループ５とが示されている。このように類似する特徴量同士を並べて表示することもできる。

図１５は、グループ化された重要特性値（目的変数）と、グループ化された特徴量（説明変数、類似特徴量）とのグループ同士の関係をネットワーク図により示したものである。グループのノードごとに、特徴量のノードが含まれている。この図に示すように、重要特性値は、グループ１、グループ２、グループ３からの影響度が強く、グループ１は、グループ４、グループ５と類似するグループであることが視覚的にとらえることが可能である。前述した図９の説明と同様に、ノードやエッジの表現により、影響度や類似度を表すようにしてもよい。

図１５は、グループ同士の関係性について示したネットワーク図であるが、個々の特徴量についての関連性が示されていない。そこで、図１６のように、グループ内の各特徴量をノードとするネットワーク図を表示するようにしてもよい。このように表示することにより、グループ同士の関連性とともに、グループを構成する特徴量同士の関連性も表現することが可能となる。

例えば、グループ１とグループ４との関係を見ると、特徴量１−Ａの重要特性値への影響性は、特徴量４−Ａ及び特徴量４−Ｃの影響性に類似しており、特徴量１−Ｂの重要特性値への影響性は、特徴量４−Ｂの影響性に類似している。また、特徴量５に含まれる特定の水準が特徴量１のいずれにも類似していない場合も考えられる。図１６のように表すことにより、このような個々の特徴量同士の関連性も視覚的に表示することが可能となる。

以上のように、本実施形態に係る解析装置３によっても、重要特性値の変動要因を特定するという課題に対して、重要特性値の変動を説明する特徴量を抽出し、回帰モデルを構築し、回帰モデルに含まれる特徴量に類似した特徴量を抽出することにより、回帰モデル構築における特徴抽出においては共線性を持つために抽出されずに見落とされやすい変動要因をも抽出する。さらに、本実施形態に係る解析装置３によれば、カテゴリ値のように切り離すことが困難である特徴量同士をグループ化することで、単純にダミー変数を用いることにより解釈性を損ねることなく、各特徴量が目的変数へと与える影響を表示することが可能となる。

上述した全ての実施形態は、例えば、図１７に示すようなハードウェア構成により実施される。すなわち、サーバ２０内にデータ管理システム２が構築され、コンピュータ３０、及び、ハードディスク３２に解析装置３が構築され、マウス４０、ディスプレイ４２、及び、キーボード４４を備えるユーザ入出力Ｉ／Ｆ４によりユーザに情報を示したり、又は、ユーザからの入力を受け付けたりする。

上述した全ての実施形態で説明した解析システム及び解析装置の少なくとも一部は、ハードウェアで構成されていてもよいし、ソフトウェアで構成されていてもよい。ソフトウェアで構成される場合には、解析システム及び解析装置の少なくとも一部の機能を実現するプログラムをフレキシブルディスクやＣＤ−ＲＯＭ等の記憶媒体に収納し、コンピュータに読み込ませて実行させるものであってもよい。記憶媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記憶媒体であってもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。また、当然のことながら、本発明の要旨の範囲内で、これらの実施の形態を部分的に適宜組み合わせることも可能である。

３：解析装置、３００：データ洗浄部、３０４：回帰モデル構築部、３０６：類似特徴量抽出部、３０８：影響度算出部、３１２：要因・影響度表示部、３１４：精度算出部、３１８：精度表示部、３２０：解析対象データ設定部、３２２：パラメータ設定部

Claims

複数の特徴量を含む解析対象データを用いて、前記複数の特徴量のうちの１つである目的変数を、前記複数の特徴量のうちの１つに対応する説明変数から取得する回帰モデルを構築する、回帰モデル構築部と、
前記複数の特徴量のうちの前記目的変数及び前記説明変数に対応する特徴量以外の特徴量について、前記説明変数との類似度を計算し、前記類似度が所定値と比較して高い類似特徴量を抽出する、類似特徴量抽出部と、
を備える解析装置。
前記複数の特徴量を含むデータを取得し、加工し、前記解析対象データを生成する、データ洗浄部をさらに備え、
前記回帰モデル構築部は、前記データ洗浄部が生成した前記解析対象データに基づいて前記回帰モデルを構築し、
前記類似特徴量抽出部は、前記データ洗浄部が生成した前記解析対象データ、及び、前記回帰モデル構築部が選択した前記説明変数に基づいて前記類似特徴量を抽出する請求項１に記載の解析装置。
前記データ洗浄部は、さらに、前記複数の特徴量を含むデータのうち、カテゴリを表す変数であるカテゴリデータを、各カテゴリを表すダミー変数データに変換し、前記解析対象データを生成する請求項２に記載の解析装置。
前記説明変数は、複数個存在し、
前記複数個の前記説明変数は、それぞれが前記複数の特徴量のいずれか１つに対応する、
請求項１乃至請求項３のいずれかに記載の解析装置。
前記回帰モデル構築部は、前記目的変数と前記説明変数とを用いて回帰分析し、前記説明変数と前記説明変数の回帰係数とに基づいて前記目的変数を取得する前記回帰モデルを構築する、
請求項１乃至請求項４のいずれかに記載の解析装置。
前記回帰モデル構築部は、罰則項付回帰モデルに基づいて、前記説明変数を選択して前記回帰モデルを構築する請求項１乃至請求項５のいずれかに記載の解析装置。
前記類似特徴量抽出部は、前記解析対象データに含まれるデータであって、前記目的変数以外、かつ、前記説明変数以外のそれぞれのデータと、それぞれの前記説明変数との相関係数を算出し、類似度を計算する請求項１乃至請求項６のいずれかに記載の解析装置。
前記目的変数に対する前記説明変数の影響度、及び、前記目的変数に対する前記類似特徴量の影響度を算出する、影響度算出部をさらに備える請求項１乃至請求項７のいずれかに記載の解析装置。
前記目的変数に対する前記類似特徴量の影響度、及び、前記類似特徴量と前記説明変数との間の類似度、のうち少なくとも一方を含むデータを出力データとして出力する、出力部を備える請求項８に記載の解析装置。
前記出力部は、
前記目的変数、前記説明変数、及び、前記類似特徴量をノードとして表し、
前記目的変数に対する前記説明変数の影響度に基づいて、前記目的変数と前記説明変数とをエッジで接続し、
前記説明変数と前記類似特徴量との間の類似度に基づいて、前記説明変数と前記類似特徴量とをエッジで接続するネットワーク図を前記出力データとして出力する請求項９に記載の解析装置。
前記解析対象データに含まれる前記複数の特徴量をグループ化する、特徴量グルーピング部をさらに備え、
前記回帰モデル構築部は、グループ化された前記複数の特徴量を用いて回帰分析することにより、前記グループ化された複数の特徴量のいずれか１つのグループに対応するグループ化された説明変数と、前記グループ化された説明変数に含まれる特徴量の回帰係数とによって前記目的変数を表す前記回帰モデルを構築し、
前記類似特徴量抽出部は、前記グループ化された説明変数、及び、前記グループ化された解析対象データについて前記類似特徴量を抽出する、
請求項１に記載の解析装置。
前記解析対象データに含まれる前記複数の特徴量をグループ化する、特徴量グルーピング部をさらに備え、
前記回帰モデル構築部は、グループ化された前記複数の特徴量を用いて回帰分析することにより、前記グループ化された複数の特徴量のいずれか１つのグループに対応するグループ化された説明変数と、前記グループ化された説明変数に含まれる特徴量の回帰係数とによって前記目的変数を表す前記回帰モデルを構築し、
前記類似特徴量抽出部は、前記グループ化された説明変数、及び、前記グループ化された解析対象データについて前記類似特徴量を抽出し、
前記データ洗浄部は、前記特徴量を含むデータのうち、カテゴリを表す変数であるカテゴリデータを、各カテゴリを表すダミー変数データに変換し、
前記特徴量グルーピング部は、同一の前記カテゴリデータから変換された前記ダミー変数データの集合を同一のグループとしてグループ化する請求項２に記載の解析装置。
前記回帰モデル構築部は、前記グループ化された説明変数ごとに罰則付回帰モデルに基づいて前記回帰モデルを構築し、
前記類似特徴量抽出部は、前記グループ化された説明変数ごと、及び、前記グループ化された複数の特徴量ごとに前記類似特徴量を抽出する、
請求項１１又は請求項１２に記載の解析装置。
前記回帰モデルの精度を算出する、回帰モデル精度算出部をさらに備え、
前記類似特徴量抽出部は、算出された前記回帰モデルの精度に基づいて前記複数の特徴量を選択し、選択された前記回帰モデルを構築するパラメータと、選択された前記類似特徴量を抽出するパラメータと、に基づいて抽出される前記特徴量を調整する、
請求項１又は請求項２に記載の解析装置。
回帰モデル構築部が、複数の特徴量を含む解析対象データを用いて、前記複数の特徴量のうちの１つである目的変数を、前記複数の特徴量のうちの１つに対応する説明変数から取得する回帰モデルを構築するステップと、
類似特徴量抽出部が、前記複数の特徴量のうちの前記目的変数及び前記説明変数に対応する特徴量以外の特徴量について、前記説明変数との類似度を計算し、前記類似度が所定値と比較して高い類似特徴量を抽出するステップと、
を備える解析方法。
コンピュータに、
複数の特徴量を含む解析対象データを用いて、前記複数の特徴量のうちの１つである目的変数を、前記複数の特徴量のうちの１つに対応する説明変数から取得する回帰モデルを構築する、回帰モデル構築手段、
前記複数の特徴量のうちの前記目的変数及び前記説明変数に対応する特徴量以外の特徴量について前記説明変数との類似度を計算し、前記類似度が所定値と比較して高いデータである類似特徴量を抽出する、類似特徴量抽出手段、
解析された前記類似特徴量に関するデータを含む出力データを出力する、出力手段、
として機能させるためのプログラム。