JP6472573B2 - データ分析手法候補決定装置 - Google Patents

データ分析手法候補決定装置 Download PDF

Info

Publication number
JP6472573B2
JP6472573B2 JP2018508418A JP2018508418A JP6472573B2 JP 6472573 B2 JP6472573 B2 JP 6472573B2 JP 2018508418 A JP2018508418 A JP 2018508418A JP 2018508418 A JP2018508418 A JP 2018508418A JP 6472573 B2 JP6472573 B2 JP 6472573B2
Authority
JP
Japan
Prior art keywords
analysis
data
analyzed
similarity
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018508418A
Other languages
English (en)
Other versions
JPWO2017168967A1 (ja
Inventor
敦子 青木
敦子 青木
坂上 聡子
聡子 坂上
岩田 雅史
雅史 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2017168967A1 publication Critical patent/JPWO2017168967A1/ja
Application granted granted Critical
Publication of JP6472573B2 publication Critical patent/JP6472573B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、データ分析手法候補を決定する技術に関する。
データを分析するためには、データの特徴や意味するところに応じて適切なデータ分析手法を選択する必要がある。現状では、データサイエンティストと呼ばれるデータ分析手法に詳しい専門の技術者が、データ分析手法を推薦している。近年、インターネットに接続される機器の増加により、インターネットを経由して収集されるデータが爆発的に増加しているため、これらのデータを分析するデータ分析技術者に対するニーズは高まっている。しかしながら、データ分析技術者の育成は進んでおらず、収集されたものの有効活用されていないデータが数多く存在する。
データ分析技術者の不足という課題を解決するためには、データ分析手法を機械的に推薦する仕組みが必要である。関連分野の技術として、特許文献1には、過去のソフトウェア製品の開発実績および変更実績に基づいて、派生製品の開発時に同時に再利用または変更すべきソフト部品を選択するソフトウェア分析装置が開示されている。特許文献1のソフトウェア分析装置では、ソースコード化されたあるソフト部品がユーザにより選択されると、当該ソフト部品と同時利用されていると考えられるソフト部品を、ソフト部品間距離に基づいて抽出し、提示する。
また、特許文献2には、ソースコードを推薦する情報処理装置が開示されている。特許文献2の情報処理装置は、開発中のプログラムのソースコードを中間コードに変換し、これに類似する中間コードをデータベースに記憶されている中間コードから抽出し、類似する中間コードのソースコードを推薦する。
特開2010−113449号公報 特開2013−3664号公報
しかし、特許文献1の技術は、ソースコード化されたソフト部品が存在しなければ利用できない、という問題がある。また、ソフト部品の部品間距離のみを用いて再利用するソフト部品を選定するため、分析対象データの類似性等を手掛かりに、再利用可能なソフト部品を選定することは出来ない、という問題があった。
また、特許文献2では、ソースコードの言語種別は問わないものの、ソースコード化されたプログラムから生成した中間コードが無ければ、ソースコードの推薦が出来ない、という問題があった。
本発明は上述の問題に鑑み、ソースコード又は中間コードの存在有無によらず、分析対象データの分析手法候補を決定することを目的とする。
本発明に係るデータ分析手法候補決定装置は、データ分析を行うべき分析対象データの分析手法候補を決定するデータ分析手法候補決定装置であって、過去にデータ分析が行われた複数の分析済データの夫々について、データ属性および分析手法を紐付けたデータを分析事例として格納する分析事例格納部と、前記分析対象データについて、データ属性の情報を格納する分析対象データ格納部と、前記分析対象データのデータ属性と前記分析済データのデータ属性との類似度であるデータ属性類似度を算出し、前記データ属性類似度に基づき前記分析済データの分析手法の中から少なくとも一つの分析手法を前記分析対象データの分析手法候補として決定する分析手法候補決定部と、を備え、分析済データ及び分析対象データのデータ属性は、データ取得間隔、データ取得方法、実績値か予測値か加工値の別、のいずれかを少なくとも含む
本発明に係るデータ分析手法候補決定装置は、データ分析を行うべき分析対象データの分析手法候補を決定するデータ分析手法候補決定装置であって、過去にデータ分析が行われた複数の分析済データの夫々について、データ属性および分析手法を紐付けたデータを分析事例として格納する分析事例格納部と、前記分析対象データについて、データ属性の情報を格納する分析対象データ格納部と、前記分析対象データのデータ属性と前記分析済データのデータ属性との類似度であるデータ属性類似度を算出し、前記データ属性類似度に基づき前記分析済データの分析手法の中から少なくとも一つの分析手法を前記分析対象データの分析手法候補として決定する分析手法候補決定部と、を備え、分析済データ及び分析対象データのデータ属性は、データ取得間隔、データ取得方法、実績値か予測値か加工値の別、のいずれかを少なくとも含む。データ属性類似度に基づき分析手法候補を決定するため、各分析手法のソースコードが無くても分析手法候補を決定することができる。

本発明の目的、特徴、態様、および利点は、以下の詳細な説明と添付図面とによって、より明白となる。
実施の形態1に係るデータ分析手法候補決定装置の構成を示すブロック図である。 データ属性を例示する図である。 実施の形態1に係るデータ分析手法候補決定装置のハードウェア構成を示す図である。 実施の形態1に係るデータ分析手法候補決定装置の動作を示すフローチャートである。 図4のステップS15における処理を示すフローチャートである。 距離評価軸の設定例を示す図である。 実施の形態2に係るデータ分析手法候補決定装置の構成を示すブロック図である。 実施の形態2に係るデータ分析手法候補決定装置の動作を示すフローチャートである。 評価取得部の動作を示すフローチャートである。 実施の形態2の変形例に係るデータ分析手法候補決定装置の構成を示すブロック図である。 実施の形態2の変形例に係るデータ分析手法候補決定装置の動作を示すフローチャートである。 実施の形態3に係るデータ分析手法候補決定装置の構成を示すブロック図である。 実施の形態3に係るデータ分析手法候補決定装置の動作を示すフローチャートである。 実施の形態3に係るデータ分析手法候補決定装置の動作を示すフローチャートである。 関数フローチャートAを示す図である。 関数フローチャートBを示す図である。 実施の形態4に係るデータ分析手法候補決定装置の構成を示すブロック図である。 実施の形態4に係るデータ分析手法候補決定装置の動作を示すフローチャートである。 図18のステップS19における既存データ活用提案部の動作を示すフローチャートである。 実施の形態5に係るデータ分析手法候補決定装置の構成を示すブロック図である。 実施の形態5に係るデータ分析手法候補決定装置の動作を示すフローチャートである。 図20のステップS20における分析手法見直し提案部の動作を示すフローチャートである。
<A.実施の形態1>
<A−1.構成>
図1は、実施の形態1に係るデータ分析手法候補決定装置11の構成を示すブロック図である。データ分析手法候補決定装置11は、データ分析を行うべき分析対象データの分析手法候補を決定し、それをユーザに推薦する装置である。データ分析手法候補決定装置11は、分析対象データ格納部2、分析事例格納部3、および分析手法候補決定部4を備えている。但し、これらデータ分析手法候補決定装置11の構成要素は、一つの装置内に設けられるだけでなく、複数の装置に分散して配置され、それら複数の装置がインターネット等のネットワークにより互いに接続され、全体として一つのシステムとしてのデータ分析手法候補決定装置11を構成しても良い。
データ分析手法候補決定装置11は、入力部5と出力部6を利用可能である。入力部5は、ユーザからの指令又は検索条件等をデータ分析手法候補決定装置11に入力するための入力インタフェースである。また、出力部6は、分析手法候補決定部4による分析手法候補の決定結果をユーザに出力する出力インタフェースである。図1では、入力部5と出力部6をデータ分析手法候補決定装置11とは別の構成として示しているが、これらをデータ分析手法候補決定装置11が備えていてもよい。
分析対象データ格納部2は、HDD(Hard Disk Drive)又はSD等といった記録媒体により構成され、データ分析を行うべき分析対象データと、当該分析対象データのデータ属性とを格納する。データ分析手法候補決定装置11の分析対象データは、センサ等から直接計測された温度、湿度、振動、速度、加速度、圧力、日射量、距離、重量、電流、電圧、電力量、回転数、もしくは数等の時系列データ、または機器の使用履歴、アクセスログ、移動体のGPSデータ、気象観測、もしくは気象予報等の離散データ、または報告書、点検記録、作業履歴、帳票、もしくは計画書等の文書データ、または人口統計もしくは白書等の統計データ等を含む。分析対象データは、これからデータ分析を行うべきデータであるが、その他に、過去にデータ分析を行った分析済データと、データ分析、予測、または推定等によって新たに作成されたデータ分析結果が分析対象データ格納部2に格納されていても良い。また、分析対象データ格納部2には、過去にデータ分析を行っていないが利用可能なデータとそのデータのデータ属性とが含まれていてもよい。なお、分析対象データ格納部2は、分析対象データのデータ属性が格納されていれば良く、分析対象データ自体は必ずしも格納されていなくても良い。分析対象データ自体が分析対象データ格納部2に格納されない分析対象データの例としては、自治体等が提供するオープンデータ、SNS(Social Network System)に投稿されたデータ、またはデータ分析手法候補決定装置11からアクセス可能なクラウド環境等に分散保存されたデータ等がある。
図2は、データ属性を例示する図である。図2は、データA、データB、およびデータCの夫々についてデータ属性を示している。データ属性とはデータの特徴を表すもので、例えばデータの取得間隔、データの取得方法、実績値か予測値か加工値の別、データ種別、関連データ、および関連機器等がある。このほか、データに対するアクセス権限をデータ属性としてもよい。
分析事例格納部3は、HDD(Hard Disk Drive)又はSD等といった記録媒体により構成されている。分析事例格納部3には、過去にデータ分析が行われた分析済みデータについて、データ属性と分析手法とを紐付けたデータが分析事例として格納されている。分析事例は、データ分析手法候補決定装置11によって作成された分析事例である必要はなく、既存の分析事例、文献等による公知事例、検討段階における試適用事例、不採用事例、または分析方法変更事例等を含むことが望ましい。また、分析事例は、分析手法に対するユーザの評価情報を含んでいても良い。各分析事例において、分析手法はソースコードで記載されてもよいし、プログラムが実行可能な中間コードで記載されてもよい。あるいは、「回帰分析」または「k−means法」等のように名称で記載されてもよい。あるいは、「統計解析→クラスタリング→k−means法」のように、上位概念、中位概念、下位概念からなる階層構造で記載してもよい。あるいは、ID化されて記載されてもよい。
分析手法候補決定部4は、分析対象データのデータ分析に用いるべき分析手法を過去の分析事例で用いられた分析手法の中から選択し、分析手法候補として決定する。ここで決定された分析手法候補は、出力部6から例えばテキスト形式で出力され、ユーザに推薦される。あるいは、分析手法候補に代表過去事例を合わせたものがリスト形式で出力され、ユーザに推薦されてもよい。この場合、ユーザは分析手法候補の実施例または特徴を理解しやすい。
図3は、データ分析手法候補決定装置11のハードウェア構成を示す図である。データ分析手法候補決定装置11は、プロセッサ20、メモリ21、および記録媒体22を備えて構成される。分析手法候補決定部4は、RAM(Random Access Memory)等のメモリ21に格納されたソフトウェアプログラムが、CPU(Central Processing Unit)等のプロセッサ20により実行されることにより、当該プロセッサ20の機能として実現する。ただし、これらは複数のプロセッサが連携して実現されても良い。なお、分析手法候補決定部4は、当該動作をハードウェアの電気回路で実現する信号処理回路により実現されてもよい。ソフトウェアの分析手法候補決定部4と、ハードウェアの分析手法候補決定部4とを合わせた概念として、「部」という語に代えて「処理回路」という語を用いることも出来る。
<A−2.動作>
図4は、データ分析手法候補決定装置11の動作を示すフローチャートである。まず、ユーザが入力部5を介して、分析対象データおよび分析目的を選択する(ステップS11)。分析対象データについては、例えば分析対象データ格納部2に格納済のデータの一覧を表示して、その中からユーザに選択させても良いし、ユーザが電子ファイル等で新たに分析対象データを入力できるようにしても良い。新たに分析対象データが入力された場合、当該データは分析対象データ格納部2に格納される。
分析目的については、例えばプルダウンメニュー等の一覧を表示して、その中からユーザに選択させても良いし、ユーザが文字列で入力できるようにしても良い。ここでユーザが選択した分析目的は、分析対象データ格納部2に格納される。また、分析目的は1つに限定せず、複数あっても良い。ここでは、「テレビの視聴データ」、「視聴者の視聴嗜好の分析」を、それぞれ分析対象データ、分析目的の例として説明を続ける。
次に、分析対象データ格納部2から分析手法候補決定部4に分析対象データを読み込む(ステップS12)。すなわち、各テレビ端末から収集したテレビの視聴データを分析対象データとして読み込む。
続いて、分析対象データ格納部2から分析手法候補決定部4に、分析対象データのデータ属性および分析目的を読み込む(ステップS13)。すなわち、分析対象データである「テレビの視聴データ」のデータ属性として、例えばデータ取得間隔、データ取得機器の所在地、およびデータ取得機器の所有者情報を読み込み、分析目的として「視聴者の視聴嗜好の分析」を読み込む。
続いて、分析事例格納部3から分析手法候補決定部4に、データ属性が分析対象データと同一若しくは類似、または分析目的が分析対象データと同一若しくは類似する分析事例を読み込む(ステップS14)。例えば、分析対象データ「テレビの視聴データ」とデータ属性が類似する分析事例として、「テレビの地域別視聴率調査」、「地域別好きなタレント分析」、「人気のある映画ジャンル調査」、「電力使用状況調査」、または「工場における生産効率分析」等がある。また、分析目的が類似する分析事例として、「インターネットのブラウジング履歴分析」、「商品購入状況分析」、「立ち寄り店舗分析」、「ポイントカードの保有状況分析」、「公共交通機関の乗車履歴」、または「旅行時の訪問施設分析」等がある。
続いて、分析手法候補決定部4が分析対象データの分析手法候補を決定する(ステップS15)。ステップS15における詳細な処理内容は後述する。
最後に、ステップS15で作成した分析手法候補を出力部6に出力してユーザに推薦し(ステップS16)、処理を終了する。
図5は、図4のステップS15における、分析手法候補決定部4による分析手法候補の決定処理を示すフローチャートである。初めに、図4のステップS14にて読み込んだ分析事例に関して、分析対象データと分析済データとのデータ属性類似度を算出する(ステップS151)。「公共交通機関の乗車履歴」データを分析事例の分析済データの一例として、処理を具体的に説明する。ユーザが指定した分析対象データである「テレビの視聴データ」のデータ属性と、分析済データ「公共交通機関の乗車履歴」の分析に用いた「交通系ICカードの乗車履歴」データまたは「GPSデータから推定した公共交通機関の乗車経路」データ等のデータ属性とについて、データ属性類似度Szを算出する。データ属性類似度Szは、例えば以下の式により算出される。
Figure 0006472573
但し、Nはデータ属性として登録している項目数、Lmaxiはi番目のデータ属性項目の最大距離、Liはi番目のデータ属性項目の距離とする。例えば、データ属性項目ごとに距離評価軸を設定し、当該距離評価軸を用いてi番目のデータ属性項目の距離Liを算出する。
図6に、距離評価軸の設定例を示す。例えば、データ取得間隔については、分析対象データと分析済データのうち少なくとも一方のデータ取得間隔が不定期であれば、距離を10とする。また、分析済データのデータ取得間隔が分析対象データのデータ取得間隔よりも短ければ、距離を0とする。また、分析対象データおよび分析済データの一方の取得間隔が他方の取得間隔の100倍以上であれば距離を5とする。また、データ取得方法については、例えば、同一手法なら距離を0、一方がログで他方が端末入力なら距離を2、双方ともセンサログだがセンサ種別が異なっていれば距離を1とする。また、実績値と予測値の別については、例えば、双方とも実績値であれば距離を0、一方が実績値で他方が予測値であれば距離を20、双方とも予測値であれば距離を100とする。このように、距離評価軸は、データ属性項目ごとにルールベースで設定されてもよいし、数式で設定されても良い。また、ルール数に制限を設けなくてもよく、距離の最大値は評価軸ごとに設けてもよい。図6のように設定された距離評価軸の中で、距離が最大となるものを最大距離とする。なお、図6では距離は正の値のみのケースについて記載したが、負の値をとる距離があってもよく、1次元値を取らず2次元以上の値をとってもよい。
続いて、ステップS151でデータ属性類似度を算出した分析事例に対して、分析対象データとの分析目的類似度Spを算出する(ステップS152)。例えば、分析対象データの分析目的と分析済データの分析目的とを文字列で比較して、その類似度を分析目的類似度Spとして算出する。分析目的類似度Spは、例えばコサイン類似度またはレーベンシュタイン距離等を用いて求めることができる。例えば、分析対象データの分析目的の文字列Aと、分析済データの分析目的の文字列Bとの間の分析目的類似度Spをコサイン類似度で求めると、以下の式で算出される。
Figure 0006472573
但し、A・Bは文字列Aと文字列Bの内積、|A|は文字列Aの距離、|B|は文字列Bの距離とする。
分析対象データの分析目的の文字列Aを「視聴者の視聴嗜好の分析」、分析済データの分析目的の文字列Bを「人気のある映画ジャンル調査」として、これらの分析目的類似度Spの算出方法を説明する。文字列Aを単語レベルに分解してキーワードを抽出すると、「視聴、者、嗜好、分析」が得られ、同様に文字列Bからは「人気、映画、ジャンル、調査」が得られる。このとき、「嗜好=人気」や「分析=調査」のように、類似語を紐づけて、文字列Bのキーワードを「嗜好、映画、ジャンル、分析」としてもよい。類似語を定義した類似語データベースを分析対象データ格納部2または分析事例格納部3に設け、当該類似語データベースを参照して類似語の紐付けを行うことができる。
文字列A,Bをベクトル表示すると、A:(視聴、者、嗜好、分析、映画、ジャンル)=(2,1,1,1,0,0)、B:(視聴、者、嗜好、分析、映画、ジャンル)=(0,0,1,1,1,1)となる。
また、分析目的類似度Spは、以下のように算出される。
Figure 0006472573
その他の例として、分析目的がソースコードまたは中間コードで記載されている場合には、ソースコードまたは中間コードに示される処理手順をUML(Unified Modeling Language、統一モデリング言語)または関数フローチャート等の手法で整理し、処理手順の類似度から分析目的類似度Spを算出しても良い。以下、図15に示す関数フローチャートAと図16に示す関数フローチャートBを例に、分析目的類似度Spの算出方法を説明する。
関数フローチャートAは、ステップS21からステップS26が順番に実行されることを示している。ステップS21はXを入力するステップ、ステップS22はX/5をYに代入するステップ、ステップS23はYを出力するステップ、ステップS24はZを入力するステップ、ステップS25はY×ZをAに代入するステップ、ステップS26はYを出力するステップである。
関数フローチャートBはステップS31からステップS33が順番に実行されることを示している。ステップS31はXを入力するステップ、ステップS32はXに関するサブルーチンのステップであり、ステップS33はYを出力するステップである。Xに関するサブルーチンのステップS32は、X/5をYに代入するステップS34である。
これら二つの関数フローチャートA,Bのそれぞれにおいて、処理手順の一致率を全処理手順数に対する一致処理手順数で定義したとする。入出力処理と演算処理のみを処理手順のカウント対象とした場合、一致率は以下のように算出される。
Figure 0006472573
この一致率に一致処理手順の連続数の大きさを加味すると、分析目的類似度Spは例えば以下のような式で表すことができる。
Figure 0006472573
また、分析目的が上位概念、中位概念、および下位概念からなる階層構造で記載されている場合には、上位概念、中位概念、および下位概念それぞれの分析目的類似度を(6)式で算出し、その平均をとってもよい。あるいは、上位概念、中位概念、および下位概念の選択肢のそれぞれにあらかじめ手法の類似度を考慮したID番号を付与しておき、ID番号を組み合わせた数字の差分量に基づいて分析目的類似度Spを求めてもよい。
例えば、ID番号の最大値を「9−9−99」とすると、上位概念−中位概念−下位概念のID番号が「1−0−01」で表される分析目的と、上位概念−中位概念−下位概念のID番号が「1−0−02」で表される分析目的との分析目的類似度Spは、以下のように算出することができる。
Figure 0006472573
また、上位概念−中位概念−下位概念のID番号が、「1−0−01」で表されている分析目的に対して、上位概念−中位概念−下位概念のID番号が「5−0−01」で表されている分析目的との分析目的類似度Spは、以下のように算出することができる。
Figure 0006472573
上記で説明した分析目的類似度Spの算出式は、あくまでも一例である。よって、特定の条件に重みづけを行ったり、分析目的類似度の算出方法の違いによる演算結果の平均値に偏りがある場合等に傾斜等の補正演算を行ったり、といった変形例が可能である。
また、分析目的の記述方法が異なる事例が混在している場合には、複数の事例を代表する事例を抽出し、代表事例についてのみすべての分析目的記述方法における分析目的を付与することで、間接的に分析目的の比較ができるようにしてもよい。
続いて、データ属性類似度Szと分析目的類似度Spに基づいて、分析対象データと分析済データとの総合類似度Sを算出する(ステップS153)。総合類似度Sは、例えば以下の式により算出される。
Figure 0006472573
続いて、総合類似度を算出していない他の分析済データが存在するか否かを確認する(ステップS154)。総合類似度を算出していない分析済データが存在すれば、ステップS151に戻り、当該分析済データに対してステップS151からステップS153までの処理を実行する。全ての分析済データに対して類似度の算出が終了すれば、ステップS155に進む。
ステップS155では、図4のステップS14で読み込んだ全ての分析事例の総合類似度から、分析手法ごとに平均類似度を算出する。例えば、図4のステップS14で読み込んだ分析事例では、「回帰分析」、「k−means法」、「行動モデルベース推論」「行動モデルベース推論及び待ち行列シミュレーション」、「ニューラルネットワーク」等の分析手法が用いられていたとする。このとき、「回帰分析」に対する平均類似度Savは、例えば以下の式により算出される。
Figure 0006472573
但し、Nは、データ分析手法として「回帰分析」を含む事例数を示し、ΣSは、データ分析手法として「回帰分析」を含む事例の総合類似度の和を示している。上記の例では相加平均を用いたが、相乗平均、調和平均、加重平均など、他の様々な平均を用いて平均類似度を算出しても良い。
1つの事例の中で複数の分析手法が用いられている場合は、複数の分析手法の組み合わせを保持したまま平均類似度を算出してもよい。あるいは、単一手法としての平均類似度を算出した後、平均類似度の高い手法についてのみ、組み合わせて使用されているデータ分析手法に対して再度、平均類似度を算出してもよい。
最後に、分析対象データに対する分析手法候補を決定する(ステップS156)。ここでは、最も平均類似度の高い分析手法を分析手法候補としても良いし、平均類似度の高い順に複数の分析手法を分析手法候補としても良い。図4のステップS16で分析手法候補を出力する際、分析手法候補に加えて、その平均類似度、当該分析手法候補を含む分析事例数、または当該分析手法候補を用いている分析目的の出現頻度等を共に出力しても良い。
<A−3.効果>
実施の形態1に係るデータ分析手法候補決定装置11は、過去にデータ分析が行われた複数の分析済データの夫々について、データ属性および分析手法を紐付けたデータを分析事例として格納する分析事例格納部3と、分析対象データについて、データ属性の情報を格納する分析対象データ格納部2と、分析対象データのデータ属性と分析済データのデータ属性との類似度であるデータ属性類似度を算出し、データ属性類似度に基づき分析済データの分析手法の中から少なくとも一つの分析手法を分析対象データの分析手法候補として決定する分析手法候補決定部4と、を備える。従って、各分析手法のソースコードが無くても、データ属性が類似する分析事例を参考にして分析手法候補を決定することができる。
また、分析事例格納部3は、複数の分析済データの夫々について、分析目的の情報を格納し、分析対象データ格納部2は、分析対象データの分析目的の情報を格納し、分析手法候補決定部4は、分析対象データの分析目的と分析済データの分析目的との類似度を分析目的類似度として算出し、分析目的類似度及びデータ属性類似度に基づき分析対象データと分析済データの総合類似度を算出し、総合類似度に基づき、分析済データの分析手法の中から少なくとも一つの分析手法を分析対象データの分析手法候補として決定する。従って、各分析手法のソースコードが無くても、データ属性及び分析目的が類似する分析事例を参考にして分析手法候補を決定することができる。
また、分析済データ及び分析対象データのデータ属性は、データ取得間隔、データ取得方法、実績値か予測値か加工値の別、のいずれかを少なくとも含む。これらのデータ属性の類似度に基づき分析手法候補を決定することで、各分析手法のソースコードが無くても、分析手法候補を決定することができる。
また、分析手法候補決定部4は、分析対象データの分析目的の文字列と、分析済データの分析目的の文字列とに基づき、分析目的類似度を算出する。文字列同士を比較して分析目的類似度を算出し、当該分析目的類似度に基づき分析手法候補を決定することにより、各分析手法のソースコードが無くても、分析手法候補を決定することができる。
また、分析手法候補決定部4は、階層構造で記載された分析対象データの分析目的と、階層構造で記載された分析済データの分析目的とに基づき、分析目的類似度を算出する。階層ごとにあらかじめ設定された分析目的同士の類似性を比較して分析目的類似度を算出し、当該分析目的類似度に基づき分析手法候補を決定することにより、各分析手法のソースコードが無くても、分析手法候補を決定することができる。
また、分析対象データの分析目的および分析済みデータの分析目的がソースコード又は中間コードで記載される場合、分析手法候補決定部4は、分析対象データの分析目的のソースコード又は中間コードに示される処理手順と、分析済みデータの分析目的のソースコード又は中間コードに示される処理手順との類似度を、一致率又は一致する処理手順の連続性に基づき、分析目的類似度として算出する。処理手順の一致率又は一致する処理手順の連続性等に基づき分析目的類似度を算出し、当該分析目的類似度に基づき分析手法候補を決定することにより、分析目的がソースコード又は中間コードで記載されている場合にも、分析手法候補を決定することができる。
また、分析手法候補決定部4は、分析手法ごとに、当該分析手法を用いた分析済データと分析対象データとの総合類似度の平均値を算出し、総合類似度の平均値に基づき選択した分析手法を分析手法候補と決定する。従って、各分析手法のソースコードが無くても、分析手法候補を決定することができる。
<B.実施の形態2>
<B−1.構成>
図7は、実施の形態2に係るデータ分析手法候補決定装置12の構成を示すブロック図である。データ分析手法候補決定装置12は、実施の形態1に係るデータ分析手法候補決定装置11の構成に加えて、新たに評価取得部7と、推薦事例格納部8とを備えている。
推薦事例格納部8は、HDD(Hard Disk Drive)又はSD等といった記録媒体により構成され、推薦事例データを格納する。推薦事例データとは、過去に分析手法候補決定部4で決定した分析手法候補が、分析対象データおよび分析目的に紐付けられたデータである。
評価取得部7は、ユーザが入力部5を介して入力した分析手法候補に対する評価情報を取得し、当該評価情報を、推薦事例格納部8に格納された対応する推薦事例に追加する。すなわち、推薦事例格納部8では、分析対象データ、分析目的、および分析手法候補からなる推薦事例と、当該推薦事例に対する評価情報とが紐付けて格納されている。評価取得部7は、図3に示すプロセッサ20がメモリ21に格納されたソフトウェアプログラムを実行することにより、プロセッサ20の機能として実現する。
<B−2.動作>
図8は、データ分析手法候補決定装置12の動作を示すフローチャートである。ステップS11〜S16までは実施の形態1と同様であり、図4で既に説明しているため、ここでは説明を省略する。分析手法候補決定部4は、分析手法候補を決定し(ステップS15)、当該分析手法候補を出力部6に出力すると(ステップS16)、分析対象データ、分析目的、および分析手法候補を紐付けたデータ(推薦事例)を推薦事例格納部8に格納する(ステップS17)。
図9は、評価取得部7の動作を示すフローチャートである。このフローは、推薦事例格納部8に推薦事例が格納されている場合にのみ行われる。まず、評価取得部7は、評価情報を付加すべき推薦事例を決定する(ステップS71)。例えば、推薦事例格納部8に格納された全推薦事例をリスト表示した画面を表示し、当該画面からユーザに推薦事例を選択させても良い。また、ユーザに分析対象データまたは分析目的等の条件を入力させ、入力された条件から推奨事例を特定又は絞り込んでも良い。また、まだ評価情報が付加されていない推薦事例を推薦事例格納部8から抽出してユーザに提示し、ユーザに選択させても良い。
次に、ステップS71で決定した推薦事例で推薦された複数の分析手法候補のうち、実際にユーザが使用した分析手法候補を特定する(ステップS72)。ユーザが複数の分析手法候補を使用した場合には、複数の分析手法候補が特定される。ここでは、例えば複数の分析手法候補のリスト画面を表示し、当該リスト画面から実際にユーザが使用した分析手法候補を選択させる。
次に、ステップS72で特定した分析手法候補について、ユーザの評価情報を取得する(ステップS73)。ユーザの評価情報は、入力部5からユーザに入力させることによって取得する。評価情報は、例えば分析精度、ユーザの個人所感、実行時間等の補足情報を含む。また、複数の分析手法候補のリスト画面からユーザに最も望ましい結果が得られた分析手法候補を選択させても良い。あるいは、最も望ましい一つを選択する代わりに、望ましい結果が得られた順に分析手法候補に順位を入力させても良い。
また、上記のような良い評価に関する情報以外に、悪い評価に関する情報を取得しても良い。例えば、ユーザが使用したものの、何らかの課題がある等の理由で結果的に採用しなかった分析手法候補があれば、当該分析手法候補に関する課題を入力させても良い。また、課題については実際にユーザが使用していない分析手法候補についても入力可能とする。また、課題等の補足情報は、予め用意した選択肢の中から回答を選択させても良いし、自由に入力させても良い。
評価取得部7は、こうして取得した評価情報を推薦事例に付与して、推薦事例格納部8に格納する(ステップS74)。
さらに、評価取得部7は、評価情報が付与された推薦事例のうち、望ましい評価情報が付与された分析手法候補に関する推薦事例を、新たな分析事例として分析事例格納部3に追加する(ステップS75)。例えば、分析対象データ「テレビの視聴データ」、分析目的「視聴者の視聴嗜好の分析」に対する分析手法候補「回帰分析」、「k−means法」のうち、「回帰分析」に対して望ましい評価情報を取得し、「k−means法」について望ましくない評価情報を取得した場合には、分析対象データ「テレビの視聴データ」、分析目的「視聴者の視聴嗜好の分析」、分析手法「回帰分析」を新たな分析事例として分析事例格納部3に追加する。複数の分析手法について望ましい評価情報を得た場合には、望ましい評価情報を得た全ての分析手法について、上記のとおり分析事例格納部3に追加する。このようにして、望ましい評価情報を得た分析事例が追加され、それを用いて分析手法候補の決定を行うことにより、分析手法候補の決定精度が向上する。
<B−3.変形例>
図10は、実施の形態2の変形例に係るデータ分析手法候補決定装置13の構成を示すブロック図である。データ分析手法候補決定装置13は、データ分析手法候補決定装置12の構成に加えて、属性追加部9を備える。属性追加部9以外のデータ分析手法候補決定装置13の構成は、データ分析手法候補決定装置12と同様である。
属性追加部9は、評価取得部7で取得した分析手法候補の不採用理由を分析し、不採用理由に対応するデータ属性を、分析対象データ格納部2にデータ属性が格納されている全ての分析対象データの新たなデータ属性項目として追加する。このとき属性追加部9は、追加されたデータ属性項目を、出力部6を通してシステム管理者等のユーザに通知し、追加されたデータ属性項目に関するデータ属性を入力するように促しても良い。また、追加されたデータ属性項目についてデータ属性類似度を算出するための距離評価軸もデータ属性と同様、ユーザに入力するように促しても良い。ユーザは、入力部5を通して、これらのデータ属性又は距離評価軸をデータ分析手法候補決定装置13に入力することができる。属性追加部9は、図6に示すプロセッサ20がメモリ21に格納されたソフトウェアプログラムを実行することにより、プロセッサ20の機能として実現する。
図11は、データ分析手法候補決定装置13における属性追加部9の動作を示すフローチャートである。このフローは、推薦事例格納部8において、分析手法候補の不採用理由が格納されている場合に実行される。
まず、推薦事例格納部8から評価情報が付与された推薦事例を抽出する(ステップS81)。
次に、ステップS81で抽出した推薦事例の不採用となった分析手法候補について、その不採用理由を抽出する(ステップS82)。
続いて、ステップS82で抽出した不採用理由を分析する(ステップS83)。分析手法としては、キーワード抽出による頻度解析または単純統計等を用いることができる。
最後に、分析した不採用理由に対応するデータ属性項目を、分析対象データ格納部2に格納される分析対象データのデータ属性の項目として追加する(ステップS84)。例えば、ステップS83で不採用理由を分析した結果、「実行時間が長い」、「処理が重い」といったキーワードが不採用理由として多いことが分かれば、「計算量」、「単位量当たりの実行時間」等の計算負荷に関する項目をデータ属性に追加する。
このように、データ分析手法候補決定装置13によれば、分析手法候補の不採用理由に対応したデータ属性を追加することによって、分析手法候補決定部4における分析手法候補の決定にあたり、より細かくデータ属性類似度の判断をすることが出来るようになる。従って、分析手法候補の決定精度を向上させることが出来る。
<B−4.効果>
実施の形態2に係るデータ分析手法候補決定装置12は、実施の形態1に係るデータ分析手法候補決定装置11の構成に加えて、分析手法候補に対するユーザの評価情報を取得する評価取得部7と、分析対象データのデータ属性と、分析対象データの分析手法候補と、分析手法候補に対する評価情報とを紐付けたデータを推薦事例として格納する推薦事例格納部8と、を備える。このように、分析手法候補の決定結果を推薦事例として格納すれば、例えば望ましい評価情報を得た推薦事例を分析事例として用いることにより、分析手法候補の決定精度が向上させることが出来る。
また、実施の形態2の変形例に係るデータ分析手法候補決定装置13は、実施の形態2に係るデータ分析手法候補決定装置12の構成に加えて、評価取得部7が取得した評価情報から分析手法候補の不採用理由を抽出し、不採用理由に対応する項目をデータ属性の項目に追加する属性追加部9を備える。従って、分析手法候補決定部4における分析手法候補の決定にあたり、より細かくデータ属性類似度の判断をすることが出来るようになるため、分析手法候補の決定精度を向上させることが出来る。
<C.実施の形態3>
<C−1.構成>
図12は、実施の形態3に係るデータ分析手法候補決定装置14の構成を示すブロック図である。データ分析手法候補決定装置14は、実施の形態1に係るデータ分析手法候補決定装置11の構成に加えて、モデル変更提案部10を備えている。
モデル変更提案部10は、分析手法候補決定部4で決定した分析手法候補が物理モデルベース解析手法を含む場合に、物理モデルの修正や追加といった物理モデルの変更を提案する。ここで、物理モデルベース解析手法とは、機器モデル、故障モデル、挙動モデル、相関モデル、またはユーザモデル等、データまたは設計情報に基づく物理モデルを活用したデータ分析手法全般を示している。物理モデルはパラメータシートのような文書形式で記載されてもよく、FTA(Fault Tree Analysis)図、故障木、または電気回路図等の図表形式で記載されてもよいし、運動方程式またはバスタブ曲線等の数式で記載されてもよいし、アセンブラまたはソースコードのような機械言語で記載されてもよい。モデル変更提案部10は、図3に示すプロセッサ20がメモリ21に格納されたソフトウェアプログラムを実行することにより、プロセッサ20の機能として実現する。
分析事例格納部3には、分析対象データと、当該分析対象データの分析目的およびデータ属性と、分析手法とが、分析事例として格納されている。さらに、分析手法が物理モデルベース解析手法である場合には、物理モデルの変更情報も分析事例として格納されている。具体的には、ユーザがある物理モデルに変更(追加、修正)を加えた上で、変更後の物理モデルを用いてデータ分析を行った場合に、実際にデータ分析に用いた変更後の物理モデルだけでなく、変更前の物理モデルも変更情報として分析事例格納部3に格納される。
以上に説明した以外のデータ分析手法候補決定装置14の構成は、実施の形態1に係るデータ分析手法候補決定装置11の構成と同様である。
<C−2.動作>
図13は、データ分析手法候補決定装置14の動作を示すフローチャートである。ステップS11〜15、S16は実施の形態1と同様であるが、ステップS15とステップS16の間に新たなステップS18が追加される点が実施の形態1とは異なる。分析手法候補決定部4で分析対象データの分析手法候補が決定されると(ステップS15)、当該分析手法候補が物理モデルベース解析手法を含む場合、モデル変更提案部10が物理モデルの変更を提案する(ステップS18)。
図14は、図13のステップS18におけるモデル変更提案部10の動作を示すフローチャートである。このフローは、分析事例格納部3に物理モデルの変更情報が格納されている場合にのみ実行される。
まず、図13のステップS15で分析手法候補決定部4が決定した分析手法候補に、物理モデルベース解析手法が含まれているかを判定する(ステップS181)。物理モデルベース解析手法が含まれていなければ、モデル変更提案部10の処理を終了する。物理モデルベース解析手法が含まれていれば、ステップS182に移行する。
ステップS182では、分析事例格納部3に格納された分析事例の中から、分析手法候補に含まれる物理モデルデータベース解析手法と同一の分析手法を用い、かつ物理モデルの変更情報が記載された分析事例を抽出する。
次に、変更情報で示された変更後の物理モデルデータが分析事例格納部3に格納されているか否かを判断する(ステップS183)。そして、変更後の物理モデルデータが分析事例格納部3に存在すれば、当該変更後の物理モデルの活用をユーザに提案する(ステップS184)。例えば、過去にユーザが分析対象データ「公共交通機関の乗車履歴」を分析する際に、乗客モデルAを物理モデルとして使用する分析手法が分析手法候補として推薦されたとする。これに対して、ユーザが乗客モデルAに何らかの修正を加えたり新たな乗客モデルを追加したりする等の変更を加えた乗客モデルBによってデータ分析を行った場合、分析事例格納部3には、分析対象データ、分析目的、実際に使用した分析手法(乗客モデルB)に加えて、変更前の乗客モデルAが記録される。その後、別のデータ分析において、分析手法候補決定部4が乗客モデルAを物理モデルとして使用する分析手法を分析手法候補として決定した場合には、乗客モデルAに代えて乗客モデルBを使用するようユーザに提案する。
ステップS183で、変更後の物理モデルデータが分析事例格納部3に存在しなければ、物理モデルの変更(修正または追加)を行うための手法をユーザに提案する。例えば、「商品購入状況分析」という分析目的に対して、購入客モデルを物理モデルとして使用する分析手法が分析手法候補である場合には、購入客モデルを分析したい商品ジャンルに適した区分に修正したり、「子供に代わって親が買う」という購入客モデルを追加したりするための手法を提案する。
<C−3.効果>
実施の形態3に係るデータ分析手法候補決定装置14において、分析事例格納部3に格納される分析事例データは、ユーザがある物理モデルに変更を加えた物理モデルを用いてデータ解析を行った分析事例について、変更前の物理モデルの情報を含む。そして、データ分析手法候補決定装置14は、実施の形態1に係るデータ分析手法候補決定装置11の構成に加えて、モデル変更提案部10を備える。モデル変更提案部10は、分析手法候補が物理モデルを用いる解析手法であり、分析手法候補で用いる物理モデルが、分析事例における変更前の物理モデルと同一である場合に、物理モデルの変更を提案する。従って、物理モデルベース解析手法に関する分析精度を向上させることが可能となる。
<D.実施の形態4>
<D−1.構成>
図17は、実施の形態4に係るデータ分析手法候補決定装置15の構成を示すブロック図である。データ分析手法候補決定装置15は、実施の形態1に係るデータ分析手法候補決定装置11の構成に加えて、既存データ活用提案部101を備えている。
既存データ活用提案部101は、分析手法候補決定部4が決定した分析手法の実行に必要なデータ属性を、ユーザが選定している分析対象データ(第1分析対象データ)が持たない場合に、分析対象データ格納部2に保存された過去の分析対象データの中から、必要なデータ属性を有する分析対象データ(第2分析対象データ)を抽出し、第2分析対象データの活用をユーザに提案する。既存データ活用提案部101は、図3に示すプロセッサ20がメモリ21に格納されたソフトウェアプログラムを実行することにより、プロセッサ20の機能として実現する。
分析事例格納部3には、ユーザが当初選定していた分析対象データと、当該分析対象データの分析目的及びデータ属性と、分析手法とが、分析事例として格納されている。また、分析事例格納部3には、既存データ活用提案部101により提案されたことによってユーザが追加選定した分析対象データも分析事例として格納されている。分析対象データは、選定タイミング別にフラグを付けて分析事例格納部3に保存されても良い。
以上に説明した以外のデータ分析手法候補決定装置15の構成は、実施の形態1に係るデータ分析手法候補決定装置11の構成と同様である。
<D−2.動作>
図18は、データ分析手法候補決定装置15の動作を示すフローチャートである。図18のフローチャートにおいてステップS11〜15、S16は実施の形態1と同様であるが、ステップS15とステップS16の間に新たなステップS19が追加される点が実施の形態1とは異なる。分析手法候補決定部4で分析対象データの分析手法候補が決定されると(ステップS15)、ステップS13で取得した分析対象データのデータ属性が当該分析手法候補を実行するために必要なデータ属性として不足する場合に、既存データ活用提案部101が分析対象データの追加を提案する(ステップS19)。
図19は、図18のステップS19における既存データ活用提案部101の動作を示すフローチャートである。
まず、既存データ活用提案部101は、図18のステップS11で選択された分析対象データ(第1の分析対象データ)が、ステップS15で決定された分析手法候補を実行するために必要なデータ属性を有しているか否かを判断する(ステップS191)。ここで、分析対象データが必要なデータ属性を有していない場合として、以下の3つの場合が例示される。1つ目は、分析対象データそのものが欠落している場合である。2つ目は、必要なデータ属性として規定されたデータの取得間隔に対して分析対象データの取得間隔が粗く、十分な分析結果が得られない場合である。3つ目は、必要なデータ属性として規定されたデータの取得方法に分析対象データの取得方法が適合せず、十分な分析結果が得られない場合である。例えば、センサ等で直接計測したデータであることが要求されているにも関わらず、分析対象データが加工値である場合等が3つ目のケースに該当する。
分析対象データ(第1の分析対象データ)が、分析手法候補を実行するために必要なデータ属性を有している場合、既存データ活用提案部101は処理を終了する。一方、分析対象データ(第1の分析対象データ)が、分析手法候補を実行するために必要なデータ属性を有していない場合、既存データ活用提案部101はステップS192の処理に移行する。
ステップS192で既存データ活用提案部101は、分析事例格納部3に格納された分析事例の中から、分析手法候補と同一もしくは分析手法候補を含む分析手法を用い、かつ分析目的が同一もしくは類似した分析事例を抽出する。
次に、既存データ活用提案部101は、抽出された分析事例における分析済みデータのデータ属性と、ユーザが現在選定している分析対象データのデータ属性とを比較し、分析済みデータのデータ属性から分析手法候補の実行に必要なデータ属性を抽出する(ステップS193)。この際、データ属性としてデータに対するアクセス権限が設定されておりユーザがアクセス権限を保有していないデータ、またはデータ属性としてデータの活用条件が設定されておりデータ出典元との契約によりデータの流用に制限があるデータ等のデータ属性は、抽出から除外してもよい。また、この場合、アクセス権限またはデータの流用に関する制限情報を付与してデータ属性のみ提示してもよい。
そして、既存データ活用提案部101は、ステップS193で抽出されたデータ属性を保有する分析対象データが分析対象データ格納部2に存在すれば、当該抽出されたデータ属性を保有する分析対象データ(第2の分析対象データ)の活用、すなわち第2の分析対象データを現在選択中の分析対象データ(第1の分析対象データ)に追加して分析を行うようユーザに提案する(ステップS194)。例えば、ユーザが分析対象データ「A県B市C町D丁目に存在する一般家庭の消費電力量」を分析対象データ「分析対象期間の平日/休日区分」を追加して分析する際に、分析手法候補として「k−means法」が提示され、ユーザが当該分析手法候補を用いることを決定したとする。この際に、分析事例格納部3に、別のユーザが「k−means法」を用いて、分析対象データ「ビルの消費電力量」を分析対象データ「分析対象期間の平日/休日区分」と「分析対象期間の気象観測データ」と「分析対象期間の従業員のビル内入退出履歴」を追加して分析した事例が存在したとする。ただし、分析対象データ「分析対象期間の従業員のビル内入退出履歴」にはデータ属性としてデータの二次利用が不可であることが示されているものとする。その場合、ステップS194で既存データ活用提案部101は、分析対象データ「分析対象期間の気象観測データ」を追加利用するようユーザに提案してもよい。このとき、既存データ活用提案部101は、分析対象データ「分析対象期間の気象観測データ」と分析対象データ「分析対象期間の従業員のビル内入退出履歴」の追加利用が望ましいが、分析対象データ「分析対象期間の従業員のビル内入退出履歴」のデータ属性としてデータの二次利用が不可であることが示されていることを、ユーザに提示してもよい。
なお、上記では、分析対象データが分析手法候補を適用するために必要なデータ属性を有していない場合として3つの場合を例示し、このような場合に分析対象データの追加を提案することについて説明した。しかし、分析対象データが分析手法候補を適用するために必要なデータ属性を有している場合であっても、以下のような場合には分析対象データの追加を提案しても良い。1つ目は、必要なデータ属性は有しているものの、最良の結果が得られない条件の分析対象データが選択されている場合である。2つ目は、現在選択されている分析対象データでも分析は可能だが、新たな分析対象データを追加することで、さらに正確な分析結果が得られる場合である。
<D−3.効果>
実施の形態4に係るデータ分析手法候補決定装置15は、第1の分析対象データに対して分析手法候補決定部4が決定した分析手法に必要なデータ属性を、第1の分析対象データが持たない場合に、必要なデータ属性を有する第2の分析対象データの活用を提案する既存データ活用提案部101を備える。このように、分析手法候補の実施に必要なデータ属性を有する別の分析対象データの追加を提案することで、分析手法候補を実行した場合の分析精度を向上させることが可能となる。
また、第2の分析対象データはデータの流用可否に関するデータ属性を有し、既存データ活用提案部101は、第2の分析対象データの活用をユーザに提案する際に、分析済データの流用可否に関する情報をユーザに提供する。従って、ユーザは既存データ活用提案部101に提案された第2の分析対象データが流用不可のデータである場合には、流用可能な代替データの入手を検討することができ、代替データを追加することにより、分析手法候補を実行した場合の分析精度を向上させることが可能となる。
<E.実施の形態5>
<E−1.構成>
図20は、実施の形態5に係るデータ分析手法候補決定装置16の構成を示すブロック図である。データ分析手法候補決定装置16は、実施の形態1に係るデータ分析手法候補決定装置11の構成に加えて、分析手法見直し提案部102を備えている。
分析手法見直し提案部102は、分析事例格納部3に格納されている分析事例について、分析目的が同一もしくは類似した事例が追加された際に、分析手法毎の採用率を演算し、事前に設定した分析手法見直し条件を満たす採用率の分析手法が検出された場合に、ユーザに対して分析手法の変更を提案する。分析手法見直し提案部102は、図3に示すプロセッサ20がメモリ21に格納されたソフトウェアプログラムを実行することにより、プロセッサ20の機能として実現する。
分析事例格納部3には、分析事例と共に、分析事例を登録または更新したユーザの情報、分析事例の問い合わせ担当者の情報、分析手法の開発者または提供者の情報、分析事例の現在の活用状況等が格納されることが望ましい。分析事例の現在の活用状況には、製品適用済、試行中、または中止等の使用状況のほか、外部事例等が含まれていてもよい。
以上に説明した以外のデータ分析手法候補決定装置16の構成は、実施の形態1に係るデータ分析手法候補決定装置11の構成と同様である。
<E−2.動作>
図21は、データ分析手法候補決定装置16の動作を示すフローチャートである。ステップS11〜16は実施の形態1と同様であるが、ステップS16の後に新たなステップS20が追加される点が実施の形態1とは異なる。分析手法候補決定部4で分析対象データの分析手法候補が決定され(ステップS15)、ユーザに分析手法候補を提示すると(ステップS16)、分析目的と分析手法毎の平均類似度を分析手法見直し提案部102に通知し、分析手法見直し提案部102が分析事例格納部3に格納された過去の分析事例に対して、分析手法の見直し提案要否を判定する(ステップS20)。
図22は、図20のステップS20における分析手法見直し提案部102の動作を示すフローチャートである。
まず、分析手法見直し提案部102は、分析目的と、図21のステップS15で分析手法候補決定部4が算出した分析手法毎の平均類似度を受信する(ステップS201)。続いて、分析手法が見直し基準に達しているか否かを判定する(ステップS202)。見直し基準は、例えば平均類似度が閾値を超えているまたは閾値以下となっていることである。また、分析手法見直し提案部102が分析手法毎の平均類似度の受信履歴を一定期間分もしくは一定受信件数分等保持しておき、分析手法毎の受信率が閾値を超えている場合、あるいは受信日時と平均類似度との相関が一定期間以上増加傾向または減少傾向を示している場合などに、見直し基準に達していると判断しても良い。分析手法が見直し基準に達していなければ、分析手法見直し提案部102は処理を終了する。一方、分析手法が見直し基準に達していれば、分析手法見直し提案部102はステップS203の処理に移行する。
ステップS203において分析手法見直し提案部102は、ステップS201で受信した分析目的と同一もしくは類似する過去の分析事例を、分析事例格納部3から抽出する。この時に、登録日時または更新日時の新しい事例からN件(例えば、N=1000)を抽出するというように、抽出件数を限定しても良い。また、登録日時または更新日時が直近のN年(例えば、N=5)の分析事例のみを抽出するというように、抽出期間を限定してもよい。
次に、抽出された分析事例で用いられている分析手法の採用率を算出する(ステップS204)。採用率Pは、例えばP=Nx/Nにより算出することができる。ただし、N:抽出件数、N:手法Xの採用数とする。このとき、分析事例格納部に分析事例の現在の活用状況が格納されている場合には、活用状況に応じて分析事例に重み付けを行っても良い。すなわち、製品適用済みの分析事例については重みを大きくし、製品化中止となった分析事例等については重みを小さくする。あるいは、分析事例の登録日時もしくは更新日時に応じて重みづけを行ってもよい。すなわち、登録日時もしくは更新日時が新しい分析事例ほど重みを大きくし、登録日時もしくは更新日時が古い分析事例ほど重みを小さくする。
次に、分析手法見直し提案部102は、採用率が分析手法見直し条件に該当する分析手法があれば、分析事例の見直しを提案する(ステップS205)。例えば、クラスタリング手法の中で、K−means法の採用率が閾値を超えた場合には、K−means法を使用していない分析事例の登録・更新ユーザ、担当者、分析手法の開発者もしくは提供者等(以下、単に「ユーザ等」と称する)に、分析手法をK−means法に見直すことを提案する。あるいは、クラスタリング手法の中で、K−means法の採用率が基準値を下回ると、K−means法を使用している分析事例のユーザ等に、分析手法をK−means法とは異なる手法に見直すことを提案する。この場合、ユーザ等に分析手法を採用率の高いものから順に、採用率と共に示したリストを提示しても良い。
<E−3.効果>
実施の形態5に係るデータ分析手法候補決定装置16において、分析手法候補決定部4により分析手法が決定された分析対象データと分析目的が同一または類似する分析事例について、分析手法の見直しを提案する分析手法見直し提案部102を備える。このように、過去の分析事例における分析手法毎の採用率を算出し、採用率に基づいて分析手法の見直しを提案することで、過去の分析事例に対しても新しい分析手法候補等の提案を実施することができ、分析手法を実行した場合の分析精度を向上させることが可能となる。
なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。
この発明は詳細に説明されたが、上記した説明は、すべての態様において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。
2 分析対象データ格納部、3 分析事例格納部、4 分析手法候補決定部、5 入力部、6 出力部、7 評価取得部、8 推薦事例格納部、9 属性追加部、10 モデル変更提案部、11,12,13,14,15,16 データ分析手法候補決定装置、20 プロセッサ、21 メモリ、22 記録媒体、101 既存データ活用提案部、102 分析手法見直し提案部。

Claims (9)

  1. データ分析を行うべき分析対象データの分析手法候補を決定するデータ分析手法候補決定装置であって、
    過去にデータ分析が行われた複数の分析済データの夫々について、データ属性および分析手法を紐付けたデータを分析事例として格納する分析事例格納部と
    前記分析対象データについて、データ属性の情報を格納する分析対象データ格納部と
    前記分析対象データのデータ属性と前記分析済データのデータ属性との類似度であるデータ属性類似度を算出し、前記データ属性類似度に基づき前記分析済データの分析手法の中から少なくとも一つの分析手法を前記分析対象データの分析手法候補として決定する分析手法候補決定部と、を備え、
    前記分析済データ及び前記分析対象データのデータ属性は、データ取得間隔、データ取得方法、実績値か予測値か加工値の別、のいずれかを少なくとも含む、
    データ分析手法候補決定装置。
  2. データ分析を行うべき分析対象データの分析手法候補を決定するデータ分析手法候補決定装置であって、
    過去にデータ分析が行われた複数の分析済データの夫々について、データ属性および分析手法を紐付けたデータを分析事例として格納する分析事例格納部と、
    前記分析対象データについて、データ属性の情報を格納する分析対象データ格納部と、
    前記分析対象データのデータ属性と前記分析済データのデータ属性との類似度であるデータ属性類似度を算出し、前記データ属性類似度に基づき前記分析済データの分析手法の中から少なくとも一つの分析手法を前記分析対象データの分析手法候補として決定する分析手法候補決定部と、を備え、
    前記分析済データ及び前記分析対象データのデータ属性は、データ取得間隔、データ取得方法、実績値か予測値か加工値の別、関連データ、関連機器のいずれかを少なくとも含む、
    データ分析手法候補決定装置。
  3. 前記分析事例格納部は、前記複数の分析済データの夫々について、分析目的の情報を格納し、
    前記分析対象データ格納部は、前記分析対象データの分析目的の情報を格納し、
    前記分析手法候補決定部は、前記分析対象データの分析目的と前記分析済データの分析目的との類似度を分析目的類似度として算出し、前記分析目的類似度及び前記データ属性類似度に基づき前記分析対象データと前記分析済データの総合類似度を算出し、前記総合類似度に基づき、前記分析済データの分析手法の中から少なくとも一つの分析手法を前記分析対象データの分析手法候補として決定する、
    請求項1または2に記載のデータ分析手法候補決定装置。
  4. データ分析を行うべき分析対象データの分析手法候補を決定するデータ分析手法候補決定装置であって、
    過去にデータ分析が行われた複数の分析済データの夫々について、データ属性および分析手法を紐付けたデータを分析事例として格納する分析事例格納部と、
    前記分析対象データについて、データ属性の情報を格納する分析対象データ格納部と、
    前記分析対象データのデータ属性と前記分析済データのデータ属性との類似度であるデータ属性類似度を算出し、前記データ属性類似度に基づき前記分析済データの分析手法の中から少なくとも一つの分析手法を前記分析対象データの分析手法候補として決定する分析手法候補決定部と、を備え、
    前記分析事例格納部は、前記複数の分析済データの夫々について、分析目的の情報を格納し、
    前記分析対象データ格納部は、前記分析対象データの分析目的の情報を格納し、
    前記分析手法候補決定部は、前記分析対象データの分析目的と前記分析済データの分析目的との類似度を分析目的類似度として算出し、前記分析目的類似度及び前記データ属性類似度に基づき前記分析対象データと前記分析済データの総合類似度を算出し、前記総合類似度に基づき、前記分析済データの分析手法の中から少なくとも一つの分析手法を前記分析対象データの分析手法候補として決定し、
    前記分析手法候補決定部は、階層構造で記載された分析対象データの分析目的と、階層構造で記載された分析済データの分析目的とに基づき、分析目的類似度を算出する、
    ータ分析手法候補決定装置。
  5. データ分析を行うべき分析対象データの分析手法候補を決定するデータ分析手法候補決定装置であって、
    過去にデータ分析が行われた複数の分析済データの夫々について、データ属性および分析手法を紐付けたデータを分析事例として格納する分析事例格納部と、
    前記分析対象データについて、データ属性の情報を格納する分析対象データ格納部と、
    前記分析対象データのデータ属性と前記分析済データのデータ属性との類似度であるデータ属性類似度を算出し、前記データ属性類似度に基づき前記分析済データの分析手法の中から少なくとも一つの分析手法を前記分析対象データの分析手法候補として決定する分析手法候補決定部と、を備え、
    前記分析事例格納部は、前記複数の分析済データの夫々について、分析目的の情報を格納し、
    前記分析対象データ格納部は、前記分析対象データの分析目的の情報を格納し、
    前記分析手法候補決定部は、前記分析対象データの分析目的と前記分析済データの分析目的との類似度を分析目的類似度として算出し、前記分析目的類似度及び前記データ属性類似度に基づき前記分析対象データと前記分析済データの総合類似度を算出し、前記総合類似度に基づき、前記分析済データの分析手法の中から少なくとも一つの分析手法を前記分析対象データの分析手法候補として決定し、
    前記分析対象データの分析目的および前記分析済みデータの分析目的がソースコード又は中間コードで記載される場合、
    前記分析手法候補決定部は、前記分析対象データの分析目的の前記ソースコード又は前記中間コードに示される処理手順と、前記分析済みデータの分析目的の前記ソースコード又は前記中間コードに示される処理手順との類似度を、一致率又は一致する処理手順の連続性に基づき、前記分析目的類似度として算出する、
    ータ分析手法候補決定装置。
  6. データ分析を行うべき分析対象データの分析手法候補を決定するデータ分析手法候補決定装置であって、
    過去にデータ分析が行われた複数の分析済データの夫々について、データ属性および分析手法を紐付けたデータを分析事例として格納する分析事例格納部と、
    前記分析対象データについて、データ属性の情報を格納する分析対象データ格納部と、
    前記分析対象データのデータ属性と前記分析済データのデータ属性との類似度であるデータ属性類似度を算出し、前記データ属性類似度に基づき前記分析済データの分析手法の中から少なくとも一つの分析手法を前記分析対象データの分析手法候補として決定する分析手法候補決定部と、を備え、
    前記分析事例格納部は、前記複数の分析済データの夫々について、分析目的の情報を格納し、
    前記分析対象データ格納部は、前記分析対象データの分析目的の情報を格納し、
    前記分析手法候補決定部は、前記分析対象データの分析目的と前記分析済データの分析目的との類似度を分析目的類似度として算出し、前記分析目的類似度及び前記データ属性類似度に基づき前記分析対象データと前記分析済データの総合類似度を算出し、前記総合類似度に基づき、前記分析済データの分析手法の中から少なくとも一つの分析手法を前記分析対象データの分析手法候補として決定し、
    前記分析手法候補決定部は、分析手法ごとに、当該分析手法を用いた前記分析済データと前記分析対象データとの前記総合類似度の平均値を算出し、前記総合類似度の平均値に基づき選択した分析手法を前記分析手法候補と決定する、
    ータ分析手法候補決定装置。
  7. データ分析を行うべき分析対象データの分析手法候補を決定するデータ分析手法候補決定装置であって、
    過去にデータ分析が行われた複数の分析済データの夫々について、データ属性および分析手法を紐付けたデータを分析事例として格納する分析事例格納部と、
    前記分析対象データについて、データ属性の情報を格納する分析対象データ格納部と、
    前記分析対象データのデータ属性と前記分析済データのデータ属性との類似度であるデータ属性類似度を算出し、前記データ属性類似度に基づき前記分析済データの分析手法の中から少なくとも一つの分析手法を前記分析対象データの分析手法候補として決定する分析手法候補決定部と、
    前記分析手法候補に対するユーザの評価情報を取得する評価取得部と、
    前記分析対象データのデータ属性と、前記分析対象データの前記分析手法候補と、前記分析手法候補に対する前記評価情報とを紐付けたデータを推薦事例として格納する推薦事例格納部と、
    前記評価取得部が取得した前記評価情報から前記分析手法候補の不採用理由を抽出し、前記不採用理由に対応する項目を前記データ属性の項目に追加する属性追加部と、を備える、
    ータ分析手法候補決定装置。
  8. データ分析を行うべき分析対象データの分析手法候補を決定するデータ分析手法候補決定装置であって、
    過去にデータ分析が行われた複数の分析済データの夫々について、データ属性および分析手法を紐付けたデータを分析事例として格納する分析事例格納部と、
    前記分析対象データについて、データ属性の情報を格納する分析対象データ格納部と、
    前記分析対象データのデータ属性と前記分析済データのデータ属性との類似度であるデータ属性類似度を算出し、前記データ属性類似度に基づき前記分析済データの分析手法の中から少なくとも一つの分析手法を前記分析対象データの分析手法候補として決定する分析手法候補決定部と、を備え、
    前記分析事例格納部は、ユーザがある物理モデルに変更を加えた物理モデルを用いてデータ解析を行った分析事例について、変更前の物理モデルの情報を格納し、
    前記分析手法候補が物理モデルを用いる解析手法であり、前記分析手法候補で用いる物理モデルが、前記分析事例における変更前の物理モデルと同一である場合には、前記物理モデルの変更を提案するモデル変更提案部をさらに備える、
    ータ分析手法候補決定装置。
  9. データ分析を行うべき分析対象データの分析手法候補を決定するデータ分析手法候補決定装置であって、
    過去にデータ分析が行われた複数の分析済データの夫々について、データ属性および分析手法を紐付けたデータを分析事例として格納する分析事例格納部と、
    前記分析対象データについて、データ属性の情報を格納する分析対象データ格納部と、
    前記分析対象データのデータ属性と前記分析済データのデータ属性との類似度であるデータ属性類似度を算出し、前記データ属性類似度に基づき前記分析済データの分析手法の中から少なくとも一つの分析手法を前記分析対象データの分析手法候補として決定する分析手法候補決定部と、
    前記分析対象データのうち第1の分析対象データに対して前記分析手法候補決定部が決定した分析手法に対して必要なデータ属性を、前記第1の分析対象データが持たない場合に、前記分析対象データのうち前記必要なデータ属性を有する第2の分析対象データの活用をユーザに提案する既存データ活用提案部と、を備え、
    前記第2の分析対象データはデータの流用可否に関するデータ属性を有し、
    前記既存データ活用提案部は、前記第2の分析対象データの活用をユーザに提案する際に、前記第2の分析対象データの流用可否に関する情報をユーザに提供する、
    ータ分析手法候補決定装置。
JP2018508418A 2016-03-28 2017-01-17 データ分析手法候補決定装置 Active JP6472573B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016063215 2016-03-28
JP2016063215 2016-03-28
PCT/JP2017/001371 WO2017168967A1 (ja) 2016-03-28 2017-01-17 データ分析手法候補決定装置

Publications (2)

Publication Number Publication Date
JPWO2017168967A1 JPWO2017168967A1 (ja) 2018-07-19
JP6472573B2 true JP6472573B2 (ja) 2019-02-20

Family

ID=59964054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018508418A Active JP6472573B2 (ja) 2016-03-28 2017-01-17 データ分析手法候補決定装置

Country Status (3)

Country Link
JP (1) JP6472573B2 (ja)
CN (1) CN108885628A (ja)
WO (1) WO2017168967A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6842405B2 (ja) * 2017-12-18 2021-03-17 株式会社日立製作所 分析支援方法、分析支援サーバ及び記憶媒体
DE112018007197T5 (de) * 2018-03-30 2021-02-18 Mitsubishi Electric Corporation Lernverarbeitunsgerät, datenanalysegerät, analyseprozedur-auswahlverfahren und analyseprozedurauswahlprogramm
CN111080128A (zh) * 2019-12-17 2020-04-28 内蒙古电力(集团)有限责任公司内蒙古电力科学研究院分公司 一种火电站金属设备大数据分析和可靠性评价管理系统
CN113961556A (zh) * 2020-07-21 2022-01-21 日本电气株式会社 用于信息处理的方法、装置、设备和存储介质
JP7469730B2 (ja) 2021-02-16 2024-04-17 日本電信電話株式会社 データ分析方法選択装置、方法及びプログラム
JP7369320B1 (ja) 2023-07-14 2023-10-25 コリニア株式会社 情報処理装置、方法、プログラム、およびシステム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05204991A (ja) * 1992-01-30 1993-08-13 Hitachi Ltd 時系列データ検索方法およびこれを用いた検索システム
JPH07198789A (ja) * 1993-12-28 1995-08-01 Mitsubishi Denki Semiconductor Software Kk 特性解析装置およびこの特性解析装置において用いられる特性解析方法
JPH11161498A (ja) * 1997-11-26 1999-06-18 Hitachi Ltd 知識情報の分析方法及び知識情報処理システム及び記憶媒体
JP2005157896A (ja) * 2003-11-27 2005-06-16 Mitsubishi Electric Corp データ分析支援システム
JP5359389B2 (ja) * 2009-03-06 2013-12-04 大日本印刷株式会社 データ分析支援装置、データ分析支援システム、及びプログラム
WO2014034557A1 (ja) * 2012-08-31 2014-03-06 日本電気株式会社 テキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体
WO2014109388A1 (ja) * 2013-01-11 2014-07-17 日本電気株式会社 テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体
JP2014202718A (ja) * 2013-04-09 2014-10-27 株式会社日立ハイテクノロジーズ クロマトグラフデータ処理装置、それを用いた方法、液体クロマトグラフ装置、および、プログラム
US9576263B2 (en) * 2013-09-19 2017-02-21 Oracle International Corporation Contextualized report building
WO2015049797A1 (ja) * 2013-10-04 2015-04-09 株式会社日立製作所 データ管理方法、データ管理装置及び記憶媒体
US20150170067A1 (en) * 2013-12-17 2015-06-18 International Business Machines Corporation Determining analysis recommendations based on data analysis context
JP2016029516A (ja) * 2014-07-25 2016-03-03 株式会社日立製作所 データ分析方法、及びデータ分析システム
CN106469202A (zh) * 2016-08-31 2017-03-01 杭州探索文化传媒有限公司 一种影视大数据平台的数据分析方法

Also Published As

Publication number Publication date
JPWO2017168967A1 (ja) 2018-07-19
CN108885628A (zh) 2018-11-23
WO2017168967A1 (ja) 2017-10-05

Similar Documents

Publication Publication Date Title
JP6472573B2 (ja) データ分析手法候補決定装置
CN110503531B (zh) 时序感知的动态社交场景推荐方法
JP6293642B2 (ja) 推薦エンジンに基づく汎用グラフ、ルール及び空間構造
US20190065589A1 (en) Systems and methods for multi-modal automated categorization
JP2022508163A (ja) ユーザタグ生成方法並びにその、装置、コンピュータプログラム及びコンピュータ機器
CN111046275B (zh) 基于人工智能的用户标签确定方法及装置、存储介质
JP6753115B2 (ja) コンテンツ管理装置、コンテンツ管理方法及びプログラム
CN110309434B (zh) 一种轨迹数据处理方法、装置以及相关设备
CN109816438B (zh) 信息推送方法及装置
CN110955831B (zh) 物品推荐方法、装置、计算机设备及存储介质
Coelho et al. A personalized travel recommendation system using social media analysis
JP5318034B2 (ja) 情報提供装置、情報提供方法、及び情報提供プログラム
JP2011170453A (ja) 場所存在確率算出装置及び方法及びプログラム及びトラベルルート推薦装置及び方法及びプログラム
KR20170107868A (ko) 사용자 맥락, 추천 음악, 이용 행태로 구성된 데이터베이스를 활용한 음악 콘텐츠 추천 방법 및 시스템
JP6450203B2 (ja) 個人プロファイル生成装置及びそのプログラム、並びに、コンテンツ推薦装置
CN112070559A (zh) 状态获取方法和装置、电子设备和存储介质
CN114579858A (zh) 内容推荐方法和装置、电子设备、存储介质
KR102410715B1 (ko) 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치 및 방법
CN105354339B (zh) 基于上下文的内容个性化提供方法
Won et al. A hybrid collaborative filtering model using customer search keyword data for product recommendation
CN112632275B (zh) 基于个人文本信息的人群聚类数据处理方法、装置及设备
Fan et al. Context-aware web services recommendation based on user preference
Mauri et al. Social smart meter: Identifying energy consumption behavior in user-generated content
Fuad et al. A Recommender System for Mobile Applications of Google Play Store
KR102231487B1 (ko) 고객의 구매 결정 요인에 대한 선호 민감도에 기초한 상품 추천 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180315

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190122

R150 Certificate of patent or registration of utility model

Ref document number: 6472573

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250