JP2021152751A

JP2021152751A - 分析支援装置及び分析支援方法

Info

Publication number: JP2021152751A
Application number: JP2020052908A
Authority: JP
Inventors: 文也工藤; Fumiya Kudo
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2021-09-30
Anticipated expiration: 2040-03-24
Also published as: JP7292235B2

Abstract

【課題】分析対象事例に類似する分析済み事例を高精度かつ効率良く特定する。【解決手段】分析支援装置は、分析対象事例の説明変数と目的変数とを示す分析対象事例データと、分析済み事例を分析したモデル及びパラメータの組み合わせと、当該パラメータが適用されたモデルによって分析済み事例が分析されたときの当該モデルの評価値と、を示す分析評価データと、を保持し、分析評価データに含まれる一部のモデル及びパラメータの組み合わせを分析対象事例の説明変数に適用したときの当該モデルの評価値を算出し、算出した評価値と、分析評価データが示す評価値それぞれと、を比較して類似度を算出し、算出した類似度に基づいて、分析対象事例に類似する分析済み事例を特定する。【選択図】図１

Description

本発明は、分析支援装置及び分析支援方法に関する。

近年、多くの産業分野において業務データの収集が可能であり、売り上げを始めとした企業活動におけるＫＰＩ（ＫｅｙＰｅｒｆｏｒｍａｎｃｅＩｎｄｉｃａｔｏｒ）を予測するモデルの生成や、要因分析などのデータ分析を補助及び自動化するニーズが高まっている。また、過去の分析事例を学習し、データ分析に必要な前処理、特徴生成、及びモデリングを支援するツールが開発されている。

本技術分野の背景技術として国際公開第２０１９／０７３９００号（特許文献１）がある。この公報には、「生体活動に起因する生体音に基づいて、簡易かつ高精度に疾患を判定する。生体活動に起因する生体音に基づいて疾患の判定を行うための判定アルゴリズムＤ２を学習する機械学習装置（３）であって、複数の被験体の前記生体音の音情報を取得する音情報取得部（３３）と、前記複数の被験体の疾患に関する診断情報を取得する診断情報取得部（３４）と、前記各被験体の前記音情報および前記診断情報に基づいて、判定アルゴリズムＤ２を学習する学習部（３５）と、を備えた、機械学習装置（３）。」と記載されている（要約参照）。

国際公開第２０１９／０７３９００号

従来技術は、分析済み事例のデータと分析対象事例のデータとから、予め定義した属性情報を抽出し、分析済み事例と分析対象事例との類似度を求めて、分析対象事例に類似する分析済み事例を抽出する。しかし、類似度の算出に用いられる属性情報は設計者が選択するものであるため、分析対象事例に類似する分析済み事例を精度良く抽出するための属性情報が必ずしも選択されているとは限らない。さらに、設計者が選択した属性情報は、事例データが持つ性質の一部しか表現できていない可能性が高い。つまり、従来技術では、類似度の設計自体が困難であった。

また特許文献１に記載の技術は、決められた種類のモデリングと特徴量を用いて判定アルゴリズムを学習するが、過去のモデリング結果を利用して効率よく学習を行う仕組みを有していない。そこで本発明の一態様は、分析対象事例を高精度に分析するために、分析対象事例に類似する分析済み事例を高精度かつ効率良く特定することを目的とする。

上記課題を解決するため、本発明の一態様は以下の構成を採用する。分析支援装置は、プロセッサとメモリとを有し、前記メモリは、分析対象事例の説明変数と目的変数とを示す分析対象事例データと、分析済み事例を分析したモデル及び前記モデルに適用されたパラメータの組み合わせと、前記パラメータが適用されたモデルによって前記分析済み事例が分析されたときの当該モデルの評価値と、を示す分析評価データと、を保持し、前記プロセッサは、前記分析評価データに含まれる予め定められた一部のモデル及びパラメータの組み合わせを前記分析対象事例の説明変数に適用して前記分析対象事例の目的変数を予測したときの当該モデルの評価値を算出し、前記算出した評価値と、前記分析評価データが示す評価値それぞれと、を比較して類似度を算出し、前記算出した類似度に基づいて、前記分析対象事例に類似する分析済み事例である類似事例を特定する。

本発明の一態様によれば、分析対象事例を高精度に分析するために、分析対象事例に類似する分析済み事例を高精度かつ効率良く特定することができる。

上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

実施例１における分析支援装置の構成例を示すブロック図である。実施例１における入力テーブルの一例である。実施例１における分析情報の一例である。実施例１における分析データベースの一例である。実施例１におけるパラメータデータベースの一例である。実施例１における自動分析実行処理の一例を示すフローチャートである。実施例１におけるルールベース問題分類処理の一例を示すフローチャートである。実施例１における共通パラメータ探索処理の一例を示すフローチャートである。実施例１における類似事例抽出処理の一例を示すフローチャートである。実施例１における類似事例抽出処理の具体例を示す説明図である。実施例１におけるパラメータレコメンド処理の一例を示すフローチャートである。実施例１における周辺探索処理の一例を示すフローチャートである。実施例１における再学習処理の一例を示すフローチャートである。実施例１における分析データベース作成処理の一例を示すフローチャートである。実施例１における自動分析実行処理が行われるときに出力装置に表示される表示画面の一例である。

以下、本発明の実施形態を図面に基づいて詳細に説明する。本実施形態において、同一の構成には原則として同一の符号を付け、繰り返しの説明は省略する。なお、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。

図１は、分析支援装置の構成例を示すブロック図である。分析支援装置１００は、例えば、それぞれが互いにバス１０７等の内部通信線で接続された、ＣＰＵ（ＣｏｎｔｒｏｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１、メモリ１０２、補助記憶装置１０３、入力装置１０４、出力装置１０５、及び通信装置１０６を有する計算機によって構成される。

ＣＰＵ１０１は、プロセッサを含み、メモリ１０２に格納されたプログラムを実行する。メモリ１０２は、不揮発性の記憶素子であるＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）及び揮発性の記憶素子であるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含む。ＲＯＭは、不変のプログラム（例えば、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ））などを格納する。ＲＡＭは、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような高速かつ揮発性の記憶素子であり、ＣＰＵ１０１が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。

補助記憶装置１０３は、例えば、磁気記憶装置（ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ））、フラッシュメモリ（ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ））等の大容量かつ不揮発性の記憶装置であり、ＣＰＵ１０１が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置１０３から読み出されて、メモリ１０２にロードされて、ＣＰＵ１０１によって実行される。

入力装置１０４は、オペレータからの入力を受け付ける装置であり、例えば、キーボードやマウス等である。出力装置１０５は、プログラムの実行結果をオペレータが視認可能な形式で出力する装置であり、例えば、ディスプレイやプリンタ等である。通信装置１０６は、所定のプロトコルに従って、他の装置との通信を制御するネットワークインターフェース装置である。

ＣＰＵ１０１が実行するプログラムは、リムーバブルメディア（ＣＤ−ＲＯＭ、フラッシュメモリなど）又はネットワークを介して分析支援装置１００に提供され、非一時的記憶媒体である不揮発性の補助記憶装置１０３に格納される。このため、分析支援装置１００は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。

分析支援装置１００は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。

ＣＰＵ１０１は、例えば、自動分析実行部１１１、分析データベース作成部１１２、ルールベース問題分類部１１３、共通パラメータ探索部１１４、類似事例抽出部１１５、パラメータレコメンド部１１６、周辺探索部１１７、及び再学習部１１８を含む。

自動分析実行部１１１は、後述する入力テーブル１２１が示す分析対象事例の自動分析処理を制御する。分析データベース作成部１１２は、後述する分析データベース１２３を生成する。ルールベース問題分類部１１３は、入力テーブル１２１が示す分析対象事例においてモデルによって解かれる問題を特定する。

共通パラメータ探索部１１４は、分析データベース１２３が示す一部のパラメータが適用されたモデルを入力テーブル１２１の説明変数に適用する。類似事例抽出部１１５は、分析対象事例に類似する過去に分析済みの事例である類似事例を抽出する。

パラメータレコメンド部１１６は、類似事例において適用済みのパラメータのうち、分析対象事例に適用すると最も良い評価値を示すパラメータをレコメンドする。周辺探索部１１７は、レコメンドされたパラメータの周辺のパラメータを探索し、探索したパラメータのうち分析対象事例に適用すると最も良い評価値を示すベストパラメータを出力する。再学習部１１８は、ベストパラメータを用いて分析対象事例を分析するための後述するモデル１２４を生成する。

例えば、ＣＰＵ１０１は、メモリ１０２にロードされた自動分析実行プログラムに従って動作することで、自動分析実行部１１１として機能し、メモリ１０２にロードされた分析データベース作成プログラムに従って動作することで、分析データベース作成部１１２として機能する。

なお、ＣＰＵ１０１に含まれる機能部による機能の一部又は全部が、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のハードウェアによって実現されてもよい。

補助記憶装置１０３は、例えば、入力テーブル１２１、分析情報１２２、分析データベース１２３、モデル１２４、及びパラメータデータベース１２５を保持する。なお、補助記憶装置１０３に格納されている一部又は全部の情報は、メモリ１０２に格納されていてもよいし、分析支援装置１００に接続されているデータベース等に格納されていてもよい。

入力テーブル１２１は、分析対象事例のデータを保持する。分析情報１２２は、入力テーブル１２１を分析するための追加情報を保持する。分析データベース１２３は、過去に分析済みの事例において分析に用いられたモデル及びパラメータ、並びに評価値を示す情報を保持する。後述するように分析データベース１２３は、分析済み事例そのもの（分析済み事例の属性情報）を直接的に示す情報を有している必要はない。

モデル１２４は、入力テーブル１２１が示す分析対象事例を分析するためのモデル、及び過去に分析済みの事例を分析したモデルを含む。パラメータデータベース１２５は、モデル１２４に適用されるパラメータを示す情報を保持する。

なお、本実施形態において、分析支援装置１００が使用する情報は、データ構造に依存せずどのようなデータ構造で表現されていてもよい。本実施形態ではテーブル形式で情報が表現されているが、例えば、リスト、データベース又はキューから適切に選択したデータ構造体が、情報を格納することができる。
図２は、入力テーブル１２１の一例である。入力テーブル１２１は、列方向に同じ変数の値を格納し、行方向に各変数の値を格納するテーブルデータである。

図２の例では、入力テーブル１２１は、ＰａｓｓｅｎｇｅｒＩｄ欄１２１１、Ｓｕｒｖｉｖｅｄ欄１２１２、Ｓｅｘ欄１２１３、Ａｇｅ欄１２１４、ＳｉｂＳｐ欄１２１５、Ｆａｒｅ欄１２１６、Ｅｍｂａｒｋｅｄ欄１２１７と、を含む。入力テーブル１２１に含まれる変数（列）の数は任意であり、各変数は文字列、フラグ、連続数（数値）等の様々な型の値を取ることができる。

図２の例では、ＰａｓｓｅｎｇｅｒＩｄ欄１２１１がＩＤカラム（即ちレコードを識別するための変数）、Ｓｕｒｖｉｖｅｄ欄１２１２が目的変数カラムであり、他の欄は説明変数カラムである。本実施例における分析の目的は、説明変数カラムの値から目的変数カラムの値をより正確に予測する予測式であるモデルを生成することを含む。

図２の入力テーブル１２１ではＳｕｒｖｉｖｅｄ欄１２１２が目的変数カラムであり、Ｓｕｒｖｉｖｅｄ欄１２１２の値は１又は０のいずれかをとるため、Ｓｕｒｖｉｖｅｄ欄１２１２の値を予測することは二値分類の問題である。一般的に、ＩＤカラムはデータサンプルを識別する通し番号であるため、分析には直接的に用いられないことが多い。

図３は、分析情報１２２の一例である。分析情報１２２は、例えば、ＩＤ欄１２２１、目的変数名欄１２２２、問題欄１２２３、及び型欄１２２４を含む。ＩＤ欄１２２１は、分析情報１２２のレコードを識別するＩＤを保持する。目的変数名欄１２２２は、入力テーブル１２１の目的変数カラムを示す。問題欄１２２３は、入力テーブル１２１が二値分類、多クラス分類、又は回帰等の、どのクラスの問題に分類されるかを示す。型欄１２２４は、目的変数カラムの型を示す。

図４は、分析データベース１２３の一例である。分析データベース１２３は問題分類ごとに定義されており、図４は問題分類が多クラス問題かつ稀現象問題である分析データベース１２３の例を示す。分析データベース１２３は、例えば、Ａｎａｌｙｓｉｓ＿ＩＤ欄１２３１、Ｍｏｄｅｌ＿Ｎａｍｅ欄１２３２、Ｃｏｍｍｏｎ＿Ｓｅａｒｃｈ欄１２３３、Ｒｅｃｉｐｅ＿ＩＤ欄１２３４、Ｂｅｓｔ＿Ｆｌａｇ欄１２３５、及びＡｃｃｕｒａｃｙ欄１２３６を含み、過去の探索結果情報を保持する。

Ａｎａｌｙｓｉｓ＿ＩＤ欄１２３１は、分析事例を識別するＩＤ（つまり１つの入力テーブル１２１を分析する際に付与されるＩＤ）を保持する。一つの分析事例に対してパラメータを変化させて１回以上の探索と評価が行われるため、一つのＡｎａｌｙｓｉｓ＿ＩＤに対して複数の結果が保存され得る。

Ｍｏｄｅｌ＿Ｎａｍｅ欄１２３２は分析に用いられたモデル１２４の名称を保持する。線形回帰、Ｌｏｇｉｓｔｉｃ回帰、ＸＧＢｏｏｓｔ、ＲａｎｄｏｍＦｏｒｅｓｔ、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）、ＳＶＲ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＲｅｇｒｅｓｓｉｏｎ）、ＮｅｕｒａｌＮｅｔｗｏｒｋ、及びＧａｕｓｓｉａｎＰｒｏｃｅｓｓは、いずれも分析に用いられるモデル１２４の一例である。

Ｃｏｍｍｏｎ＿Ｓｅａｒｃｈ欄１２３３は、入力テーブル１２１が示す分析対象事例に類似する分析済みの事例を抽出するために、利用されるパラメータを識別するためのフラグを保持する。

本実施例の分析支援装置１００は、分析対象事例に類似する分析済み事例を抽出し、分析対象事例の分析に用いられると精度の高い分析が可能なパラメータをレコメンドする。分析支援装置１００は、この類似する事例を見つけるために、探索対象のパラメータを同一にすることで事例間の比較を行うことができる。そのため分析データベース１２３は、分析事例間で同一パラメータを探索したサンプルを識別するためのフラグとしてＣｏｍｍｏｎ＿Ｓｅａｒｃｈ欄１２３３を有する。

Ｒｅｃｉｐｅ＿ＩＤ欄１２３４は、探索済みのパラメータセットそれぞれを識別するＩＤであるＲｅｃｉｐｅ＿ＩＤを保持する。分析データベース１２３に含まれるパラメータセットがレコメンドされる際には、このＲｅｃｉｐｅ＿ＩＤによってパラメータセットが指定される。

Ｂｅｓｔ＿Ｆｌａｇ欄１２３５は、同一の分析事例、即ち同一のＡｎａｌｙｓｉｓ＿ＩＤを有する事例において、モデルが最も良い性能を示したパラメータセットを識別するためのフラグであるＢｅｓｔ＿Ｆｌａｇを保持する。図４の例では予測精度（Ａｃｃｕｒａｃｙ欄１２３６の値）によってモデルの性能が評価されているが、他の評価指標及びモデルの安定性などの様々な観点によって、モデルの性能を評価することができる。

Ａｃｃｕｒａｃｙ欄１２３６は、Ｒｅｃｉｐｅ＿ＩＤ欄１２３４が示すパラメータセットをモデルに適用した際のモデルの評価値の一例である予測精度（Ａｃｃｕｒａｃｙ）を示す。なお、分析データベース１２３は説明の便宜上データベースと名付けられているが、必ずしもデータベースである必要はなく、例えばテキスト形式や他の形式であってもよい。

図５は、パラメータデータベース１２５の一例である。パラメータデータベース１２５は、例えば、Ｒｅｃｉｐｅ＿ＩＤを保持するＲｅｃｉｐｅ＿ＩＤ欄１２５１を含む。また、パラメータデータベース１２５は、例えば、いずれもパラメータ値を保持する、ｐａｒａｍ＿ｍａｘ＿ｄｅｐｔｈ欄１２５２、ｐａｒａｍ＿ｌｅａｆｅ＿ｎｕｍ欄１２５３、ｐａｒａｍ＿ｎ＿ｅｓｔｉｍａｔｏｒ欄１２５４、及びｐａｒａｍ＿ｌｅａｒｉｎｇ＿ｒａｔｅ欄１２５５を含む。図５の例では、パラメータデータベース１２５は、４つのパラメータを保持しているが、パラメータデータベース１２５が保持するパラメータの種類及び数は、分析支援装置１００が有するモデル１２４に依存する。

なお、補助記憶装置１０３が有する各データが有する図示された欄はあくまで一例であり、各テーブルは図示された全ての欄を必ずしも有していなくてもよいし、別の欄をさらに有していてもよい。

図６は、自動分析実行処理の一例を示すフローチャートである。図６の処理の前に入力テーブル１２１及び分析情報１２２の値が入力済みであるものとする。但し分析情報１２２の問題欄１２２３には値が格納されていなくてもよい（ｎｕｌｌ値が格納されていてもよい）。

自動分析実行処理において、自動分析実行部１１１は、入力テーブル１２１と分析情報１２２とパラメータデータベース１２５と、に基づいて、分析データベース１２３から分析対象事例に類似する過去の分析済み事例を検索する。そして、自動分析実行部１１１は、最良の評価値を示すパラメータを抽出し、当該抽出したパラメータを適用して、分析対象事例を分析するためのモデルを出力する。

図６の各ステップの詳細については後述するため、ここでは簡潔に説明する。まず、ルールベース問題分類部１１３は、入力テーブル１２１が示す分析対象事例においてモデルによって解かれる問題が、どの問題に属するかを判定する（Ｓ６０１）。共通パラメータ探索部１１４は、過去の分析済み事例に適用されたパラメータを用いたモデルを入力テーブル１２１の説明変数に適用した場合のモデルの評価値を算出する（Ｓ６０２）。

類似事例抽出部１１５は、当該パラメータが適用された、分析対象事例である入力テーブル１２１おける評価値と、過去の分析済み事例における評価値と、を比較して、分析対象事例に最も類似する分析済み事例である類似事例を抽出する（Ｓ６０３）。

パラメータレコメンド部１１６は、類似事例に適用されたパラメータのうち最も評価値が高いパラメータを抽出し、レコメンドする（Ｓ６０４）。周辺探索部１１７は、レコメンドされたパラメータの周辺を探索してベストパラメータを抽出する（Ｓ６０５）。再学習部１１８は、ベストパラメータを用いて、分析対象事例を分析するためのモデル１２４を生成する。

図７は、ステップＳ６０１のルールベース問題分類処理の一例を示すフローチャートである。ルールベース問題分類部１１３は、入力テーブル１２１及び分析情報１２２を読み出す（Ｓ７０１）。

ルールベース問題分類部１１３は、分析情報１２２において問題分類が定義されているか、即ち問題欄１２２３に値が入力されているかを判定する（Ｓ７０２）。

ルールベース問題分類部１１３は、分析情報１２２において問題分類が定義されていると判定した場合（Ｓ７０２：Ｙｅｓ）、問題欄１２２３が示す問題分類を問題分類結果として出力し（Ｓ７０７）、ルールベース問題分類処理を終了する。

ルールベース問題分類部１１３は、分析情報１２２において問題分類が定義されていないと判定した場合（Ｓ７０２：Ｎｏ）、分析情報１２２の目的変数名欄１２２２から入力テーブル１２１の目的変数カラムを特定し、入力テーブル１２１の目的変数カラムのユニーク要素数（即ち要素の種類数）が２以下であるかを判定する（Ｓ７０３）。

ルールベース問題分類部１１３は、目的変数カラムのユニーク要素数が２以下であると判定した場合（Ｓ７０３：Ｙｅｓ）、入力テーブル１２１の問題が二値分類問題を含むことを示す情報を問題分類結果に含め、稀現象判定処理を実行して（Ｓ７０５）、問題分類結果を出力し（Ｓ７０７）、ルールベース問題分類処理を終了する。

なお、ルールベース問題分類部１１３は、ステップＳ７０５において、目的変数カラムの値の偏りが大きい場合に、入力テーブル１２１の問題が稀現象問題を含むことを示す情報を問題分類結果に含める。具体的には、例えば、ルールベース問題分類部１１３は、目的変数カラムの値の分散が所定値以上である場合や、目的変数カラムの値の最大の相対度数と最小の相対度数との差が所定値以上である場合等に、目的変数カラムの値の偏りが大きいと判定する。

ルールベース問題分類部１１３は、目的変数カラムのユニーク要素数が２を超えると判定した場合（Ｓ７０３：Ｎｏ）、目的変数が文字データであるかを判定する（Ｓ７０５）。具体的には、例えば、ルールベース問題分類部１１３は、分析情報１２２の型欄１２２４の値を参照して目的変数が文字データであるか否かを判定してもよいし、入力テーブル１２１の目的変数カラムの値に１つでも文字データが含まれている場合に目的変数が文字データであると判定してもよい。このようにルールベース問題分類部１１３は、目的変数のデータ型に基づいて問題分類を実行する。

ルールベース問題分類部１１３は、目的変数が文字データであると判定した場合（Ｓ７０４：Ｙｅｓ）、入力テーブル１２１の問題が多クラス問題を含むことを示す情報を問題分類結果に含め、稀現象判定処理を実行して（Ｓ７０５）、問題分類結果を出力し（Ｓ７０７）、ルールベース問題分類処理を終了する。

ルールベース問題分類部１１３は、目的変数が文字データでない（即ち数値データである）と判定した場合（Ｓ７０４：Ｎｏ）、入力テーブル１２１の目的変数カラムのユニーク要素数が予め定められた閾値α以下であるかを判定する（Ｓ７０５）。

ルールベース問題分類部１１３は、目的変数カラムのユニーク要素数がα以下であると判定した場合（Ｓ７０５：Ｙｅｓ）、入力テーブル１２１の問題が多クラス問題を含むことを示す情報を問題分類結果に含め、稀現象判定処理を実行して（Ｓ７０５）、問題分類結果を出力し（Ｓ７０７）、ルールベース問題分類処理を終了する。ルールベース問題分類部１１３は、目的変数カラムのユニーク要素数がαを超えると判定した場合（Ｓ７０５：Ｎｏ）、入力テーブル１２１の問題が回帰問題であることを示す情報を問題分類結果に含め、問題分類結果を出力し（Ｓ７０７）、ルールベース問題分類処理を終了する。

図７の処理により、入力テーブル１２１の問題分類結果は、分析情報１２２の問題欄１２２３が示す問題、二値問題、二値問題かつ稀現象問題、多クラス問題、多クラス問題かつ稀現象問題、又は回帰問題のいずれかに該当する。

図８は、ステップＳ６０２の共通パラメータ探索処理の一例を示すフローチャートである。共通パラメータ探索部１１４は、入力テーブル１２１と、分析情報１２２と、ステップＳ７０７で出力された問題分類結果が示す問題に対応する分析データベース１２３と、を読み出す（Ｓ８０１）。

共通パラメータ探索部１１４は、ステップＳ８０１で読み出した分析データベース１２３のＣｏｍｍｏｎ＿Ｓｅａｒｃｈ欄１２３３の値が１であるレコードのモデルとＲｅｃｉｐｅ＿ＩＤとを特定し、特定したＲｅｃｉｐｅ＿ＩＤに対応するパラメータセットをｃｏｍｍｏｎ＿ｇｒｉｄとしてパラメータデータベース１２５から抽出する（Ｓ８０２）。

共通パラメータ探索部１１４は、ｃｏｍｍｏｎ＿ｇｒｉｄとして抽出したパラメータセットそれぞれについて、当該パラメータセットに分析データベース１２３において対応するモデルを入力テーブル１２１の説明変数の値に適用して、当該パラメータセットが適用されたモデルが入力テーブル１２１の説明変数に適用されたときの当該モデルの評価値（例えば予測精度（Ａｃｃｕｒａｃｙ））を算出する（Ｓ８０３）。

共通パラメータ探索部１１４は、ステップＳ８０２で抽出したパラメータセットである探索済みパラメータ群θ_{ｓｅａｒｃｈ}と、ステップＳ８０３において得られた評価値と、を対応付けて出力する（Ｓ８０４）。

図９は、ステップＳ６０３の類似事例抽出処理の一例を示すフローチャートである。類似事例抽出部１１５は、入力テーブル１２１と、分析情報１２２と、ステップＳ８０４で出力された探索済みパラメータ群θ_{ｓｅａｒｃｈ}と、ステップＳ７０７で出力された問題分類結果が示す問題に対応する分析データベース１２３と、を読み出す（Ｓ９０１）。

類似事例抽出部１１５は、分析データベース１２３の分析済み事例のＡｎａｌｙｓｉｓ＿ＩＤそれぞれについて、ｃｏｍｍｏｎ＿ｇｒｉｄに対する評価値（Ａｃｃｕｒａｃｙ）と、探索済みパラメータ群θ_{ｓｅａｒｃｈ}における評価値と、を比較して、当該分析済み事例と、入力テーブル１２１の分析対象事例と、の類似度を算出する（Ｓ９０２）。

類似事例抽出部１１５は、ステップＳ９０２において、例えば、分析済み事例のｃｏｍｍｏｎ＿ｇｒｉｄに対する評価値と、探索済みパラメータ群θ_{ｓｅａｒｃｈ}における評価値と、の間の相関係数、ユークリッド距離、マンハッタン距離、又は絶対誤差等のいずれかを類似度として算出する。類似事例抽出部１１５は、入力テーブル１２１の分析対象事例との間の類似度が最も高い分析済み事例のＡｎａｌｙｓｉｓ＿ＩＤを類似事例ＩＤとして出力する（Ｓ９０３）。

図１０は、図９に示した類似事例抽出処理の具体例を示す説明図である。前述したように類似事例抽出部１１５は、入力テーブル１２１から得られた分析対象事例における、探索済みパラメータ群θ_{ｓｅａｒｃｈ}を適用した場合のモデルの評価値であるＡｃｃｕｒａｃｙと、分析データベース１２３の分析済み事例それぞれにおけるθ_{ｓｅａｒｃｈ}に対応するパラメータセットの評価値であるＡｃｃｕｒａｃｙと、の類似度を算出する。前述したように分析データベース１２３には複数の分析済み事例が格納されており、分析済み事例を識別するＡｎａｌｙｓｉｓ＿ＩＤが付与されている。

Ａｎａｌｙｓｉｓ＿ＩＤが「１」、「２」、「３」、「４」の事例の評価値に対して、入力テーブル１２１から得られた分析対象事例における評価値との相関係数が、それぞれ、ｒ＝０．１１、ｒ＝０．３２、ｒ＝０．２５、ｒ＝０．８５、である。従って、図１０の例では、分析対象事例と最も類似度の高い分析済み事例はｒ＝０．８５を示したＡｎａｌｙｓｉｓ＿ＩＤが「４」の分析済み事例であることがわかる。

従って、図１０の例では、類似事例抽出部１１５は、類似事例ＩＤとして「４」を出力する。なお、類似事例抽出部１１５は、相関係数を類似度として算出する場合、相関係数の絶対値が最大の分析済み事例のＡｎａｌｙｓｉｓ＿ＩＤを類似事例ＩＤとして出力してもよい。

上記した処理により、分析支援装置１００は、分析済み事例の分析結果のうちｃｏｍｍｏｎ＿ｇｒｉｄについてのみ、入力テーブル１２１が示す分析対象事例におけるモデルの評価値を算出し、算出した評価値と、過去分析済み事例におけるモデルの評価値と、を比較して類似事例を抽出するため、少ない処理量によって類似事例を抽出することができる。

また、分析支援装置１００は、上記した処理において、分析済み事例のデータそのもの（分析済み事例の属性情報）を利用することなく、分析データベース１２３（分析済み事例のモデル及びパラメータ、並びにモデルの評価値）を用いて類似事例を抽出することができるため、データ量を節減できる上に、仮に分析データベース１２３が漏洩しても個人情報等が漏洩することはない。

図１１は、ステップＳ６０４のパラメータレコメンド処理の一例を示すフローチャートである。パラメータレコメンド部１１６は、入力テーブル１２１と、分析情報１２２と、ステップＳ９０４で出力された類似事例ＩＤと、パラメータデータベース１２５と、問題分類結果に対応する分析データベース１２３を読み出す（Ｓ１１０１）。

パラメータレコメンド部１１６は、問題分類結果に対応する分析データベース１２３を参照して、類似事例ＩＤが示す分析済み事例の評価値であるＡｃｃｕｒａｃｙが最も高い値を最良評価値として検索する（Ｓ１１０２）。

パラメータレコメンド部１１６は、最良評価値を示すレコードのＲｅｃｉｐｅ＿ＩＤを取得し、パラメータデータベース１２５から当該Ｒｅｃｉｐｅ＿ＩＤに対応するパラメータセットを取得する（Ｓ１１０３）。パラメータレコメンド部１１６は、取得したパラメータセットをレコメンドパラメータθ_{ｒｅｃｏｍｍｅｎｄ}として出力し（Ｓ１１０４）、パラメータレコメンド処理を終了する。

図１１の例では、パラメータレコメンド部１１６は、類似事例において最も高い評価値を示したパラメータセットを一つレコメンドしているが、例えば、類似事例において最も低い評価値を示したパラメータセットをレコメンドパラメータθ_{ｒｅｃｏｍｍｅｎｄ}として出力してもよいし、評価値の数値の大小以外の観点で選択されたパラメータセットをレコメンドパラメータθ_{ｒｅｃｏｍｍｅｎｄ}として出力してもよい。

また、パラメータレコメンド部１１６は、例えば、類似事例において評価値が高い順に所定数（例えば１０個）のパラメータセットをレコメンドパラメータθ_{ｒｅｃｏｍｍｅｎｄ}として出力してもよいし、類似事例において評価値が低い順に所定数（例えば１０個）のパラメータセットをレコメンドパラメータθ_{ｒｅｃｏｍｍｅｎｄ}として出力してもよい。

また、パラメータレコメンド部１１６は、例えば、類似事例において評価値が所定以上の全てのパラメータセットをレコメンドパラメータθ_{ｒｅｃｏｍｍｅｎｄ}として出力してもよいし、パラメータレコメンド部１１６は、例えば、類似事例において評価値が所定未満の全てのパラメータセットをレコメンドパラメータθ_{ｒｅｃｏｍｍｅｎｄ}として出力してもよい。

図１２は、ステップＳ６０５の周辺探索処理の一例を示すフローチャートである。周辺探索部１１７は、入力テーブル１２１と、分析情報１２２と、ステップＳ１１０４で出力されたレコメンドパラメータθ_{ｒｅｃｏｍｍｅｎｄ}と、を読み出す（Ｓ１２０１）。

周辺探索部１１７は、レコメンドパラメータθ_{ｒｅｃｏｍｍｅｎｄ}を初期値として、レコメンドパラメータθ_{ｒｅｃｏｍｍｅｎｄ}の周辺のパラメータセットを適用したモデルを入力テーブル１２１の説明変数に適用し、最良の評価値を示すパラメータセットを探索する（Ｓ１２０２）。周辺探索部１１７は、最良の評価値を示すパラメータセットをベストパラメータθ_ｂｅｓｔとして出力し（Ｓ１２０３）、探索処理を終了する。

このように周辺探索部１１７は、類似事例におけるレコメンドパラメータθ_{ｒｅｃｏｍｍｅｎｄ}の周辺を探索することにより、精度の高い結果を示すベストパラメータθ_ｂｅｓｔを少ない処理量で取得することができる。

なお、ステップＳ１２０２において、周辺探索部１１７は、例えば、予め定められた範囲のパラメータセットを探索する。

また、ステップＳ１２０２において、周辺探索部１１７は、例えば、レコメンドパラメータθ_{ｒｅｃｏｍｍｅｎｄ}を中心として所定の条件に基づいて更新（例えば拡大又は縮小した）範囲のパラメータセットを探索してもよい。

具体的には、例えば、周辺探索部１１７は、ｖａｒ＝（ｘ_ｍａｘ−ｘ_ｍｉｎ）×（１−｜Ｃｏｒｒ｜）を算出する（但しｘ_ｍａｘ及びｘ_ｍｉｎはそれぞれ予め定められたパラメータの範囲の最大値及び最小値であり、Ｃｏｒｒは類似事例と、入力テーブル１２１が示す分析対象事例と、の相関係数である）。周辺探索部１１７は、ｘ_new＿min＝ｘ_{ｒｅｃｏｍｍｅｎｄ}−ｖａｒを更新後のパラメータの範囲の最小値、ｘ_{new＿mａｘ}＝ｘ_{ｒｅｃｏｍｍｅｎｄ}＋ｖａｒを更新後のパラメータの範囲の最大値として、当該範囲においてパラメータセットを探索する（但しｘ_{ｒｅｃｏｍｍｅｎｄ}はレコメンドパラメータである）。

図１３は、ステップＳ６０６の再学習処理の一例を示すフローチャートである。再学習部１１８は、入力テーブル１２１と、分析情報１２２と、ステップＳ１２０３で出力されたベストパラメータθ_ｂｅｓｔと、を読み出す（Ｓ１３０１）。

再学習部１１８は、ベストパラメータθ_ｂｅｓｔに基づいて、入力テーブル１２１に対して前処理を実行する（Ｓ１３０２）。具体的には、例えば、再学習部１１８は、数値カラムの正規化、文字列カラムの表記ゆれの統合、ＰＣＡ（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）などを用いた次元圧縮、文字列カラムに対するダミー変数化処理、外れ値処理、及び異常値処理はいずれも前処理の一例である。

再学習部１１８は、ベストパラメータθ_ｂｅｓｔに従って、入力テーブル１２１の特徴量を生成する（Ｓ１３０３）。具体的には、例えば、再学習部１１８数値カラムの分割、対数変換、指数変換、時系列特徴量変換、及び／又は時刻データの年月日への変換などによって特徴量を生成する。

再学習部１１８は、ベストパラメータθ_ｂｅｓｔを用いて、入力テーブル１２１に対してモデリングを実行する（Ｓ１３０４）。線形回帰、Ｌｏｇｉｓｔｉｃ回帰、ＳＶＭ、ＳＶＲ、ＧａｕｓｓｉａｎＰｒｏｃｅｓｓ、ＲａｎｄｏｍＦｏｒｅｓｔ、ＬｉｇｈｔＧＢＭ、ＸＧＢｏｏｓｔ、及びＮｅｕｒａｌＮｅｔｗｏｒｋはいずれもモデリングの一例である。再学習部１１８は、ステップＳ１３０４のモデリングにおいて得られる、入力テーブル１２１の事例の目的変数を予測するモデル１２４及び当該モデル１２４による分析結果を出力し（Ｓ１３０５）、再学習処理を終了する。

図１４は、分析データベース作成処理の一例を示すフローチャートである。分析データベース作成処理は、入力テーブル１２１に対する分析結果を分析データベース１２３へと蓄積する処理であるため、図６の自動分析実行処理の終了後に行われることが望ましい。
分析データベース作成部１１２は、入力テーブル１２１と、分析情報１２２と、を読み出す（Ｓ１４０１）。

分析データベース作成部１１２は共通パラメータ探索処理を実行する（Ｓ１４０２）。分析データベース作成部１１２は、ステップＳ１４０２において、図８の共通パラメータ探索処理と同様に、入力テーブル１２１に対して、パラメータセットの探索を行う。

分析データベース作成部１１２は、詳細探索を実行する（Ｓ１４０３）。ステップＳ１４０３において、分析データベース作成部１１２は、ステップＳ１４０２で探索した分析事例間の共通パラメータ以外（即ちｃｏｍｍｏｎ＿ｇｒｉｄ）のパラメータセット（例えば、各ｃｏｍｍｏｎ＿ｇｒｉｄから所定範囲以内の全てのパラメータセット）を探索する。

分析データベース作成部１１２は、ステップＳ１３０２とステップＳ１３０３とにおいて探索された全てのパラメータセットのうち、最も高い評価値を示すサンプルにＢｅｓｔ＿Ｆｌａｇとして１を付与する（Ｓ１４０４）。なお、ステップＳ１４０４の処理は、運用時の動作を高速化するための処理であるため、必ずしも実行されなくてもよい。

分析データベース作成部１１２は、入力テーブル１２１の事例に対してＡｎａｌｙｓｉｓ＿ＩＤを付与し、Ａｎａｌｙｓｉｓ＿ＩＤ、Ｍｏｄｅｌ＿Ｎａｍｅ、Ｒｅｃｉｐｅ＿ＩＤ、Ｂｅｓｔ＿Ｆｌａｇ、及びＡｃｃｕｒａｃｙをそれぞれ分析データベース１２３に記録し（Ｓ１４０４）、分析データベース作成処理を終了する。

なお、分析データベース作成部１１２は、パラメータデータベース１２５に格納されていないパラメータセットを探索した場合には、当該パラメータセットに対してＲｅｃｉｐｅ＿ＩＤを付与し、当該Ｒｅｃｉｐｅ＿ＩＤと当該パラメータセットをパラメータデータベース１２５に記録する。

また、分析データベース１２３のＣｏｍｍｏｎ＿Ｓｅａｒｃｈ欄１２３３の値は、例えば、分析支援装置１００のユーザの入力に従って記録されてもよいし、自動で（例えば所定のモデルのうち、所定値以上のＡｃｃｕｒａｃｙを示すレコードについては１、他のレコードについては０）記録されてもよい。

図１５は、自動分析実行処理が行われるときに出力装置１０５に表示される表示画面の一例である。表示画面１５００は、例えば、出力情報表示領域１５０１、類似事例抽出レコメンド実行ボタン１５０２、再探索実行ボタン１５０３、及びモデル学習実行ボタン１５０４を含む。

類似事例抽出レコメンド実行ボタン１５０２が選択されると、図６の自動分析実行処理が行われ、出力情報表示領域１５０１に、例えば、図９の類似事例抽出処理において抽出された類似事例ＩＤと、分析対象事例と当該類似事例との類似度と、図１１のパラメータレコメンド処理において出力されたレコメンドパラメータと、が表示される。

再探索実行ボタン１５０３が選択されると、図１２の周辺探索処理が実行されて、出力情報表示領域１５０１にベストパラメータがさらに表示される。モデル学習実行ボタン１５０４が選択されると、図１３の再学習処理が実行されて、出力されたモデルがさらに表示される。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることも可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１００分析支援装置、１０１ＣＰＵ、１０２メモリ、１０３補助記憶装置、１０４入力装置、１０５出力装置、１０６通信装置、１１１自動分析実行部、１１２分析データベース作成部、１１３ルールベース問題分類部、１１４共通パラメータ探索部、１１５類似事例抽出部、１１６パラメータレコメンド部、１１７周辺探索部、１１８再学習部、１２１入力テーブル、１２２分析情報、１２３分析データベース、１２４モデル、１２５パラメータデータベース

Claims

分析支援装置であって、
プロセッサとメモリとを有し、
前記メモリは、
分析対象事例の説明変数と目的変数とを示す分析対象事例データと、
分析済み事例を分析したモデル及び前記モデルに適用されたパラメータの組み合わせと、前記パラメータが適用されたモデルによって前記分析済み事例が分析されたときの当該モデルの評価値と、を示す分析評価データと、を保持し、
前記プロセッサは、
前記分析評価データに含まれる予め定められた一部のモデル及びパラメータの組み合わせを前記分析対象事例の説明変数に適用して前記分析対象事例の目的変数を予測したときの当該モデルの評価値を算出し、
前記算出した評価値と、前記分析評価データが示す評価値それぞれと、を比較して類似度を算出し、
前記算出した類似度に基づいて、前記分析対象事例に類似する分析済み事例である類似事例を特定する、分析支援装置。
請求項１に記載の分析支援装置であって、
前記プロセッサは、前記分析評価データを参照して、前記類似事例を分析したモデル及び当該モデルに適用されたパラメータの組み合わせのうち、評価値が最も高い組み合わせにおけるパラメータをレコメンドパラメータに決定する、分析支援装置。
請求項２に記載の分析支援装置であって、
表示装置を有し、
前記プロセッサは、前記類似事例を示す情報と、前記類似度と、前記レコメンドパラメータと、を前記表示装置に表示する、分析支援装置。
請求項２に記載の分析支援装置であって、
前記プロセッサは、
前記レコメンドパラメータを含み所定条件を満たす探索範囲のパラメータを探索し、
前記探索したパラメータのうち、当該探索したパラメータが適用された前記レコメンドパラメータに対応するモデルによって前記分析対象事例の目的変数を予測したときの当該モデルの評価値が最も高いパラメータを、ベストパラメータに決定する、分析支援装置。
請求項４に記載の分析支援装置であって、
前記プロセッサは、
前記算出した評価値と、前記類似事例の評価値と、の相関係数を算出し、
前記相関係数の絶対値が大きいほど前記探索範囲が小さくなるよう前記探索範囲を決定する、分析支援装置。
請求項４に記載の分析支援装置であって、
前記プロセッサは、前記ベストパラメータが適用された前記レコメンドパラメータに対応するモデルを前記分析対象事例に適用した分析結果を出力する、分析支援装置。
請求項１に記載の分析支援装置であって、
前記プロセッサは、前記分析対象事例を分析した前記一部のモデル及び当該モデルに適用されたパラメータの組み合わせと、前記算出した評価値と、を前記分析評価データに格納する、分析支援装置。
請求項１に記載の分析装置であって、
前記分析評価データは、前記分析済み事例においてモデルによって解かれた問題を示し、
前記プロセッサは、
前記分析対象事例データにおける、目的変数の要素数と、前記目的変数のデータ型と、前記目的変数の値の相対度数と、に基づいて、前記分析対象事例においてモデルによって解かれる問題を特定し、
前記分析評価データに含まれる前記予め定められた一部のモデル及びパラメータの組み合わせのうち、前記特定した問題に対応するモデル及びパラメータの組み合わせによって前記分析対象事例の目的変数を予測したときの当該モデルの評価値を算出する、分析支援装置。
分析支援装置による分析支援方法であって、
前記分析支援装置は、プロセッサとメモリとを有し、
前記メモリは、
分析対象事例の説明変数と目的変数とを示す分析対象事例データと、
分析済み事例を分析したモデル及び前記モデルに適用されたパラメータの組み合わせと、前記パラメータが適用されたモデルによって前記分析済み事例が分析されたときの当該モデルの評価値と、を示す分析評価データと、を保持し、
前記分析支援方法は、
前記プロセッサが、前記分析評価データに含まれる予め定められた一部のモデル及びパラメータの組み合わせを前記分析対象事例の説明変数に適用して前記分析対象事例の目的変数を予測したときの当該モデルの評価値を算出し、
前記プロセッサが、前記算出した評価値と、前記分析評価データが示す評価値それぞれと、を比較して類似度を算出し、
前記プロセッサが、前記算出した類似度に基づいて、前記分析対象事例に類似する分析済み事例である類似事例を特定する、分析支援方法。