JP2017058848A - 情報処理システム、情報処理方法、及び、プログラム - Google Patents

情報処理システム、情報処理方法、及び、プログラム Download PDF

Info

Publication number
JP2017058848A
JP2017058848A JP2015181945A JP2015181945A JP2017058848A JP 2017058848 A JP2017058848 A JP 2017058848A JP 2015181945 A JP2015181945 A JP 2015181945A JP 2015181945 A JP2015181945 A JP 2015181945A JP 2017058848 A JP2017058848 A JP 2017058848A
Authority
JP
Japan
Prior art keywords
learning model
construction process
algorithm
input data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015181945A
Other languages
English (en)
Inventor
大志 加藤
Hiroshi Kato
大志 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2015181945A priority Critical patent/JP2017058848A/ja
Publication of JP2017058848A publication Critical patent/JP2017058848A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】分析アルゴリズムの実行に時間がかかる場合でも、試行錯誤が妨げられない分析システムを提供する。
【解決手段】分析システム100は、指示受付部170、アルゴリズム実行部130、及び、結果出力部140を含む。指示受付部170は、ユーザの指示を受け付ける。アルゴリズム実行部130は、入力データに基づき、学習モデルを構築する。結果出力部140は、学習モデルの構築状況を逐次表示する。アルゴリズム実行部130は、指示受付部170が指示を受け付けると、学習モデルの構築を停止する。
【選択図】 図1

Description

本発明は、情報処理システム、情報処理方法、及び、プログラムに関し、特に、分析アルゴリズムを実行する情報処理システム、情報処理方法、及び、プログラムに関する。
データに対して分析アルゴリズムを実行し、データに係るモデルを生成する分析システムとして、分析者が分析アルゴリズムで用いるパラメータ(アルゴリズムパラメータ)等を修正しながらモデル生成を試行錯誤で行う、対話型の分析システムが知られている。このような対話型分析システムの一例が、特許文献1、非特許文献1に開示されている。
図12は、特許文献1、非特許文献1に開示されている、一般的な対話型の分析システム900の構成を示すブロック図である。図12を参照すると、一般的な対話型の分析システムは、データ入力部910、パラメータ入力部920、アルゴリズム実行部930、及び、結果表示部940を含む。
データ入力部910は、分析対象のデータの入力を受け付ける。パラメータ入力部920は、分析者からアルゴリズムパラメータの入力を受け付ける。アルゴリズム実行部930は、入力されたデータに対して、アルゴリズムパラメータを用いて分析アルゴリズムを実行する。結果表示部940は、分析アルゴリズムの実行結果を表示する。分析者は、表示された実行結果を参照して、アルゴリズムパラメータを修正する。アルゴリズム実行部930は、修正されたアルゴリズムパラメータを用いて分析アルゴリズムを再実行する。結果表示部940は、分析アルゴリズムの再実行の結果を表示する。分析者は、さらに、再実行の結果を参照してアルゴリズムパラメータを再修正する。このように、分析者は、分析アルゴリズムの実行、アルゴリズムパラメータ等の修正を繰り返すことにより、モデル生成における試行錯誤を行うことできる。
なお、関連技術として、非特許文献2、及び、非特許文献3には、データの同一のパターンや規則性を持つグループごとにモデルを生成する、異種混合学習技術が開示されている。また、他の関連技術として、特許文献2には、シミュレーション実行過程で生成される解析データを順次表示するシュミレーションシステムが開示されている。特許文献3には、複数モデルのシミュレーション過程を逐次表示するシミュレーションシステムが開示されている。
特許第4180540号公報 特許昭63−318664号公報 特許平07−036852号公報
Dong Hyun Jeong, et.al、「iPCA: An Interactive System for PCA-based Visual Analytics」、EuroVis'09 Proceedings of the 11th Eurographics、IEEE - VGTC conference on Visualization、p.767-774 藤巻遼平、森永聡、「ビッグデータ時代の最先端データマイニング」、NEC技報、Vol.65、No.2、2012年、p.81-85 Riki Eto, et al.、「Fully-Automatic Bayesian Piecewise Sparse Linear Models」、Proceedings of the 17th International Conference on Artificial Intelligence and Statistics (AISTATS), 2014年、p.238-246
大量のデータから複雑なパターンを発見するようなデータ分析においては、モデルの表現力を増やすために、例えば潜在変数の導入等が行われるため、分析アルゴリズムは複雑化し、探索型になる。このような分析アルゴリズムとして、例えば、EM(Expectation Maximization)アルゴリズムが知られている。探索型のアルゴリズムの演算は、一般に複雑であり、実行に時間がかかる。
上述の、特許文献1、非特許文献1に開示されているような一般的な対話型分析システムでは、分析アルゴリズムに時間がかかると、分析者は、アルゴリズムパラメータを修正して分析アルゴリズムを実行するたびに、実行結果を長時間待たなければならない。このため、モデル生成における試行錯誤が妨げられるという問題がある。
本発明の目的は、上述の課題を解決し、分析アルゴリズムの実行に時間がかかる場合でも試行錯誤を妨げない、情報処理システム、情報処理方法、及び、プログラムを提供することである。
本発明の情報処理システムは、ユーザの指示を受け付ける受付手段と、入力データに基づき、学習モデルを構築する構築手段と、前記学習モデルの構築状況を逐次表示する表示手段と、を備え、前記構築手段は、前記受付手段が前記指示を受け付けると、学習モデルの構築を停止する。
本発明の情報処理方法は、入力データに基づき、学習モデルを構築し、前記学習モデルの構築状況を逐次表示し、ユーザの指示を受け付けると、学習モデルの構築を停止する。
本発明のプログラムは、コンピュータに、入力データに基づき、学習モデルを構築し、
前記学習モデルの構築状況を逐次表示し、ユーザの指示を受け付けると、学習モデルの構築を停止する、処理を実行させる。
本発明の効果は、分析アルゴリズムの実行に時間がかかる場合でも、試行錯誤を妨げないことである。
本発明の第1の実施の形態の特徴的な構成を示すブロック図である。 本発明の第1の実施の形態における、分析システム100の構成を示すブロック図である。 本発明の実施の形態における、コンピュータにより実現された分析システム100の構成を示すブロック図である。 本発明の第1の実施の形態における、分析システム100の処理を示すフローチャートである。 本発明の第1の実施の形態における、入力データの例を示す図である。 本発明の第1の実施の形態における、アルゴリズムパラメータの例を示す図である。 本発明の第1の実施の形態における、画面141の例を示す図である。 本発明の第1の実施の形態における、モデル表示エリア144の表示内容の例を示す図である。 本発明の第1の実施の形態における、モデル表示エリア144の表示内容の他の例を示す図である。 本発明の第2の実施の形態における、分析システム100の構成を示すブロック図である。 本発明の第2の実施の形態における、途中結果格納部180に格納された分析アルゴリズムの途中結果の例を示す図である。 一般的な対話型の分析システム900の構成を示すブロック図である。
(第1の実施の形態)
はじめに、本発明の分析システム100が実行する分析アルゴリズム(以下、学習モデル構築処理とも記載)について説明する。
分析アルゴリズムは、入力されたデータに対して所定のモデル更新処理(以下、モデル更新ステップとも記載)を繰り返し、モデルパラメータの最適解を探索することで、学習モデル(以下、単にモデルとも記載)を生成(構築)する。このような分析アルゴリズムには、例えば、サポートベクタマシン、ニューラルネットワーク、EMアルゴリズム等が挙げられる。分析アルゴリズムにより生成されたモデルにより、データの予測、識別、分類等が行われる。
以下、本発明の実施の形態では、分析アルゴリズムとして、EMアルゴリズムを用いる場合を例に説明する。この場合、EMアルゴリズムとして、非特許文献2、非特許文献3に開示されているような、異種混合学習を利用してもよい。
なお、所定のモデル更新処理を繰り返すことによりモデルを生成するアルゴリズムであれば、分析アルゴリズムは、サポートベクタマシンや、ニューラルネットワーク等、EMアルゴリズム以外の他のアルゴリズムでもよい。
分析アルゴリズムには、モデルの生成対象(分析対象)である、データが入力される。例えば、EMアルゴリズムの入力データとして、複数の説明変数、及び、1以上の目的変数を含む属性値の集合が入力される。
分析アルゴリズムは、入力されたアルゴリズムパラメータ(以下、処理パラメータとも記載)に従って実行される。アルゴリズムパラメータは、分析アルゴリズムにより生成されるモデルの性能や、繰り返し処理の終了条件等、分析アルゴリズムの挙動を指定するパラメータである。例えば、EMアルゴリズムのアルゴリズムパラメータとして、モデルの性能を指定する「モデルの複雑さ」、「エラー許容度」、「モデルの集約度」や、繰り返し処理の終了条件を指定する「収束判定条件」、「最大繰り返し回数」が入力される。
分析アルゴリズムは、繰り返し処理の終了条件に達するまで、所定のモデル更新処理を繰り返す。各モデル更新処理では、分析アルゴリズムで定義される処理に従って、モデルパラメータが更新される。ここで、モデルパラメータは、例えば、モデルに係る所定のスコア関数の値が上昇するように(モデルパラメータが最適解に近づくように)更新される。そして、繰り返し処理の終了条件が満たされると、分析アルゴリズムは終了し、最終的なモデルパラメータが出力される。例えば、EMアルゴリズムでは、各モデル更新処理において、E(Expectation)ステップとM(Maximization)ステップとの組が実行される。Eステップでは、現在のパラメータに対して、潜在変数の事後確率である負担率が算出される。Mステップでは、現在の負担率に対して、モデルパラメータが算出される。モデルパラメータとしては、例えば、モデルとして生成される回帰式の回帰係数、及び、データの分布に係る混合係数等が出力される。
次に、本発明の第1の実施の形態の構成を説明する。
図2は、本発明の第1の実施の形態における、分析システム100の構成を示すブロック図である。分析システム100は、本発明の情報処理システムの一実施形態である。
分析システム100は、データ入力部110、データ格納部111、パラメータ入力部120、パラメータ格納部121、アルゴリズム実行部130、結果出力部140、途中結果抽出部150、制御部160、及び、指示受付部170を含む。
データ入力部110は、分析システム100を用いて分析を行う分析者等であるユーザから、分析対象のデータの入力を受け付ける。データの形式はアルゴリズムに依存する。データの形式は、例えば、実数の行列である。データをデータファイルとして入力する場合、データファイルの形式は、例えば、CSV(Comma-Separated Values)ファイルでもよい。
データ格納部111は、データ入力部110が受け付けたデータを格納する。データの入力が1回でも、分析アルゴリズムの再実行のたびに、データ格納部111に格納されたデータが、アルゴリズム実行部130により読み出される。
パラメータ入力部120は、ユーザから、アルゴリズムパラメータの入力を受け付ける。アルゴリズムパラメータは、例えば、key/value形式で記述される。アルゴリズムパラメータをデータファイルとして入力する場合、データファイルの形式は、例えば、YAMLファイルでもよい。
パラメータ格納部121は、パラメータ入力部120が受け付けたアルゴリズムパラメータを格納する。
アルゴリズム実行部130(以下、構築部とも記載)は、データ格納部111に格納されたデータに対して、パラメータ格納部121に格納されたアルゴリズムパラメータを用いて、分析アルゴリズムを実行する。分析アルゴリズムは、所定のモデル更新処理の繰り返しにより、モデルを生成(構築)する。
途中結果抽出部150は、分析アルゴリズムの各モデル更新処理が終了するたびに、当該モデル更新処理の処理結果(以下、途中結果とも記載)を抽出し、結果出力部140に出力する。ここで、途中結果として、モデル更新処理によって更新されるモデルパラメータ等のモデル情報が出力される。途中結果(モデル情報)は、モデルパラメータに加えて、潜在変数の値や負担率、スコア関数の値等、分析アルゴリズムの状態に係る他の情報を含んでいてもよい。各モデル更新処理において、途中結果がシリアライズ等されてファイルに保存される場合、途中結果抽出部150は当該ファイルを読み込むことにより、途中結果を抽出する。また、途中結果がメモリに保存される場合、途中結果抽出部150は、当該メモリの内容を読み込むことにより、途中結果を抽出する。
結果出力部140(以下、表示部とも記載)は、分析アルゴリズムの各モデル更新処理が終了するたびに、途中結果抽出部150から入力された途中結果を、モデルの構築状況として逐次出力(表示)する。ここで、結果出力部140は、例えば、途中結果に含まれる、更新されたモデルパラメータを出力(表示)する。分析アルゴリズムによっては、例えば、EMアルゴリズムのように、分析アルゴリズムの各モデル更新処理で得られるモデルパラメータの形式と分析アルゴリズムの終了時に得られるモデルパラメータの形式とは同一である。すなわち、モデルパラメータの構造が同じで、その構成要素である数値のみが異なる。また、結果出力部140は、途中結果として、更新されたモデルパラメータを用いて予測したデータの値と実測値を表示してもよい。また、結果出力部140は、途中結果に加えて、入力されたデータやアルゴリズムパラメータを表示してもよい。さらに、結果出力部140は、分析アルゴリズムの実行履歴を表示してもよい。
指示受付部170(以下、単に受付部とも記載)は、ユーザから、分析アルゴリズムの中断や再実行の指示の入力を受け付ける。
制御部160は、分析アルゴリズムの中断が指示された場合、アルゴリズム実行部130に、分析アルゴリズムを中断(停止)させる。また、制御部160は、分析アルゴリズムの再実行が指示された場合、アルゴリズム実行部130に、分析アルゴリズムを再実行させる。なお、再実行が指示される場合は、事前に、ユーザにより、データやアルゴリズムパラメータがパラメータ入力部120を介して修正される。
なお、分析システム100は、CPU(Central Processing Unit)とプログラムを記憶した記憶媒体を含み、プログラムにもとづく制御によって動作するコンピュータであってもよい。
図3は、本発明の実施の形態における、コンピュータにより実現された分析システム100の構成を示すブロック図である。
この場合、分析システム100は、CPU101、ハードディスクやメモリ等の記憶デバイス102(記憶媒体)、キーボード、ディスプレイ等の入出力デバイス103、及び、他の装置等と通信を行う通信デバイス104を含む。CPU101は、データ入力部110、パラメータ入力部120、アルゴリズム実行部130、結果出力部140、途中結果抽出部150、制御部160、及び、指示受付部170を実現するためのプログラムを実行する。記憶デバイス102は、データ格納部111、及び、パラメータ格納部121のデータを記憶する。入出力デバイス103は、ユーザからのデータ、アルゴリズムパラメータ、分析アルゴリズムの中断や再実行の指示を入力する。また、入出力デバイス103は、ユーザへ、途中結果を出力(表示)する。なお、通信デバイス104が、他の装置等からデータ、アルゴリズムパラメータを受信してもよい。また、通信デバイス104は、他の装置等へ、途中結果を送信してもよい。
また、分析システム100の各構成要素は、論理回路で実現されていてもよい。この場合、複数の構成要素が、1つの論理回路で実現されていてもよいし、それぞれ、複数の独立した論理回路で実現されていてもよい。
また、分析システム100の各構成要素は、有線または無線で接続された複数の物理的な装置に分散的に配置されていてもよい。この場合、分析システム100は、複数のコンピュータによる分散処理により実現されていてもよい。
次に、本発明の第1の実施の形態の動作について説明する。
図4は、本発明の第1の実施の形態における、分析システム100の処理を示すフローチャートである。
はじめに、データ入力部110は、ユーザから、分析対象のデータの入力を受け付ける(ステップS1)。ここで、データ入力部110は、入力されたデータを、結果出力部140を介して後述する画面141等により可視化して表示してもよい。また、データ入力部110は、画面141等において、ユーザからデータの加工や修正を受け付けてもよい。例えば、データ入力部110は、入力されたデータを表形式で表示し、分析アルゴリズムで用いるデータの選択、用いないデータの削除を、ユーザから受け付けてもよい。結果出力部140がデータをスプレッドシートとして処理できる場合、結果出力部140は、データの修正、行の追加や削除、列の追加や削除等の操作を、ユーザから受け付けてもよい。データ入力部110は、入力、修正されたデータをデータ格納部111に保存する。
図5は、本発明の第1の実施の形態における、入力データの例を示す図である。例えば、データ入力部110は、図5のようなデータの入力を受け付ける。
パラメータ入力部120は、ユーザから、アルゴリズムパラメータの入力を受け付ける(ステップS2)。ここで、パラメータ入力部120は、入力されたアルゴリズムパラメータを、結果出力部140を介して後述する画面141等により可視化して表示してもよい。また、データ入力部110は、画面141等において、ユーザからアルゴリズムパラメータの修正を受け付けてもよい。パラメータ入力部120は、入力、修正されたアルゴリズムパラメータをパラメータ格納部121に保存する。なお、分析アルゴリズムによっては、アルゴリズムパラメータの初期値が決まっていることがある。この場合、初期値のみを用いて分析アルゴリズムを実行するのであれば、アルゴリズムパラメータの入力は省略されてもよい。
図6は、本発明の第1の実施の形態における、アルゴリズムパラメータの例を示す図である。例えば、パラメータ入力部120は、図6のようなアルゴリズムパラメータの入力を受け付ける。
アルゴリズム実行部130は、分析アルゴリズムで繰り返し実行すべき所定のモデル更新処理(モデル更新ステップ)を1回(1ステップ)実行する(ステップS3)。ここで、アルゴリズム実行部130は、途中結果を、ファイル、または、メモリに出力する。分析アルゴリズムがモデル更新処理を1回実行するごとに停止可能である場合、分析アルゴリズムは一時停止する。
例えば、アルゴリズム実行部130は、図5のデータに対して、図6のアルゴリズムパラメータを用いて、EMアルゴリズムのEステップとMステップとの組を1回実行する。
途中結果抽出部150は、途中結果を抽出する(ステップS4)。ここで、途中結果抽出部150は、ファイル、または、メモリから途中結果を抽出し、結果出力部140に出力する。
結果出力部140は、途中結果を出力(表示)する(ステップS5)。ここで、結果出力部140は、途中結果をユーザが分かりやすい形式で表示する。
図7は、本発明の第1の実施の形態における、画面141の例を示す図である。図7の画面141は、データ表示エリア142、パラメータ表示エリア143、モデル表示エリア144、予測値表示エリア145、履歴表示エリア146、中断ボタン147、及び、再実行ボタン148を含む。
データ表示エリア142は、入力データの表示、編集のためのエリアである。図7の例では、データ表示エリア142に、入力データの値が表形式で表示されている。
パラメータ表示エリア143は、アルゴリズムパラメータの表示、編集のためのエリアである。図7の例では、パラメータ表示エリア143に、各アルゴリズムパラメータの値が表示されている。
モデル表示エリア144は、途中結果に含まれる、更新されたモデルパラメータを表示するためのエリアである。モデルが、例えば、ノードが接続されたネットワーク構造を含む場合、当該ネットワーク構造と、各ノードに係るパラメータが表示されてもよい。この場合、各ノードに係るパラメータは、ノードがマウスオーバされたときに表示されてもよい。図8、及び、図9は、本発明の第1の実施の形態における、モデル表示エリア144の表示内容の例を示す図である。図8の例は、非特許文献2、非特許文献3に記載されている異種混合学習によりモデルを生成する場合の例であり、モデルパラメータとして、回帰式を適用するグループを決定するための決定木と、各グループの回帰式が表示されている。図9の例は、ニューラルネットワークによりモデルを生成する場合の例であり、モデル表示エリア144に、モデルパラメータとして、ニューラルネットワークモデルにおけるノード間の重みが表示されている。
予測値表示エリア145は、途中結果に含まれる、更新されたモデルパラメータを用いて予測したデータの値を表示するためのエリアである。図7の例では、予測値表示エリア145に、モデルパラメータを用いて予測されたデータの値(予測値)と、実際のデータの値(実測値)とが、折れ線グラフで表示されている。
履歴表示エリア146は、分析アルゴリズムの実行履歴を表示するためのエリアである。図7の例では、履歴表示エリア146に、分析アルゴリズムの実行、再実行ごとに、分析アルゴリズムが中断されたか、終了したかを示す情報(状態)と、中断、あるいは、終了した時点のスコア関数の値(スコア)が表示されている。また、スコア関数の値だけでなく、分析アルゴリズムで用いたデータに対する誤差(学習誤差)や他のテストデータに対する誤差(テスト誤差)等、モデルに係る様々な指標が表示されていてもよい。これらの指標は、例えば、途中結果抽出部150等により、図示しない履歴格納部に格納される。そして、履歴表示エリア146が、これらの指標を、履歴格納部から取得して表示する。さらに、分析アルゴリズムの各実行、再実行ごとに、モデル更新処理による指標の変化の様子が、グラフ等により表示されてもよい。
例えば、結果出力部140は、図7のような画面141を表示する。
アルゴリズム実行部130は、分析アルゴリズムが終了したかどうかを判定する(ステップS6)。分析アルゴリズムの終了判定は、アルゴリズムの実装に依存する。例えば、EMアルゴリズムでは、スコア関数であるモデルの尤度の更新量が「収束判定条件」を満たした場合や、モデル更新処理の繰り返し回数が「最大繰り返し回数」に達した場合、分析アルゴリズムは終了する。
分析アルゴリズムが終了した場合(ステップS6/Y)、分析システム100の処理が終了する。また、分析アルゴリズムが終了した場合、ステップS1、または、S2からの処理が繰り返されてもよい。
分析アルゴリズムが終了していない場合(ステップS6/N)、指示受付部170は、ユーザから、分析アルゴリズムの中断の指示の入力を受け付ける(ステップS7)。
ユーザは、画面141に表示されたモデルパラメータ等をモニタし、実行中の分析アルゴリズムを中断すべきかどうかを判断する。
分析アルゴリズムでは、入力されたアルゴリズムパラメータやデータ、モデルパラメータの初期値等の条件により、モデルパラメータが、取りうると考えられる適切な値の範囲から外れた最適解に近づいていく可能性がある。ユーザはモデル表示エリア144上のモデルパラメータを確認し、例えば、モデル更新処理が繰り返されても、適切な値の範囲外にあり、ほとんど変化しないモデルパラメータを見つけることにより、このような状況を検出できる。この場合、ユーザは、最適解を得る前に分析アルゴリズムを中断し、別のアルゴリズムパラメータやデータで再実行することにより、試行錯誤を効率的に行うことができる。例えば、ユーザは、モデル表示エリア144において、決定木の各ノードに設定された条件や回帰式の回帰係数をもとに、分析アルゴリズムを中断すべきかどうかを判断する。
また、ユーザは、予測値表示エリア145上の予測値と実測値を示すグラフや、スコア関数の値、学習誤差、テスト誤差等の指標の値を確認し、実行中の分析アルゴリズムを中断すべきかどうかを判断してもよい。例えば、ユーザは、予測値表示エリア145のグラフを確認し、特定のデータセットに対する予測誤差が大きい場合に、分析アルゴリズムを中断すべきと判断してもよい。
ユーザは、分析アルゴリズムを中断する場合、例えば、画面141の中断ボタン147を押すことにより、中断を指示する。
所定時間以内に中断指示が入力されなかった場合(ステップS7/N)、制御部160は、アルゴリズム実行部130に、一時停止していた分析アルゴリズムの実行を再開させる。分析アルゴリズムの再開方法は、アルゴリズムの実装に依存する。例えば、制御部160は、分析アルゴリズムの一時停止を解除する関数を呼び出す、あるいは、分析アルゴリズムがチェックするフラグを設定することにより、分析アルゴリズムを再開させる。アルゴリズム実行部130は、ステップS3において、次のモデル更新処理(モデル更新ステップ)を実行する。
一方、所定時間以内に中断指示が入力された場合(ステップS7/Y)、制御部160は、アルゴリズム実行部130に、分析アルゴリズムを中断させる(ステップS8)。分析アルゴリズムの中断方法は、アルゴリズムの実装に依存する。例えば、アルゴリズム実行部130は、一時停止している分析アルゴリズムを完全停止する関数を呼び出す、あるいは、分析アルゴリズムがチェックするフラグを設定することにより、分析アルゴリズムを中断させる。
分析アルゴリズムの中断後、ステップS1、または、S2からの処理が繰り返される。すなわち、データ入力部110は、ステップS1において、ユーザから、入力データの修正を受け付ける。また、パラメータ入力部120は、ステップS2において、ユーザから、アルゴリズムパラメータの修正を受け付ける。
指示受付部170が、ユーザから分析アルゴリズムの再実行の指示の入力を受け付けた場合、制御部160は、アルゴリズム実行部130に分析アルゴリズムを再実行させる。アルゴリズム実行部130は、ステップS3において、修正されたデータやアルゴリズムパラメータを用いて、分析アルゴリズムを最初のモデル更新処理から再実行する。
例えば、ユーザは、画面141のパラメータ表示エリア143でアルゴリズムパラメータを修正し、再実行ボタン148を押すことにより、修正されたアルゴリズムパラメータを用いた分析アルゴリズムの再実行を指示する。
以降、ユーザは、分析アルゴリズムの途中に逐次出力される途中結果を確認しながら、必要に応じて、分析アルゴリズムの中断、アルゴリズムパラメータや入力データの修正、分析アルゴリズムの再実行を行うことにより、所望のモデルを生成する。
なお、上述の説明では、分析アルゴリズムが、モデル更新処理を1回実行するごとに一時停止する場合を例に説明した。しかしながら、分析アルゴリズムと分析アルゴリズムの操作に係る他の処理とが異なるOS(Operating System)プロセス等で並行に実行されている場合、分析アルゴリズムを一時停止することなく、モデル更新処理の繰り返しが継続されてもよい。この場合、制御部160は、中断指示が入力された場合に、分析アルゴリズムを実行するOSプロセスに処理を停止するためのシグナルを送信することにより、分析アルゴリズムを中断してもよい。
次に、本発明の第1の実施の形態の特徴的な構成を説明する。図1は、本発明の第1の実施の形態の特徴的な構成を示すブロック図である。
分析システム100(情報処理システム)は、指示受付部170(受付部)、アルゴリズム実行部130(構築部)、及び、結果出力部140(表示部)を含む。指示受付部170は、ユーザの指示を受け付ける。アルゴリズム実行部130は、入力データに基づき、学習モデルを構築する。結果出力部140は、学習モデルの構築状況を逐次表示する。アルゴリズム実行部130は、指示受付部170が指示を受け付けると、学習モデルの構築を停止する。
次に、本発明の第1の実施の形態の効果を説明する。
本発明の第1の実施の形態によれば、分析アルゴリズムの実行に時間がかかる場合でも、試行錯誤が妨げられない。その理由は、結果出力部140が、学習モデルの構築状況を逐次表示し、指示受付部170が指示を受け付けると、アルゴリズム実行部130が、学習モデルの構築を停止するためである。これにより、分析アルゴリズムの実行(学習モデルの構築)に時間がかかる場合でも、ユーザはその構築状況を確認でき、必要に応じて分析アルゴリズムを中断し、再実行できる。したがって、モデル生成における試行錯誤が妨げられることはない。
(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。
本発明の第2の実施の形態では、分析アルゴリズムの途中結果を過去の途中結果として格納し、分析アルゴリズムの再実行時に利用する点において、本発明の第1の実施の形態と異なる。
図10は、本発明の第2の実施の形態における、分析システム100の構成を示すブロック図である。本発明の第2の実施の形態の分析システム100は、本発明の第1の実施の形態の分析システム100の構成要素に加えて、途中結果格納部180を含む。
途中結果格納部180(以下、格納部とも記載)は、過去に実行、または、再実行された分析アルゴリズムで抽出された途中結果(過去の途中結果)を格納する。過去の途中結果としては、分析アルゴリズムが中断された場合については、例えば、中断された時点で途中結果抽出部150により抽出されていた最新の途中結果が格納される。分析アルゴリズムが中断されずに終了した場合については、分析アルゴリズムにおける最後のモデル更新処理の処理結果(以下、最終結果とも記載)が格納される。なお、過去の途中結果として、過去に実行された分析アルゴリズムにおける任意のモデル更新処理の処理結果が格納されてもよい。
図11は、本発明の第2の実施の形態における、途中結果格納部180に格納された分析アルゴリズムの途中結果の例を示す図である。図11に示すように、途中結果格納部180は、途中結果を、分析アルゴリズムで用いた入力データ、及び、アルゴリズムパラメータに関連付けて格納する。なお、入力データのサイズが大きい場合は、入力データの代わりに、一意性を保証される、入力データのハッシュ値を用いてもよい。また、途中結果は、上述のモデル情報に加えて、分析アルゴリズムの再開に必要な任意の情報を含んでいてもよい。
途中結果抽出部150は、上述のステップS4において、抽出した途中結果を途中結果格納部180に格納する。
制御部160は、アルゴリズム実行部130に分析アルゴリズムを再実行させる場合に、途中結果格納部180に格納されている過去の途中結果を検索する。ここで、制御部160は、過去の途中結果から、再実行で用いられる入力データ、及び、アルゴリズムパラメータと同じ入力データ、及び、アルゴリズムパラメータに関連づけられた途中結果を取得する。そして、制御部160は、アルゴリズム実行部130に、取得した途中結果を用いて分析アルゴリズムを再実行(再開)させる。
アルゴリズム実行部130は、分析アルゴリズムを再実行する場合に、制御部160から入力された途中結果(モデル情報)で示される、分析アルゴリズムの状態(モデルパラメータ、潜在変数の値や負担率等)を再現する。そして、再現された状態から、ステップS3におけるモデル更新処理を実行する。制御部160から入力された途中結果が最終結果である場合、アルゴリズム実行部130は、モデル更新処理の演算を行うことなく分析アルゴリズムを終了できる。
なお、アルゴリズムパラメータの種類によっては、そのアルゴリズムパラメータが変化しても、モデル更新処理ごとの途中結果は変わらない(途中結果に影響しない)ことがある。この場合、制御部160は、当該途中結果に影響しない種類のアルゴリズムパラメータが異なっていても、入力データ、及び、当該影響しない種類以外のアルゴリズムパラメータが同じであれば、途中結果を利用できる。例えば、最大繰り返し回数は、このような、途中結果に影響しないアルゴリズムパラメータである。
また、指示受付部170は、途中結果格納部180から取得した途中結果(モデル情報)の修正をユーザから受け付け、制御部160が、アルゴリズム実行部130に、当該修正した途中結果で分析アルゴリズムを再実行(再開)させてもよい。例えば、指示受付部170は、モデルパラメータのうちのいずれか(例えば、重み数値等)の修正を受け付け、制御部160は、修正されたモデルパラメータで分析アルゴリズムを再実行(再開)させてもよい。
次に、本発明の第2の実施の形態の効果を説明する。
上述の、特許文献1、非特許文献1に開示されているような一般的な対話型分析システムでは、分析アルゴリズムの実行に時間がかかると、分析アルゴリズムの試行回数に比例して分析全体の合計時間が増大するという課題があった。
本発明の第2の実施の形態によれば、分析アルゴリズムの実行に時間がかかる場合でも、分析全体にかかる合計時間の増大を抑制できる。その理由は、途中結果格納部180が分析アルゴリズムの途中結果を格納し、アルゴリズム実行部130が途中結果を用いて分析アルゴリズムを再実行するためである。これにより、既に実行済みのモデル更新処理の繰り返しが省略されるため、試行回数が増えても分析全体の合計時間の増大が抑えられる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
本発明は、データから規則を見つけたり、知識を発見したり、予測をしたり、最適化したりする等のデータ分析に広く適用できる。また、本発明は、分析アルゴリズムの途中結果が可視化して表示できることから、分析アルゴリズムの教育や研究といった用途にも適用できる。
100 分析システム
101 CPU
102 記憶デバイス
103 入出力デバイス
104 通信デバイス
110 データ入力部
111 データ格納部
120 パラメータ入力部
121 パラメータ格納部
130 アルゴリズム実行部
140 結果出力部
141 画面
142 データ表示エリア
143 パラメータ表示エリア
144 モデル表示エリア
145 予測値表示エリア
146 履歴表示エリア
147 中断ボタン
148 再実行ボタン
150 途中結果抽出部
160 制御部
170 指示受付部
180 途中結果格納部
900 分析システム
910 データ入力部
920 パラメータ入力部
930 アルゴリズム実行部
940 結果表示部

Claims (14)

  1. ユーザの指示を受け付ける受付手段と、
    入力データに基づき、学習モデルを構築する構築手段と、
    前記学習モデルの構築状況を逐次表示する表示手段と、
    を備え、
    前記構築手段は、前記受付手段が前記指示を受け付けると、学習モデルの構築を停止する、
    情報処理システム。
  2. 前記構築手段は、前記入力データに対して処理パラメータを用いてモデル更新処理を繰り返すことにより前記入力データに係る前記学習モデルを構築する学習モデル構築処理を実行し、前記学習モデル構築処理が実行されている過程において前記指示を受け付けると前記学習モデル構築処理を中断する、
    請求項1に記載の情報処理システム。
  3. さらに、前記学習モデル構築処理が中断された場合、または、前記学習モデル構築処理が終了した場合の、当該学習モデル構築処理におけるモデル更新処理の処理結果を、前記入力データ、及び、前記処理パラメータに関連付けて格納する、格納部を備え、
    前記構築手段は、新たな前記学習モデル構築処理を行う場合に、前記格納部に格納された当該新たな前記学習モデル構築処理の入力データ、及び、処理パラメータに対応する処理結果を用いて、当該新たな前記学習モデル構築処理を実行する、
    請求項2に記載の情報処理システム。
  4. さらに、前記処理パラメータの修正を受け付ける、パラメータ入力手段を備え、
    前記構築手段は、前記修正された前記処理パラメータを用いて、前記学習モデル構築処理を再実行する、
    請求項2、または、3に記載の情報処理システム。
  5. さらに、前記入力データの修正を受け付ける、データ入力手段を備え、
    前記実行手段は、前記修正された前記入力データを用いて、前記学習モデル構築処理を再実行する、
    請求項2乃至4のいずれかに記載の情報処理システム。
  6. 前記モデル更新処理は、前記モデルのモデルパラメータの更新を含み、
    前記モデル更新処理の処理結果は、前記更新されたモデルパラメータを含み、
    前記表示手段は、前記モデル更新処理の繰り返しごとに、前記更新されたモデルパラメータを表示する、
    請求項2乃至5のいずれかに記載の情報処理システム。
  7. 前記学習モデル構築処理は、EM(Expectation Maximization)アルゴリズムに従って、前記モデルパラメータを更新する、
    請求項6に記載の情報処理システム。
  8. 前記モデルパラメータは、回帰式の回帰係数、及び、回帰式を適用するグループを決定するための決定木を含み、
    前記表示手段は、前記モデル更新処理の繰り返しごとに、更新された前記回帰式の回帰係数、及び、決定木を表示する、
    請求項7に記載の情報処理システム。
  9. 入力データに基づき、学習モデルを構築し、
    前記学習モデルの構築状況を逐次表示し、
    ユーザの指示を受け付けると、学習モデルの構築を停止する、
    情報処理方法。
  10. 前記学習モデルを構築する場合、前記入力データに対して処理パラメータを用いてモデル更新処理を繰り返すことにより前記入力データに係る前記学習モデルを構築する学習モデル構築処理を実行し、
    前記学習モデル構築処理が実行されている過程において前記指示を受け付けると前記学習モデル構築処理を中断する、
    請求項9に記載の情報処理方法。
  11. さらに、前記学習モデル構築処理が中断された場合、または、前記学習モデル構築処理が終了した場合の、当該学習モデル構築処理におけるモデル更新処理の処理結果を、前記入力データ、及び、前記処理パラメータに関連付けて格納し、
    新たな前記学習モデル構築処理を行う場合に、前記格納された当該新たな前記学習モデル構築処理の入力データ、及び、処理パラメータに対応する処理結果を用いて、当該新たな前記学習モデル構築処理を実行する、
    請求項10に記載の情報処理方法。
  12. コンピュータに、
    入力データに基づき、学習モデルを構築し、
    前記学習モデルの構築状況を逐次表示し、
    ユーザの指示を受け付けると、学習モデルの構築を停止する、
    処理を実行させるプログラム。
  13. 前記学習モデルを構築する場合、前記入力データに対して処理パラメータを用いてモデル更新処理を繰り返すことにより前記入力データに係る前記学習モデルを構築する学習モデル構築処理を実行し、
    前記学習モデル構築処理が実行されている過程において前記指示を受け付けると前記学習モデル構築処理を中断する、
    処理を実行させる請求項12に記載のプログラム。
  14. さらに、前記学習モデル構築処理が中断された場合、または、前記学習モデル構築処理が終了した場合の、当該学習モデル構築処理におけるモデル更新処理の処理結果を、前記入力データ、及び、前記処理パラメータに関連付けて格納し、
    新たな前記学習モデル構築処理を行う場合に、前記格納された当該新たな前記学習モデル構築処理の入力データ、及び、処理パラメータに対応する処理結果を用いて、当該新たな前記学習モデル構築処理を実行する、
    処理を実行させる、請求項13に記載のプログラム。
JP2015181945A 2015-09-15 2015-09-15 情報処理システム、情報処理方法、及び、プログラム Pending JP2017058848A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015181945A JP2017058848A (ja) 2015-09-15 2015-09-15 情報処理システム、情報処理方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015181945A JP2017058848A (ja) 2015-09-15 2015-09-15 情報処理システム、情報処理方法、及び、プログラム

Publications (1)

Publication Number Publication Date
JP2017058848A true JP2017058848A (ja) 2017-03-23

Family

ID=58390270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015181945A Pending JP2017058848A (ja) 2015-09-15 2015-09-15 情報処理システム、情報処理方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP2017058848A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019021176A (ja) * 2017-07-20 2019-02-07 株式会社日立製作所 データ分析システム、及びデータ分析方法
WO2020044814A1 (ja) * 2018-08-27 2020-03-05 日本電気株式会社 モデル更新装置、モデル更新方法およびモデル更新プログラム
JP2020098547A (ja) * 2018-12-19 2020-06-25 富士通株式会社 情報処理装置、情報処理プログラムおよび情報処理システム
JP7185888B1 (ja) 2021-11-26 2022-12-08 株式会社Datafluct 情報処理システム、情報処理方法及び情報処理プログラム
JP7515322B2 (ja) 2020-07-08 2024-07-12 三菱電機株式会社 設定管理装置、設定管理方法、及び、設定管理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05250164A (ja) * 1992-03-04 1993-09-28 Hitachi Ltd 学習方法
JP2003058863A (ja) * 2001-08-21 2003-02-28 Bridgestone Corp ニューラルネットワークにおける学習方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05250164A (ja) * 1992-03-04 1993-09-28 Hitachi Ltd 学習方法
JP2003058863A (ja) * 2001-08-21 2003-02-28 Bridgestone Corp ニューラルネットワークにおける学習方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FUJITSU Sファミリー NEUROSIM(TM)/L V3 使用者の手引(階層型ニューラルネットワーク, vol. 初版, JPN6019031525, January 1995 (1995-01-01), pages 59 - 78, ISSN: 0004227051 *
RIKI ETO, RYOHEI FUJIMAKI, SATOSHI MORINAGA AND HIROSHI TAMANO: "Fully-Automatic Baysian Piecewise Sparse Linear Models", PROCEEDINGS OF THE 17TH INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND STATISTICS (AISTATS), vol. 33, JPN6019031528, 22 April 2014 (2014-04-22), pages 238 - 246, XP055671032, ISSN: 0004227053 *
日本語MS−DOS(R) NEUROSIM(TM)/L−860(階層型ニューラルネットワークシミュレータ)使, vol. 初版, JPN6019031526, January 1992 (1992-01-01), pages 31 - 34, ISSN: 0004227052 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019021176A (ja) * 2017-07-20 2019-02-07 株式会社日立製作所 データ分析システム、及びデータ分析方法
WO2020044814A1 (ja) * 2018-08-27 2020-03-05 日本電気株式会社 モデル更新装置、モデル更新方法およびモデル更新プログラム
JP2020098547A (ja) * 2018-12-19 2020-06-25 富士通株式会社 情報処理装置、情報処理プログラムおよび情報処理システム
JP7180362B2 (ja) 2018-12-19 2022-11-30 富士通株式会社 情報処理装置、情報処理プログラムおよび情報処理システム
JP7515322B2 (ja) 2020-07-08 2024-07-12 三菱電機株式会社 設定管理装置、設定管理方法、及び、設定管理プログラム
JP7185888B1 (ja) 2021-11-26 2022-12-08 株式会社Datafluct 情報処理システム、情報処理方法及び情報処理プログラム
JP2023079137A (ja) * 2021-11-26 2023-06-07 株式会社Datafluct 情報処理システム、情報処理方法及び情報処理プログラム

Similar Documents

Publication Publication Date Title
CN111652380B (zh) 针对机器学习算法进行算法参数调优的方法及系统
US11132602B1 (en) Efficient online training for machine learning
US10496436B2 (en) Method and apparatus for automatically scheduling jobs in computer numerical control machines using machine learning approaches
CN102902581B (zh) 硬件加速器及方法、中央处理单元、计算设备
JP2017058848A (ja) 情報処理システム、情報処理方法、及び、プログラム
CN113723613B (zh) 对量子电路进行模拟的方法及装置
US20160321160A1 (en) Translation Bug Prediction Classifier
JP6892424B2 (ja) ハイパーパラメータチューニング方法、装置及びプログラム
US20100275186A1 (en) Segmentation for static analysis
US10635078B2 (en) Simulation system, simulation method, and simulation program
EP4290351A1 (en) Environment modeling method and apparatus based on decision flow graph, and electronic device
CN115169568B (zh) 量子计算处理方法、装置及电子设备
Lazić Variable and single neighbourhood diving for MIP feasibility
WO2023231350A1 (zh) 利用整数规划求解器实现的任务处理方法、设备和介质
US20210075887A1 (en) Artificial intelligence-powered diagram-to-deployment converter
CN110909888A (zh) 泛型决策树构建方法、装置、设备及可读存储介质
JP2019219741A5 (ja)
JPH04205626A (ja) エキスパートシステム
US20200410296A1 (en) Selective Data Rejection for Computationally Efficient Distributed Analytics Platform
US10679162B2 (en) Self-organizing workflow
US20140310248A1 (en) Verification support program, verification support apparatus, and verification support method
JP7489275B2 (ja) 情報処理装置、情報処理システムおよび情報処理方法
JP2020198135A (ja) ハイパーパラメータチューニング方法、装置及びプログラム
US20180239640A1 (en) Distributed data processing system, and distributed data processing method
JP4926211B2 (ja) プロジェクト管理システム及びプロジェクト管理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190820

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200310