JP2022081335A

JP2022081335A - 予測規則校正システム、および予測規則校正方法

Info

Publication number: JP2022081335A
Application number: JP2020192808A
Authority: JP
Inventors: 博之難波; Hiroyuki Namba; 正史恵木; Masashi Egi; 真生濱本; Masanari Hamamoto; 正和高橋; Masakazu Takahashi
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2022-05-31
Also published as: US20220156602A1

Abstract

【課題】分類問題または回帰問題において、高精度であり、単純であり、なおかつ専門家の知識に整合するような予測規則を得ること。【解決手段】評価指標と制約とを用いて学習モデルの予測規則を単純化する予測規則単純化部と、予測値または特定の分岐条件に対する要請を表す校正情報に基づいて、単純化した予測規則の一部の分岐条件を更新する分岐条件探索部と、校正情報に基づいて、単純化した予測規則の一部の閾値を更新する閾値最適化部と、を有する。【選択図】図３

Description

本発明は、例えばセンサデータを用いて医療機器が良品であるか不良品であるかを判定するシステムにおいて、専門家が要請する条件に適合するように予測規則を部分的に修正するシステム、および方法に関する。

分類問題または回帰問題において、学習モデルの予測規則を明確にしたいという課題が挙げられる。例えば、センサデータを用いて医療機器が良品であるか不良品であるかを判定するシステムにおいて、学習モデルが不良品であると判断した理由がわからないと、学習モデルを信頼することができない。また、予測規則が単純なものであっても、専門家の知識と整合していないと学習モデルを信頼することができない。この課題に対し、従来技術では学習モデルの予測規則を単純な規則で近似したり、単純な規則の納得度が上がるように修正する方法が試みられている。例えば、特許文献１に記載の技術は、単純な規則を、特定のデータを正しく予測せよという条件を満たすように修正する技術である。

特開2000－155680号公報

分類問題または回帰問題において、学習モデルの予測規則は高精度であっても、不明瞭であったり、専門家の知識に整合しなかったりするために信頼できない場合がある。すなわち、本発明が解決しようとする課題は、高精度であり、単純であり、なおかつ専門家の知識に整合するような予測規則を得たいという課題である。

本発明は、高精度であり、単純であり、なおかつ専門家の知識に整合するような予測規則を得ることが可能な予測規則校正システム、および予測規則校正方法を提供することを目的とする。

本発明にかかる予測規則校正システムは、評価指標と制約とを用いて学習モデルの予測規則を単純化する予測規則単純化部と、予測値または特定の分岐条件に対する要請を表す校正情報に基づいて、前記単純化した予測規則の一部の分岐条件を更新する分岐条件探索部と、前記校正情報に基づいて、前記単純化した予測規則の一部の閾値を更新する閾値最適化部と、を有することを特徴とする予測規則校正システムとして構成される。

本発明によれば、高精度であり、単純であり、なおかつ専門家の知識に整合するような予測規則を得ることができる。

コンピュータのハードウェア構成例を示すブロック図である。学習データの例を示す図である。実施例1におけるシステム構成の例を示す図である。単純予測規則の例を示す図である。校正情報の例を示す図である。校正情報を入力する画面の例を示す図である。校正済単純予測規則を確認する画面の例を示す図である。実施例１における予測規則単純化部の処理フローを示す図である。実施例１における分岐条件探索部の処理フローを示す図である。実施例１における閾値最適化部の処理フローを示す図である。

以下、図面を参照して本発明の実施形態を説明する。以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施する事が可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。

図面において示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。

以下の説明では、「テーブル」、「リスト」等の表現にて各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されていてもよい。データ構造に依存しないことを示すために「ＸＸテーブル」、「ＸＸリスト」等を「ＸＸ情報」と呼ぶことがある。識別情報について説明する際に、「識別情報」、「識別子」、「名」、「ＩＤ」、「番号」等の表現を用いた場合、これらについてはお互いに置換が可能である。

同一あるいは同様な機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。

また、以下の説明では、プログラムを実行して行う処理を説明する場合があるが、プログラムは、プロセッサ（例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ））によって実行されることで、定められた処理を、適宜に記憶資源（例えばメモリ）および／またはインターフェースデバイス（例えば通信ポート）等を用いながら行うため、処理の主体がプロセッサとされてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であれば良く、特定の処理を行う専用回路（例えばＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）やＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ））を含んでいてもよい。

プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、以下の説明において、２以上のプログラムが１つのプログラムとして実現されてもよいし、１つのプログラムが２以上のプログラムとして実現されてもよい。

以下に本実施の形態にかかる予測規則校正システム、および予測規則校正方法を、センサデータを用いて医療機器が良品であるか不良品であるかを判定するシステムに適用した場合を例示しているが、医療機器以外の様々な機器あるいはその部品が、良品であるか不良品であるかを判定する場合について、広く適用することができる。

本発明の第１の実施形態として、学習データと、学習モデルと、校正情報をもとに、予測規則を計算する方式について説明する。本実施例では、まず、従来技術と同様に、学習モデルを単純な予測規則に変換する。さらに、専門家の知識を、予測値に対する要請または特定の予測規則に対する要請を記述した校正情報として入力し、校正情報を満たすように予測規則を部分的に修正する。具体的には、予測値に対する要請に対しては、予測規則の分岐条件の閾値を修正する。また、特定の予測規則に対する要請に対しては、要請対象である分岐条件を含む一部の予測規則の変更を行い、この校正を繰り返す。以下、図面を用いて具体的に説明する。

図１は、コンピュータのハードウェア構成例を示すブロック図である。コンピュータは、プロセッサ１０１と、記憶デバイス１０２と、入力デバイス１０３と、出力デバイス１０４と、通信インターフェース（通信ＩＦ）１０５と、を有する。プロセッサ１０１、記憶デバイス１０２、入力デバイス１０３、出力デバイス１０４、および通信ＩＦ１０５は、バス１０６により接続される。プロセッサ１０１は、コンピュータ１００を制御する。記憶デバイス１０２は、プロセッサ１０１の作業エリアとなる。また、記憶デバイス１０２は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス１０２としては、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリがある。入力デバイス１０３は、データを入力する。入力デバイス１０３としては、例えば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス１０４は、データを出力する。出力デバイス１０４としては、例えば、ディスプレイ、プリンタ、スピーカがある。通信ＩＦ１０５は、ネットワークと接続し、データを送受信する。通信ＩＦ１０５としては、例えば、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）がある。

図２は、実施例１にかかる学習データの一例を示す説明図である。学習データ２００は、１つ以上の説明変数と１つの目的変数の情報を含む。学習データ２００は、列として、例えば、説明変数を表す製造時の温度と、湿度と、圧力と、目的変数を表す不良品判定結果を有する。温度、湿度、圧力は、製造時の加工パラメータを表し、不良品判定結果は、０ならば良品、１ならば不良品であることを表す２値変数である。一行目のエントリーは、温度５０度、湿度６０％、圧力１００MPaで加工した際に得られた製品が良品であったことを表す。本実施例において、目的変数は２値としたが、例えば、製品のサイズといった連続値であってもよい。

学習モデル２１０は、学習データ２００の説明変数の値の組み合わせを入力すると、目的変数の予測値を出力するプログラムである。例えば、温度５５度、湿度６０％、圧力１００Mpaという説明変数の値の組み合わせを入力すると、目的変数の予測値として１、つまり不良品と予測という出力が得られるプログラムである。本実施例では、出力である目的変数の予測値は０または１の２値とするが、連続値であってもよい。

図３は、実施例１にかかる予測規則校正システム３００のシステム構成例を示すブロック図である。予測規則校正システム３００は、１以上のクライアント端末３０１と、ＤＢ（データベース）サーバ３０２と、予測規則校正装置３０３と、を有する。クライアント端末３０１、ＤＢサーバ３０２および予測規則校正装置３０３とは、インターネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などのネットワーク３０４を介して通信可能に接続される。クライアント端末３０１、ＤＢサーバ３０２、および予測規則校正装置３０３は、図１に示したコンピュータ１００により実現される。

ＤＢサーバ３０２は、学習データ２００および学習モデル２１０を記憶する。学習データ２００および学習モデル２１０は、予測規則校正装置３０３に記憶されていてもよい。

予測規則校正装置３０３は、データ取得部３３１と、予測規則単純化部３３２と、予測規則校正部３３３を有する。データ取得部３３１、予測規則単純化部３３２、予測規則校正部３３３は、具体的には、例えば、図１に示した記憶デバイス１０２に記憶されたプログラムをプロセッサ１０１に実行させることにより実現される機能である。

データ取得部３３１は、ＤＢサーバ３０２にアクセスして、ＤＢサーバ３０２から学習データ２００および学習モデル２１０を取得し、記憶デバイス１０２に記憶する。

予測規則単純化部３３２は、学習データ２００および学習モデル２１０をもとに、単純予測規則を生成するプログラムである。ここで、単純予測規則とは、学習モデル２００の一部または全部を木構造で単純化した予測規則を表す。単純予測規則の一例を図４に示す。単純予測規則のノードは分岐条件を表し、説明変数の組み合わせを入力すると、分岐先が決まる。分岐条件の右辺は実数とする。また、単純予測規則のリーフには、予測値または単純予測規則では予測困難であることを示すフラグが対応する。例えば、図４の単純予測規則において、学習データ１行目に示す温度５０度、湿度６０％、圧力１００MPaというデータは一番右のリーフにたどりつき、不良品判定結果が０、すなわち良品であると予測される。また、学習データ５行目に示す温度５３度、湿度５７％、圧力１０３MPaというデータは右から２番目のリーフにたどりつき、予測困難であると予想される。なお、単純予測規則の１つのノードを構成する変数の個数は、図４のように１つであってもよいし、複数あってもよい。例えば、温度÷圧力が０．５以上かというノードがあってもよい。また、リーフの予測値は図４のように２値であってもよいし、連続値であってもよい。また、単純予測規則の各ノードには、分岐条件IDが付与されている。リーフの値として予測困難を許可しないような単純予測規則は、一般的な決定木と一致する。特に、予測値が２値である場合には、２値分類問題に対する分類木と一致し、予測値が連続値である場合には、回帰木と一致する。

予測規則単純化部３３２が単純予測規則を生成する際には、あらかじめ評価指標と木構造に関する制約と予測困難なデータに関する制約を設定しておく。設定はクライアント端末３０１から事前に入力してもよいし、予測規則単純化部３３２内にハードコーディングされていてもよい。ここで、評価指標とは、２値分類の精度であってもよいし、回帰問題における二乗誤差であってもよい。ここで、単純予測規則の学習データ２００全体に対する評価指標を計算する際に、学習データの各行に対する予測値が必要になるが、予測困難なデータに対しては、予測値を計算することができない。このように予測困難なデータに対しては、もともとの学習モデル２１０を適用し、予測値を計算することができる。すなわち、単純予測規則と学習モデル２１０をセットで１つの予測モデルと考えることで、単純予測規則の学習データ２００全体に対する評価指標を計算することができる。また、木構造に関する制約とは、木の深さ、ノードを構成する変数の個数などである。例えば、木の深さが３以下であり、ノードを構成する変数の個数が１つであるという制約が挙げられる。また、予測困難なデータに関する制約とは、単純予測規則では予測困難なデータとなってしまうものについての制約である。例えば、予測規則なデータの割合は２０％以下にせよ、という制約、あるいは、特定のデータについては予測困難にするな、という制約が挙げられる。

予測規則単純化部３３２は、木構造に関する制約と予測困難なデータに関する制約を満たす中で、評価指標が最適となるような単純予測規則を探索する。予測規則単純化部３３２の処理フローの詳細は後述する。

予測規則校正部３３３は、単純予測規則と校正情報５００をもとに、校正済単純予測規則を計算するプログラムである。ここで、校正情報５００とは、単純予測規則の出力値または特定の分岐条件に対する修正要求を表す情報である。校正情報の例を図５に示す。校正情報は、１つ以上の校正条件要素からなる。校正条件要素は、図５における１行分を表す。校正条件要素は、校正のタイプおよび校正内容という属性を有する。校正のタイプとしては、以下の４種類のいずれかである。

１つめは、特定分岐条件に対する要求であって、含むべき特徴量を指定するタイプである。例えば、図５における１行目がこのタイプに該当する。このタイプを持つ校正条件要素の校正内容は、単純予測規則の分岐条件IDと、含むべき特徴量のリストを有する。例えば、図５における１行目では、2,{圧力}と指定しているが、これは、IDが２の分岐条件に対して、圧力という説明変数を含んでほしいという要求を表す。

２つめは、特定分岐条件に対する要求であって、含まないべき特徴量を指定するタイプである。例えば、図５における３行目がこのタイプに該当する。このタイプを持つ校正条件要素の校正内容は、単純予測規則の分岐条件IDと、含まないべき特徴量のリストを有する。例えば、図５における３行目では、3,{圧力}と指定しているが、これは、IDが３の分岐条件に対して、圧力という説明変数を含まないでほしいという要求を表す。

３つめは、特定分岐条件に対する要求であって、閾値の範囲を指定するタイプである。ここで、閾値とは、分岐条件の右辺の実数を表す。例えば、図５における４行目がこのタイプに該当する。このタイプを持つ校正条件要素の校正内容は、単純予測規則の分岐条件IDと、閾値が含まれるべき範囲を有する。例えば、図５における４行目では、1,[50,52]と指定しているが、これは、IDが１の分岐条件に対して、閾値が50以上52以下であってほしいという要求を表す。区間としては、開区間も指定可能とする。例えば、[50,53)と指定した場合、閾値が50以上53未満であってほしいという要求を表す。

４つめは、予測値に関する要求である。例えば、図５における２行目がこのタイプに該当する。このタイプを持つ校正条件要素の校正内容は、大小関係を表すペアのリストを有する。ペアの各要素は、全説明変数の値のリストまたは実数である。全説明変数の値のリストである場合は、その説明変数の値の場合の単純予測規則の予測値を表す。このタイプの校正条件要素は、ペアの第一要素が、第二要素以下であってほしいという要求を表す。例えば、図５における２行目では、[54,58,101],0と指定しているが、これは、温度が54度で、湿度が58％で、圧力が101Mpaの場合の単純予測規則の予測値が０以下であってほしいという要求を表す。本実施例においては、予測値は０または１であるので、予測値が０であってほしいという要求と等価である。このタイプの校正条件要素は、特定のデータについての予測値を指定したり、特定のデータについて目的変数値を正しく予測してほしいと指定したりするのに使うことができる。

予測規則校正部３３３は、校正情報取得部３３４と、分岐条件探索部３３５と、閾値最適化部３３６を有する。

校正情報取得部３３４は、予測規則単純化部３３２の出力である単純予測規則をクライアント端末に送付し、図６の例に示すような画面を表示し校正情報の入力を促し、クライアント端末３０１より入力された校正情報５００を取得し、分岐条件探索部３３５に出力するプログラムである。ここで、図６に示す校正情報を入力する画面は、現在の単純予測規則を表示する部分と、校正情報を入力する部分と、校正実行ボタンを有する。現在の単純予測規則を表示する部分には、予測規則単純化部３３２の出力である単純予測規則の木構造を表示する。合わせて、１つ以上の評価指標の値を表示する。評価指標としては、例えば、２値分類の精度、回帰問題における二乗誤差、あるいは予測困難なデータの割合などが挙げられる。

校正情報を入力する部分は、校正情報５００をクライアント端末３０１より入力することができる。例えば、校正のタイプ列は予測値または分岐条件からプルダウンで選択し、校正内容列は自由に入力可能であり、校正情報の行数を増やすボタンおよび減らすボタンを有する。また、校正のタイプ列が予測値であるような行については、校正内容列に全説明変数の値のリストを指定する際に、学習データ２００の特定の行を指定してもよい。すなわち、校正情報を入力する際に、学習データ２００の表を画面に表示し、その１行をユーザが指定することによって、校正内容列にその行の全説明変数の値が反映されるという方式でもよい。

また、校正実行ボタンを押すと、入力信号が予測規則校正装置３０３の校正情報取得部に送信される。

分岐条件探索部３３５は、校正情報取得部３３４から入力された単純予測規則に対して、校正情報を満たすように分岐条件を更新するためのプログラムである。なお、分岐条件探索部３３５で分岐条件を探索する際に、閾値最適化部３３６も活用する。

また、閾値最適化部３３６は、校正情報取得部３３４から入力された単純予測規則に対して、校正情報を満たすように閾値を更新するためのプログラムである。分岐条件探索部３３５および閾値最適化部３３６により校正済単純予測規則を計算する処理フローの詳細は後述する。

校正済単純予測規則は、クライアント端末３０１に送信され、図７の例に示すような画面に表示される。ここで、図７の例に示すように、校正済単純予測規則を確認する画面は、現在の単純予測規則を表示する部分と、前回校正情報を表示する部分と、校正を許容して確定するか決める校正確定ボタンと、校正情報を入力する部分と、校正実行ボタンを有する。現在の単純予測規則を表示する部分には、閾値最適化部３３６から送信された校正済単純予測規則を表示する。その際、前回の単純予測規則と今回の校正済単純予測規則の評価指標の推移を合わせて表示する。また、前回校正情報を表示する部分には、校正情報を入力する画面において前回入力した校正情報を表示する。その際、各校正情報の校正が達成されたかどうかを表す校正達成列を付加し表示する。また、校正情報を入力する部分と、校正実行ボタンは図６に示す校正情報を入力する画面と同様である。

校正確定ボタンは、前回の校正を許容して単純予測規則を更新するかどうかを決めるためのボタンである。評価指標と校正済単純予測規則を確認し、前回の校正を許容する場合は、校正確定ボタンを押下することで、単純予測規則が更新され、新しい単純予測規則をもとに、校正を繰り返すことができる。一方、前回の校正を許容しない場合は、校正確定ボタンを押下せず、再度校正情報を入力し、校正実行ボタンを押下することで、前回の単純予測規則の状態からもう一度校正をやり直すことができる。いずれの場合も、校正実行ボタンを押下すると、もととなる単純予測規則の情報が再度予測規則校正装置３０３に送信され、予測規則校正部３３３の処理が実行される。実行結果は再度、図７に示すような校正済単純予測規則を確認する画面としてクライアント端末３０１に表示される。以上のように、精度を維持しながら専門家の知識に整合するような予測規則を得るために、校正情報の入力操作、校正の実行処理、校正を確定する操作を繰り返すことができる。

次に、予測規則単純化部３３２および分岐条件探索部３３５および閾値最適化部３３６の処理フローを述べる。予測規則単純化部３３２の処理フローを図８に示す。以下、図８の各ステップの詳細を述べる。

ステップS１０１は、分岐条件の候補を列挙する処理である。例えば、予測規則単純化部３３２は、学習データ２００のすべての説明変数Xと、すべての閾値αに対して、X≧αという分岐条件の候補を列挙する。ここで、すべての閾値αとは、学習データ２００における説明変数Xのすべての値である。例えば、学習データ２００における圧力という説明変数が９５、１００、１０３の３通りである場合、予測規則単純化部３３２は、圧力に関する分岐条件としては、圧力≧９５、圧力≧１００、圧力≧１０３という３つの候補を列挙する。列挙した全体を分岐条件候補集合と呼ぶ。

ステップS１０２は、探索の初期状態を決定する処理である。具体的には、予測規則単純化部３３２は、分岐条件候補集合の要素をランダムにつなげて暫定木構造を作成する。その際、木構造に関する制約を満たすようにする。ランダムにつなげる、の具体的な方法としては、ランダムに１つの要素を抽出して深さ１の木とする、あるいは、ランダムにN個の要素を抽出して深さNのパスとする、などが挙げられる。探索における現時点の木を暫定木と呼ぶ。

ステップS１０３では、予測規則単純化部３３２は、暫定木における各リーフの予測値を最適な値に決定する。これは、一般的な決定木の作成方法と同様である。例えば、評価指標が二乗誤差である場合、予測規則単純化部３３２は、各リーフにたどりついたデータの目的変数の平均値を予測値とする。また、評価指標が多値分類の正解率である場合、予測規則単純化部３３２は、各リーフにたどりついたデータの目的変数の最頻値を予測値とする。

ステップS１０４では、予測規則単純化部３３２は、暫定木におけるリーフの一部の予測値を予測困難に設定する。これは、暫定木における各リーフの予測値を予測困難に変更する、つまり単純化していない学習モデル２１０に変更してブラックボックス化することで、評価指標を上げるためである。すなわち、予測規則単純化部３３２は、単純予測規則で予測できるデータの割合を犠牲にすることで、評価指標を上げる。具体的な処理としては、予測規則単純化部３３２は、予測困難なデータに関する制約を満たしながら、評価指標が最大になるようにする。例えば、制約を破る直前まで、予測困難に変更することで評価指標が最も上がるリーフから順に、変更していくという方法がある。

ステップS１０５からステップS１０７では、予測規則単純化部３３２は、暫定木を部分的に更新していきながら、評価指標の最適化を行う。

ステップS１０５では、予測規則単純化部３３２は、暫定木の更新方法を選択する。例えば、予測規則単純化部３３２は、分岐の追加、分岐の削除、分岐の交換の中から、ランダムに方法を選択する。ここで、分岐の追加は、ランダムに暫定木のリーフを選び、そのリーフの部分に、ランダムに選ばれた分岐条件候補集合の要素を追加する処理である。分岐の削除は、ランダムに暫定木の最も下位の分岐条件を削除し、リーフに置き換える処理である。分岐の交換は、暫定木の分岐をランダムに選び、その場所に、ランダムに選ばれた分岐条件候補集合の要素を追加する処理である。

ステップS１０６では、予測規則単純化部３３２は、選択した更新方法における評価指標を計算する。ステップS１０５で、暫定木の構造の更新方法が決定しているので、予測規則単純化部３３２は、ステップS１０３と同様にリーフの最適値を計算し、ステップS１０４と同様にリーフの一部を予測困難に変更し、その暫定木における評価指標を計算する。

ステップS１０７では、予測規則単純化部３３２は、ステップS１０６で計算した今回の評価指標と、更新前の暫定木の評価指標を比較し、暫定木を更新するかどうかを決定する。例えば、予測規則単純化部３３２は、今回の評価指標が更新前の評価指標よりも高ければ暫定木を更新し、そうでない場合には暫定木は前回のままとする。

ステップS１０８では、予測規則単純化部３３２は、指定実行時間未満かどうかを判定する。予測規則単純化部３３２は、指定実行時間未満であると判定する間は（S１０８；YES）、ステップS１０５からS１０７を繰り返し、暫定木の改善を続ける。一方、予測規則単純化部３３２は、指定実行時間以上になったと判定した場合は（S１０８；NO）、その時点の暫定木を、単純予測規則として出力する。ここで、予測規則単純化部の指定実行時間は、ハードコーディングされていてもよいし、予め分析者にクライアント端末３０１を通じて入力されたものを用いてもよい。

次に、分岐条件探索部３３５の処理フローを図９に示す。以下、図９の各ステップの詳細を述べる。ステップS２０１からステップ２０６までは、入力された校正情報５００の各行に対して行う。

ステップS２０１では、分岐条件探索部３３５は、処理対象である校正条件要素、すなわち校正情報５００の１行、のタイプが予測値であるかそうでないかを判定する。分岐条件探索部３３５は、予測値でないと判定した場合（S２０１；NO）、すなわち特定分岐条件に対する要求の場合にはステップS２０２に進む。一方、分岐条件探索部３３５は、予測値であると判定した場合には（S２０１；YES）、ステップS２０７に進む。

ステップS２０２実行時において、処理対象である校正条件要素のタイプは特定の分岐条件に関するものである。この場合、S２０２からS２０５では、分岐条件探索部３３５は、特定分岐条件に対する要求を満たす中で、評価指標が最大になるように、単純予測規則を更新する。具体的には、分岐条件探索部３３５は、S２０３で、処理対象である校正条件要素に基づいて、いくつかの分岐条件｛M_1,M_2,…｝を、別の分岐条件{N_1,N_2,…}に交換し、S２０４で閾値を最適化することを様々な交換に対して行い、最終的に評価指標が最も良いものを出力する。各ステップの詳細は以下の通りである。

ステップS２０２では、交換の候補を列挙する。例えば、分岐条件探索部３３５は、処理対象である校正条件要素の校正内容で指定されたIDを持つ分岐条件｛M_1｝のみを交換するとし、その交換先の候補{N_1}を列挙する。例えば、校正情報５００の１行目にあるように、分岐条件に圧力という変数を含んで欲しい場合、分岐条件探索部３３５は、圧力≧1００Mpa、圧力≧１０５Mpaなどの分岐条件を列挙する。具体的には、予測規則単純化部３３２で生成した分岐条件候補集合の中で、分岐条件に圧力という変数を含むものを全列挙することで実現できる。ステップS２０３からS２０５は、S２０２で列挙したすべての候補に対して行う。

ステップS２０３では、分岐条件探索部３３５は、処理対象の候補と、校正情報要素によって指定された分岐条件を交換する。例えば、図５に示す校正情報５００の１行目を処理している場合、分岐条件IDが２であるノードを、圧力≧100Mpaなどの新しい候補と交換する。

ステップS２０４では、S２０３の出力である暫定木を入力として、分岐条件探索部３３５は、閾値最適化部３３６を呼び出し、閾値を最適化する。閾値最適化部３３６の処理の詳細は後述する。

ステップS２０５では、分岐条件探索部３３５は、S２０３からS２０５での探索における最適解と最適値を更新する。具体的には、分岐条件探索部３３５は、現在の単純予測規則の評価指標である最適値E_0が、今回のS２０４で出力された単純予測規則の評価指標Eよりも悪ければ、最適値をEに更新し、最適解を今回のS２０４で出力された単純予測規則に更新する。そうでなければ、更新はしない。

すべての候補Aに対するループが終了したら、分岐条件探索部３３５は、最適解である単純予測規則を出力し、ステップS２０６に進む。

ステップS２０６では、分岐条件探索部３３５は、S２０５までに得た単純予測規則Tが、ここまでに処理した校正情報要素をすべて満たすかどうかを判定する。例えば、処理対象の校正条件要素が、校正情報５００の２行目である場合、分岐条件探索部３３５は、単純予測規則Tが校正情報５００の１行目と２行目の条件を満たすかどうかを判定する。分岐条件探索部３３５は、これらの条件を満たすと判定した場合には（S２０６；YES）、Tを最新の単純予測規則として、次の校正情報要素の処理に進む。一方、分岐条件探索部３３５は、これらの条件を満たさないと判定した場合は（S２０６；NO）、処理を終了する。その際、図７に示す画面表示に必要な、現在の単純予測規則Tと、Tが各校正情報要素を満たすかどうかを出力する。

ステップS２０７では、S２０４と同様に、分岐条件探索部３３５は、閾値最適化部３３６を呼び出し、最新の単純予測規則の閾値を最適化する。

次に、閾値最適化部３３６の処理フローを図１０に示す。閾値最適化部３３６では、単純予測規則における分岐条件の閾値変更を繰り返すことで、校正情報を満たしながら評価指標の高い単純予測規則を計算する。以下、図１０の各ステップの詳細を述べる。

ステップS３０１では、閾値最適化部３３６は、暫定木の分岐条件を選択して閾値を変更する。例えば、ランダムに分岐条件を１つ選択し、その閾値をランダムな値に変更する。閾値の変更量はランダムでなくても、あらかじめ決めていた一定量としてもよいし、閾値を変更することで評価指標が変動するという条件を満たす中で最小の量としてもよい。

ステップS３０２では、閾値最適化部３３６は、まず、ステップS３０１で決定した暫定木における各リーフの予測値を、ステップS１０３と同様にして再計算する。そして、ステップS１０４と同様にして、一部のリーフの予測困難に設定する。そして、暫定木における評価指標を計算する。

ステップS３０３では、閾値最適化部３３６は、暫定木を、ステップS３０２までで計算した木に更新するか、それとも更新しないかを判定し、必要なら更新する。判定の際には、校正情報５００と、評価指標を用いる。例えば、閾値最適化部３３６は、校正情報を満たし、評価指標が更新することで改善するならば、更新すると判定する。ここで、校正情報を満たすとは、現在処理している校正条件要素のみを満たすことを表しても良いし、現在までに処理したすべての校正条件要素を満たすことを表しても良い。

ステップS３０４では、閾値最適化部３３６は、終了条件を満たすかどうかを判定し、満たさないと判定した場合は（S３０４；NO）、再度ステップS３０１に戻り、満たすと判定した場合には（S３０４；YES）、閾値最適化処理を終了する。終了条件とは、例えば、ステップS３０４を実行した回数が一定値以上であるという条件でもよいし、閾値最適化部３３６の実行時間が一定時間以上であるという条件でもよい。

このように、本実施例によれば、予測規則校正システム１０００が、あらかじめ設定された評価指標と制約（例えば、木構造に関する制約と予測困難なデータに関する制約）とを用いて学習モデル２１０の予測規則を単純化する予測規則単純化部３３２と、予測値または特定の分岐条件に対する要請を表す校正情報５００に基づいて、単純化した予測規則の一部の分岐条件を更新する分岐条件探索部２２５と、校正情報に基づいて、単純化した予測規則の一部の閾値を更新する閾値最適化部３３６と、を有し、予測値に対する要請または特定の予測規則に対する要請を記述した校正情報を満たすような予測規則の微修正を繰り返すことによって、高精度であり、単純であり、なおかつ専門家の知識に整合するような予測規則を出力することができる。

本発明の第２の実施形態として、学習データと、校正情報をもとに、予測規則を計算する方式について説明する。本実施例は、実施例１と同様であるが、いくつかの点で異なる。

まず、本実施例では、入力として事前に準備した学習モデル２１０は用いない。この場合、学習モデルは、予測規則単純化部３３２実行前に、学習データを用いて一般的な方法で生成する。ここで、一般的な方法とは、ニューラルネットワーク、勾配ブースティング木、ランダムフォレストなどが挙げられる。いずれの手法も、分類問題の場合にも回帰問題の場合にも学習データから学習モデルを作成することができる。

また、閾値最適化部３３６のステップS３０１において、実施例１では暫定木の分岐条件をランダムに選択して閾値を変更していたが、本実施例では、閾値の変更対象を、校正条件要素によって指定された分岐条件の下位部分木のみとする。例えば、図４の単純予測規則において、分岐条件ID２に対する校正条件要素を処理する場合、閾値の変更対象は、分岐条件ID２または分岐条件ID３であるものに限定し、分岐条件ID１の閾値は変更しない。

このように、本実施例では、分岐条件探索部３３５と閾値最適化部３３６において、単純化した予測規則を更新する部分が、校正情報５００で指定された分岐条件の下位部分木に限定されている。これにより、暫定木が一定以上大きい場合でも、部分的に閾値を変更することができ、より効率よく校正条件要素を処理することができる。

また、分岐条件探索部３３５のステップS２０２において、実施例１では分岐条件の交換候補列挙する際、条件をみたすものを全列挙した。一方、本実施例では、条件を満たす分岐条件候補を、相関分析を用いてさらに限定し、探索の効率を上げる。例えば、特定の分岐条件に湿度という変数が含まれているが、含まないでほしいという校正条件要素を処理する場合、湿度を含まない分岐条件候補を全て探索するのではなく、湿度と相関が一定以上高い変数を含む分岐条件候補のみを探索する。例えば、湿度と他のすべての説明変数の相関係数を計算し、高いものK個を抽出し、そのK個のいずれかが含まれる分岐条件候補のみを探索する。K=1で、湿度ともっとも相関の高い他の説明変数が温度である場合、湿度を含む分岐条件の交換対象として、温度を含む分岐条件のみを列挙する。

このように、本実施例では、分岐条件探索部３３５において更新する部分が、校正情報５００で指定された分岐条件に限定されており、分岐条件探索部３３５において、更新前の分岐条件を構成する変数と相関の高い変数を抽出する処理を行うので、より効率的な探索を実行することができる。この場合、分岐条件探索部３３５と閾値最適化部３３６において、単純化した予測規則を更新する部分が、校正情報５００で指定された分岐条件の下位部分木に限定されることにより、上述のように、より効率よく校正条件要素を処理することができる。

また、本実施例では、図６および図７において現在の単純予測規則を提示する際に、分岐条件IDをクリックするたびに、その分岐条件に対応する付加的な情報を提示する。例えば、実システムの概要図と、その概要図において分岐条件を構成する変数が対応する場所を提示する。例えば、センサデータを用いて医療機器が良品であるか不良品であるかを判定するシステムにおいて、製造ラインの概要図とセンサの場所を表示する。また、分岐条件ID構成する変数が温度である場合、その温度を取得したセンサの場所を強調して提示する。

２００学習データ
２１０学習モデル
３０１クライアント端末
３０２ DBサーバ
３０３予測規則校正装置
３０４ネットワーク
３３１データ取得部
３３２予測規則単純化部
３３３予測規則校正部
３３４校正情報取得部
３３５分岐条件探索部
３３６閾値最適化部
５００校正情報

Claims

評価指標と制約とを用いて学習モデルの予測規則を単純化する予測規則単純化部と、
予測値または特定の分岐条件に対する要請を表す校正情報に基づいて、前記単純化した予測規則の一部の分岐条件を更新する分岐条件探索部と、
前記校正情報に基づいて、前記単純化した予測規則の一部の閾値を更新する閾値最適化部と、
を有することを特徴とする予測規則校正システム。
請求項１に記載の予測規則校正システムであって、
前記分岐条件探索部と前記閾値最適化部において、前記単純化した予測規則を更新する部分が、前記校正情報で指定された分岐条件の下位部分木に限定されている、
ことを特徴とする予測規則校正システム。
請求項１に記載の予測規則校正システムであって、
前記分岐条件探索部において更新する部分が、前記校正情報で指定された分岐条件に限定されており、
前記分岐条件探索部において、更新前の分岐条件を構成する変数と相関の高い変数を抽出する処理を行う、
ことを特徴とする予測規則校正システム。
請求項３に記載の予測規則校正システムであって、
前記分岐条件探索部と前記閾値最適化部において、前記単純化した予測規則を更新する部分が、前記校正情報で指定された分岐条件の下位部分木に限定されている、
ことを特徴とする予測規則校正システム。
コンピュータで行われる予測規則校正方法であって、
予測規則単純化部が、評価指標と制約とを用いて学習モデルの予測規則を単純化し、
分岐条件探索部が、予測値または特定の分岐条件に対する要請を表す校正情報に基づいて、前記単純化した予測規則の一部の分岐条件を更新し、
閾値最適化部が、前記校正情報に基づいて、前記単純化した予測規則の一部の閾値を更新する、
ことを特徴とする予測規則校正方法。
請求項５に記載の予測規則校正方法であって、
前記分岐条件探索部と前記閾値最適化部において、前記単純化した予測規則を更新する部分が、前記校正情報で指定された分岐条件の下位部分木に限定されている、
ことを特徴とする予測規則校正方法。
請求項５に記載の予測規則校正方法であって、
前記分岐条件探索部において更新する部分が、前記校正情報で指定された分岐条件に限定されており、
前記分岐条件探索部において、更新前の分岐条件を構成する変数と相関の高い変数を抽出する処理を行う、
ことを特徴とする予測規則校正方法。
請求項７に記載の予測規則校正方法であって、
前記分岐条件探索部と前記閾値最適化部において、前記単純化した予測規則を更新する部分が、前記校正情報で指定された分岐条件の下位部分木に限定されている、
ことを特徴とする予測規則校正方法。