JP7396505B2

JP7396505B2 - モデル生成プログラム、モデル生成方法及びモデル生成装置

Info

Publication number: JP7396505B2
Application number: JP2022545266A
Authority: JP
Inventors: 賢等々力; 理史新宮; 弘治丸橋
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2023-12-12
Anticipated expiration: 2040-08-31
Also published as: WO2022044335A1; EP4207006A4; EP4207006A1; JPWO2022044335A1; US20230196109A1

Description

本発明は、モデル生成技術に関する。

機械学習の進展に伴って高性能の分類器が得られる一方で、分類結果が得られた理由や根拠を人間が検証することが困難になっている側面がある。１つの側面として、結果に対する説明責任が問われるミッションクリティカルな分野にディープラーニング等の機械学習が実行されたモデルを適用するのに妨げになる場合がある。

例えば、分類結果が得られる理由や根拠を説明する技術の例として、機械学習モデルやデータの形式、機械学習モデルの構造に非依存であるＬＩＭＥ（Local Interpretable Model-agnostic Explainations）と呼ばれるアルゴリズムが提案されている。

ＬＩＭＥでは、データｘが入力された機械学習モデルｆが出力する分類結果を説明する際、データｘの近傍において機械学習モデルｆの出力との間で出力が局所的に近似する線形回帰モデルｇが機械学習モデルｆを解釈可能なモデルとして生成される。このような線形回帰モデルｇの生成には、データｘの特徴量の一部を変動させることにより得られる近傍データｚが用いられる。

Marco Tulio Ribeiro， Sameer Singh， Carlos Guestrin "Why Should I Trust You?"Explaining the Predictions of Any Classifier

しかしながら、上記のＬＩＭＥでは、近傍データを生成可能なデータ形式として、表や画像、テキストといった形式のデータしかサポートされていない。それ故、グラフデータの近傍データを作成する場合、オリジナルのグラフデータに対して偏って分布した近傍データが生成される場合がある。このような近傍データを用いたとしても、説明対象とする機械学習モデルに近似する線形回帰モデルを生成するのは困難であるので、グラフデータを入力とする機械学習モデルにＬＩＭＥを適用する妨げとなる。

１つの側面では、オリジナルのデータに対して一様に分布した近傍データを用いて線形回帰モデルを生成するためのモデル生成プログラム、モデル生成方法及びモデル生成装置を提供することを目的とする。

一態様のモデル生成プログラムは、第１のデータを変更して複数のデータを生成し、前記第１のデータと前記複数のデータのそれぞれとの距離を示す複数の値を算出し、前記複数の値に基づいて、前記第１のデータと前記複数のデータのそれぞれとの距離の分布の一様性を示す値が閾値以上か否かを判定し、前記一様性を示す値が前記閾値以上であると判定された場合、前記複数のデータを機械学習モデルに入力して得られた結果を目的変数として、前記複数のデータを説明変数として、線形回帰モデルを生成する、処理をコンピュータに実行させる。

オリジナルのデータに対して一様に分布した近傍データの生成を実現できる。

図１は、実施例１に係るサーバ装置の機能的構成の一例を示すブロック図である。図２は、ＬＩＭＥのアルゴリズムを模式的に示す図である。図３は、近傍データの一例を示す図である。図４は、近傍データの一例を示す図である。図５は、近傍データの分布の一例を示す図である。図６は、近傍データの分布の一例を示す図である。図７は、実施例１に係るモデル生成処理の手順を示すフローチャート（１）である。図８は、実施例１に係るモデル生成処理の手順を示すフローチャート（２）である。図９は、近傍データの分布の一例を示す図である。図１０は、近傍データの分布の一例を示す図である。図１１は、コンピュータのハードウェア構成例を示す図である。

以下に添付図面を参照して本願に係るモデル生成プログラム、モデル生成方法及びモデル生成装置について説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

図１は、実施例１に係るサーバ装置１０の機能的構成の一例を示すブロック図である。図１に示すシステム１は、１つの側面として、説明対象とするオリジナルのグラフデータからＬＩＭＥの線形回帰モデルを生成するモデル生成機能を提供するものである。なお、図１には、上記のモデル生成機能がクライアントサーバシステムで提供される例を挙げるが、この例に限定されず、スタンドアロンで上記のデータ生成機能が提供されることとしてもよい。

図１に示すように、システム１には、サーバ装置１０と、クライアント端末３０とが含まれ得る。サーバ装置１０及びクライアント端末３０は、ネットワークＮＷを介して通信可能に接続される。例えば、ネットワークＮＷは、有線または無線を問わず、インターネットやＬＡＮ（Local Area Network）などの任意の種類の通信網であってよい。

サーバ装置１０は、上記のモデル生成機能を提供するコンピュータの一例である。サーバ装置１０は、モデル生成装置の一例に対応し得る。一実施形態として、サーバ装置１０は、上記のモデル生成機能を実現するデータ生成プログラムを任意のコンピュータにインストールさせることによって実装できる。例えば、サーバ装置１０は、上記のモデル生成機能をオンプレミスに提供するサーバとして実装することができる。この他、サーバ装置１０は、ＳａａＳ（Software as a Service）型のアプリケーションとして実装することで、上記のモデル生成機能をクラウドサービスとして提供してもよい。

クライアント端末３０は、上記のモデル生成機能の提供を受けるコンピュータの一例である。例えば、クライアント端末３０には、パーソナルコンピュータなどのデスクトップ型のコンピュータなどが対応し得る。これはあくまで一例に過ぎず、クライアント端末３０は、ラップトップ型のコンピュータや携帯端末装置、ウェアラブル端末などの任意のコンピュータであってよい。

上記の背景技術の欄で説明した通り、ＬＩＭＥでは、データｘが入力された機械学習モデルｆが出力する分類結果を説明する際、データｘの近傍において機械学習モデルｆの出力との間で出力が局所的に近似する線形回帰モデルｇが機械学習モデルｆを解釈可能なモデルとして生成される。

図２は、ＬＩＭＥのアルゴリズムを模式的に示す図である。図２には、あくまで一例として、２次元の特徴量空間が模式的に示されている。さらに、図２には、２次元の特徴量空間のうちクラスＡに対応する領域が白地で示されると共に、クラスＢに対応する領域がハッチングで示されている。さらに、図２には、オリジナルのデータｘが太字の「＋」で示されている。さらに、図２には、オリジナルのデータｘからされた近傍データｚを機械学習モデルｆへ入力することにより得られたラベルがクラスＡである近傍データｚが「＋」で示されている一方でラベルがクラスＢである近傍データｚが「●」で示されている。さらに、図２には、オリジナルのデータｚおよび近傍データｚが距離関数Ｄ（ｘ，ｚ）およびカーネル関数π_ｘ（ｚ）に入力されたサンプル重みπ_ｘが「＋」または「●」の大きさで表現されている。さらに、図２には、機械学習モデルｆに近似された線形回帰モデルの回帰直線ｇ（ｘ）が破線で示されている。

あくまで一例として、ＬＩＭＥのアルゴリズムでは、下記のステップＳ１～下記のステップＳ６の手順にしたがって機械学習モデルｆの出力の説明が行われる。

Ｓ１：近傍データｚの生成
Ｓ２：近傍データｚの機械学習モデルｆへの入力
Ｓ３：距離Ｄの算出
Ｓ４：サンプル重みπ_ｘの算出
Ｓ５：線形回帰モデルｇの生成
Ｓ６：偏回帰係数の計算

これを具体的に説明すると、オリジナルの入力インスタンスであるデータｘの特徴量の一部を変動させることにより、特定のサンプル数、例えば１００～１００００といった規模で近傍データｚが生成される（ステップＳ１）。このように生成された近傍データｚが説明対象とする機械学習モデルｆへ入力されることにより機械学習モデルｆの出力を得る（ステップＳ２）。例えば、タスクがクラス分類である場合、機械学習モデルから各クラスの予測確率が出力される。また、タスクがリグレッションである場合、数値に対応する予測値が出力される。その後、オリジナルのデータｘおよび近傍データｚを距離関数Ｄ（ｘ，ｚ）に入力することにより距離Ｄが得られる（ステップＳ３）。例えば、機械学習モデルｆへの入力がテキストデータである場合には、ｃｏｓ類似度等を用いたり、機械学習モデルｆへの入力が画像データである場合には、Ｌ２ノルム等を用いたりすることができる。

続いて、ステップＳ３で得られた距離Ｄと共にカーネル幅σを下記の式（１）で例示されるカーネル関数π_ｘ（ｚ）へ入力することによりサンプル重みπ_ｘを得る（ステップＳ４）。その上で、近傍データの特徴量を説明変数とし、近傍データの出力を目的変数として、線形回帰モデルで近似することにより線形回帰モデルｇが生成される（ステップＳ５）。例えば、Ｒｉｄｇｅ回帰では、下記の式（２）で例示される目的関数ξ（ｘ）が用いられる。すなわち、データｘの近傍における機械学習モデルｆおよび線形回帰モデルｇの出力について下記の式（３）の通りに定義される損失関数Ｌ（ｆ，ｇ，π_ｘ）と線形回帰モデルｇの複雑さΩ（ｇ）との和を最小にする線形回帰モデルｇを求める目的関数ξ（ｘ）が解かれる。その後、線形回帰モデルｇの偏回帰係数を計算することにより機械学習モデルｆの出力への特徴量の寄与度が出力される（ステップＳ６）。

ステップＳ６で出力される特徴量の寄与度は、機械学習モデルの出力の理由や根拠を分析する側面で有用である。例えば、機械学習が実行されることにより得られた訓練済みの機械学習モデルが訓練データの偏りなどが一因となって生成される粗悪な機械学習モデルであるか否かを識別できる。これにより、粗悪な機械学習モデルがミッションクリティカルな領域で利用されるのを抑制できる。また、訓練済みの機械学習モデルの出力に誤りがある場合、当該誤りが出力された理由や根拠を提示できる。他の側面として、ステップＳ６で出力される特徴量の寄与度は、機械学習モデルやデータの形式、あるいは機械学習モデルの構造が異なる機械学習モデル同士を同一のルールで比較できる面で有用である。例えば、同一のタスクに用意された複数の訓練済みの機械学習モデルのうちいずれの訓練済みの機械学習モデルが本質的に優れているのかといった機械学習モデルの選定が可能となる。

ここで、上記の背景技術の欄で説明した通り、ＬＩＭＥは、グラフデータへの適用が困難な側面がある。すなわち、ＬＩＭＥでは、近傍データを生成可能なデータ形式として、表や画像、テキストといった形式のデータをサポートするライブラリのＡＰＩ（Application Programming Interface）しか公開されていない。

このような現状、グラフデータの近傍データを作成する場合、オリジナルのグラフデータに対して偏って分布した近傍データが生成される場合がある。このような近傍データを用いたとしても、説明対象とする機械学習モデルに近似する線形回帰モデルを生成するのは困難であるので、グラフデータを入力とする機械学習モデルにＬＩＭＥを適用する妨げとなる。

例えば、グラフデータを入力とする機械学習モデルの例として、ＧＮＮ（Graph Neural Network）やグラフカーネル関数などが挙げられるが、これらＧＮＮモデルやグラフカーネルモデルなどにＬＩＭＥを適用することは困難である。これらＧＮＮモデルやグラフカーネルモデルのうち、ＧＮＮモデルには、ＧＮＮモデルへ入力されるグラフの各エッジがＧＮＮモデルの出力に寄与する寄与度を出力するＧＮＮＥｘｐｌａｉｎｅｒを適用することも考えられる。ところが、ＧＮＮＥｘｐｌａｉｎｅｒは、ＧＮＮモデルに特化した技術であるので、グラフカーネルモデルやその他の機械学習モデルへの適用は困難である。あらゆるタスクで決定的に性能が高い機械学習モデルが存在しない現状、適用可能なタスクが限定されるＧＮＮＥｘｐｌａｉｎｅｒは、スタンダードになり得ない。

以上のことから、本実施例に係るモデル生成機能は、グラフデータを入力とする機械学習モデルにも適用可能なＬＩＭＥの拡張を実現する側面から、オリジナルのグラフデータに対して一様に分布した近傍データの生成を実現する。

図３及び図４は、近傍データの一例を示す図である。図３及び図４には、図２に示す２次元の特徴量空間が示されている。さらに、図３には、線形回帰モデルｇの生成に望ましい近傍データｚが示される一方で、図４には、線形回帰モデルｇの生成に望ましくない近傍データｚが示されている。図３に示す近傍データｚは、機械学習モデルｆが入力を想定しているデータ、例えば機械学習モデルｆの訓練時に用いられた訓練データの中に類似するものが存在するデータである。さらに、オリジナルのデータｘの近傍に分布する近傍データｚの割合も高い。このような近傍データｚは、オリジナルのデータｘの近傍においてクラスＡおよびクラスＢの識別境界を区別しやすいので、線形回帰モデルｇの生成に向いている。一方、図４に示す近傍データｚは、近傍データｚ１、ｚ２およびｚ３に例示される通り、機械学習モデルｆが入力を想定していないデータ、例えば機械学習モデルｆの訓練時に用いられた訓練データの中に類似するものが存在しないデータが含まれる。さらに、オリジナルのデータｘの近傍に分布する近傍データｚの割合も低い。このような近傍データｚは、オリジナルのデータｘの近傍においてクラスＡおよびクラスＢの識別境界を区別しにくいので、線形回帰モデルｇの生成に不向きである。

ＬＩＭＥのＡＰＩでサポートされる表や画像、テキストといった形式のデータであれば、図３に示す近傍データが生成されやすい一方で、ＬＩＭＥのＡＰＩでサポートされないグラフデータの場合、図４に示す近傍データが生成されやすい一面がある。

加えて、グラフデータから近傍データが生成される場合、オリジナルのデータの近傍に分布するデータが生成されたとしても、ＬＩＭＥのＡＰＩでサポートされるデータに比べて、オリジナルのデータに対する近傍データの分布が偏りやすい。

図５及び図６は、近傍データの分布の一例を示す図である。図５及び図６に示すグラフの縦軸は、近傍データの数を指し、グラフの横軸は、オリジナルのデータと近傍データの距離Ｄを指す。図５に示すように、近傍データがオリジナルのデータの近傍で偏りが少なく、一様に分布する場合、説明対象とする機械学習モデルに近似する線形回帰モデルを生成できる。一方、図６に示すように、近傍データがオリジナルのデータの近傍で一様でなく、近傍の一部に偏って分布する場合、線形回帰モデルの生成に用いる近傍データのバリエーションが不足しやすい。このため、説明対象とする機械学習モデルに近似する線形回帰モデルを生成するのが困難である。この場合、機械学習モデルｆの出力への特徴量の寄与度を算出する精度が低下する。

このようにオリジナルのグラフデータに対して偏って分布した近傍データが生成されることを低減できるモデル生成機能を有するサーバ装置１０の機能的構成について説明する。図１には、サーバ装置１０が有する機能に対応するブロックが模式化されている。図１に示すように、サーバ装置１０は、通信インタフェイス部１１と、記憶部１３と、制御部１５とを有する。なお、図１には、上記のモデル生成機能に関連する機能部が抜粋して示されているに過ぎず、図示以外の機能部、例えば既存のコンピュータがデフォルトまたはオプションで装備する機能部がサーバ装置１０に備わることとしてもよい。

通信インタフェイス部１１は、他の装置、例えばクライアント端末３０との間で通信制御を行う通信制御部の一例に対応する。あくまで一例として、通信インタフェイス部１１は、ＬＡＮカードなどのネットワークインターフェイスカードにより実現される。例えば、通信インタフェイス部１１は、クライアント端末３０からＬＩＭＥアルゴリズムの実行に関するリクエストを受け付ける。また、通信インタフェイス部１１は、ＬＩＭＥアルゴリズムの実行結果である特徴量の寄与度をクライアント端末３０へ出力したりする。

記憶部１３は、各種のデータを記憶する機能部である。あくまで一例として、記憶部１３は、ストレージ、例えば内部、外部または補助のストレージにより実現される。例えば、記憶部１３は、グラフデータ群１３Ｇと、モデルデータ１３Ｍとを記憶する。これらグラフデータ群１３Ｇ及びモデルデータ１３Ｍ以外にも、記憶部１３は、上記のモデル生成機能の提供を受けるユーザのアカウント情報などの各種のデータを記憶することができる。

グラフデータ群１３Ｇは、複数のノードと複数のノード間を接続する複数のエッジとを含むデータの集合である。例えば、グラフデータ群１３Ｇに含まれるグラフデータは、機械学習モデルの訓練時に用いられる訓練データであってもよいし、訓練済みの機械学習モデルに入力される入力データであってもよい。また、グラフデータ群１３Ｇに含まれるグラフデータは、隣接行列やテンソルなどの任意の形式であってよい。

モデルデータ１３Ｍは、機械学習モデルに関するデータである。例えば、機械学習モデルがニューラルネットワークである場合、モデルデータ１３Ｍには、機械学習モデルを形成する入力層、隠れ層及び出力層の各層のニューロンやシナプスなどの機械学習モデルの層構造を始め、各層の重みやバイアスなどの機械学習モデルのパラメータが含まれ得る。なお、モデルの機械学習が実行される前の段階では、機械学習モデルのパラメータの一例として、乱数により初期設定されたパラメータが記憶される一方で、モデルの機械学習が実行された後の段階では、訓練済みのパラメータが保存される。

制御部１５は、サーバ装置１０の全体制御を行う処理部である。例えば、制御部１５は、ハードウェアプロセッサにより実現される。図１に示すように、制御部１５は、設定部１５Ａと、第１生成部１５Ｂと、動作部１５Ｃと、第１算出部１５Ｄと、判定部１５Ｅと、第２生成部１５Ｆと、第２算出部１５Ｇを有する。

設定部１５Ａは、ＬＩＭＥアルゴリズムの実行に関する各種の設定を受け付ける。１つの側面として、設定部１５Ａは、クライアント端末３０からＬＩＭＥアルゴリズムの実行に関するリクエストを受け付けた場合、処理を起動できる。この際、設定部１５Ａは、説明対象とするオリジナルのグラフデータｘや機械学習モデルｆの指定をクライアント端末３０を介して受け付けることができる。この他、設定部１５Ａは、訓練中または訓練済みの機械学習モデルの出力、例えばラベルや数値が不正解である訓練データまたは入力データの中から自動的に選択することもできる。このように取得対象のオリジナルのグラフデータや機械学習モデルが識別された後、設定部１５Ａは、記憶部１３に記憶されたグラフデータ群１３Ｇのうち取得対象のオリジナルのグラフデータｘやモデルデータ１３Ｍのうち所得対象の機械学習モデルｆを取得する。

その上で、設定部１５Ａは、ＬＩＭＥアルゴリズムが用いる距離関数Ｄ（ｘ，ｚ）およびカーネル幅σを設定する。これら距離関数Ｄ（ｘ，ｚ）およびカーネル幅σには、上記のモデル生成機能の開発者等により行われたシステム設定を自動的に適用してもよいし、クライアント端末３０からユーザ設定を受け付けることとしてもよい。このような距離関数Ｄ（ｘ，ｚ）には、グラフカーネルなどのグラフデータ用の距離関数等を設定できる。例えば、グラフ分割に基づく距離、隣接行列・接続行列の編集距離、ｃｏｓ類似度に基づく距離などが挙げられる。この他の例として、Random walk kernels、shortest path、graphlet kernel、Weisfeiler－Lehmen kernels、GraphHopper kernel、Graph convolutional networks、Neural message passing、GraphSAGE、SplineCNN、k-GNNなどが挙げられる。

第１生成部１５Ｂは、オリジナルのグラフデータｘから近傍データｚを生成する。ここで、近傍データの生成には、任意の手法を適用することができるが、あくまで一例として、第１生成部１５Ｂは、表データ向けの近傍データを生成するライブラリを公開するＬＩＭＥのＡＰＩを利用して近傍データを生成できる。例えば、第１生成部１５Ｂは、グラフデータの表現方法のあくまで一例として、隣接行列が用いられる場合を例に挙げる。この場合、隣接行列の要素を特徴量としてみなして表データ用のＬＩＭＥのＡＰＩを適用する。具体的には、隣接行列の要素の０または１の値をランダムに反転することにより、元の隣接行列とは異なる隣接行列を作成する。

このような近傍データの生成は、次のような条件を満たすまで繰り返される。あくまで一例として、第１生成部１５Ｂは、これまでに生成された近傍データの総数のうち、機械学習モデルｆの出力が正例に対応する近傍データ数と、機械学習モデルｆの出力が負例に対応する近傍データ数との差を算出する。そして、第１生成部１５Ｂは、正例および負例の近傍データ数の差が閾値以下であるか否かを判定する。このとき、正例および負例の近傍データ数の差が閾値以下でない場合、正例および負例が均等でないと識別できる。この場合、第１生成部１５Ｂは、近傍データの生成を繰り返す。例えば、第１生成部１５Ｂは、正例または負例の近傍データ数のいずれかが閾値、例えばＮ_ｍａｘ／２＋δ／２に達している場合、当該閾値に達していない不足側の正例または負例の近傍データを生成する。一方、第１生成部１５Ｂは、いずれも閾値に達していない場合、近傍データをランダムに生成する。また、正例および負例の近傍データ数の差が閾値以下である場合、正例および負例が均等であると識別できる。この場合、第１生成部１５Ｂは、近傍データの総数が閾値、例えばＮ_ｍａｘ以に達しているか否かを判定する。そして、近傍データの総数が閾値Ｎ_ｍａｘに達していない場合、近傍データの総数が線形回帰モデルの生成に不十分であることを識別できる。この場合、第１生成部１５Ｂは、近傍データの生成を繰り返す。一方、近傍データの総数が閾値Ｎ_ｍａｘに達している場合、近傍データの総数が線形回帰モデルの生成に十分であることを識別できる。この場合、近傍データの生成は終了する。

動作部１５Ｃは、機械学習モデルｆの動作を制御する。１つの側面として、動作部１５Ｃは、第１生成部１５Ｂにより近傍データｚが生成された場合、当該近傍データｚを機械学習モデルｆへ入力することにより機械学習モデルｆからの出力を得る。

第１算出部１５Ｄは、オリジナルのグラフデータｘと近傍データｚとの距離を算出する。１つの側面として、第１算出部１５Ｄは、説明対象とするオリジナルのグラフデータｘおよび第１生成部１５Ｂにより生成された近傍データｚを設定部１５Ａにより設定された距離関数Ｄ（ｘ，ｚ）に入力することにより距離Ｄを算出する。

判定部１５Ｅは、オリジナルのグラフデータｘと複数の近傍データｚとの距離の分布に基づいて、複数の距離の分布の一様性を示す値が閾値以上か否かを判定する。例えば、距離の一様性の判定のあくまで一例として、カイ２乗検定等を用いることができる。なお、上記の一様性を示す値の代わりに偏り度合い、あるいはばらつき度合いを示す値を判定に用いることもできる。

カイ２乗検定によれば、一次元のＮ個の疑似乱数列ｘ₀，ｘ₁，・・・ｘ_(n-1)が一様な疑似乱数列であるか否かは、その度数分布が等確率性の性質があるかどうかを検定することにより確かめることができる。例えば、疑似乱数列ｘ₀，ｘ₁，・・・ｘ_(n-1)がとる値の範囲をｋ個の等間隔な区間に分類することにより、各区間内の乱数の個数｛ｆ₁，ｆ₂，・・・，ｆ_k｝を得る。このとき、疑似乱数列ｘ₀，ｘ₁，・・・ｘ_(n-1)が一様であれば、Ｘ^２統計量は、下記の式（４）の通り、漸近的に自由度（ｋ－１）のＸ^２分布に近づく。

ここで、帰無仮説Ｈ₀を次のように設定する。例えば、帰無仮説Ｈ₀として、疑似乱数列は一様であるという仮説を設定する。このような帰無仮説Ｈ₀の下、ｘ^２統計量に対して、Ｘ^２ _ｋ－１（α）を自由度（ｋ－１）のＸ^２分布の信頼係数α点（α＝０．０５，有意水準５％など）としたき、以下のように判断する。なお、ここでは、有意水準の一例として、５％を例に挙げたが、他の値、例えば１０％等であってもよい。
Ｘ^２≦Ｘ^２ _ｋ－１（α）：帰無仮説Ｈ₀は採択され、疑似乱数列は一様であるとする。
Ｘ^２＞Ｘ^２ _ｋ－１（α）：帰無仮説Ｈ₀は棄却され、疑似乱数列は一様でないとする。

以上のことから、カイ２乗の統計量Ｘ^２が有意水準以下である場合、すなわち帰無仮説Ｈ₀が採択される場合、距離の一様性検定が合格であると識別できる。一方、カイ２乗の統計量Ｘ^２が有意水準以下でない場合、すなわち帰無仮説Ｈ₀が棄却される場合、距離の一様性検定が不合格であると識別できる。

ここで、距離の一様性検定が不合格となった累積回数が閾値、例えば失敗の上限値Ｆａｉｌ_ｍａｘ未満である場合、距離関数Ｄ（ｘ，ｚ）やカーネル幅σの設定から再試行させる。この際、設定部１５Ａは、カーネル幅σに関する設定をレコメンドしたり、カーネル幅σを自動設定したりすることもできる。すなわち、カーネル幅σは、検定時の近傍データの分散状況に基づいて調整されても良い。

第２生成部１５Ｆは、複数の近傍データを機械学習モデルｆに入力して得られた結果を目的変数として、複数の近傍データを説明変数として、線形回帰モデルを生成する。あくまで一例として、第２生成部１５Ｆは、上記の式（２）で例示される目的関数ξ（ｘ）にしたがって線形回帰モデルｇを生成できる。すなわち、データｘの近傍における機械学習モデルｆおよび線形回帰モデルｇの出力について上記の式（３）の損失関数Ｌ（ｆ，ｇ，π_ｘ）と線形回帰モデルｇの複雑さΩ（ｇ）との和を最小にする線形回帰モデルｇを求める目的関数ξ（ｘ）を最適化することにより、線形回帰モデルｇを得ることができる。

第２算出部１５Ｇは、機械学習モデルｆの出力への特徴量の寄与度を算出する。あくまで一例として、第２算出部１５Ｇは、第２生成部１５Ｆにより生成された線形回帰モデルｇの偏回帰係数を計算することにより、機械学習モデルｆの出力への特徴量の寄与度を算出できる。このようにして得られた特徴量の寄与度は、クライアント端末３０へ出力することができる。

図７及び図８は、実施例１に係るモデル生成処理の手順を示すフローチャートである。この処理は、あくまで一例として、クライアント端末３０からＬＩＭＥアルゴリズムの実行に関するリクエストを受け付けた場合に開始される。

図７に示すように、設定部１５Ａは、説明対象とするオリジナルのグラフデータｘや機械学習モデルｆの指定をクライアント端末３０を介して受け付ける（ステップＳ１０１）。続いて、設定部１５Ａは、ステップＳ１０１で指定を受け付けた説明対象のオリジナルのグラフデータｘや機械学習モデルｆを取得する（ステップＳ１０２）。

そして、設定部１５Ａは、ＬＩＭＥアルゴリズムが用いる距離関数Ｄ（ｘ，ｚ）およびカーネル幅σを設定する（ステップＳ１０３）。続いて、第１生成部１５Ｂは、ステップＳ１０２で取得されたオリジナルのグラフデータｘから近傍データｚを生成する（ステップＳ１０４）。

その後、動作部１５Ｃは、ステップＳ１０４で生成された近傍データｚを機械学習モデルｆへ入力することにより機械学習モデルｆからの出力を得る（ステップＳ１０５）。続いて、第１算出部１５Ｄは、ステップＳ１０２で取得されたオリジナルのグラフデータｘおよびステップＳ１０４で生成された近傍データｚをステップＳ１０３で設定された距離関数Ｄ（ｘ，ｚ）に入力することにより距離Ｄを算出する（ステップＳ１０６）。

そして、第１生成部１５Ｂは、正例および負例の近傍データ数の差が閾値以下であるか否かを判定する（ステップＳ１０７）。このとき、正例および負例の近傍データ数の差が閾値以下でない場合（ステップＳ１０７Ｎｏ）、正例および負例が均等でないと識別できる。この場合、ステップＳ１０４へ移行する。すなわち、第１生成部１５Ｂは、正例または負例の近傍データ数のいずれかが閾値、例えばＮ_ｍａｘ／２＋δ／２に達していれば、当該閾値に達していない不足側の正例または負例の近傍データを生成し、いずれも閾値に達していない場合、近傍データをランダムに生成する。

また、正例および負例の近傍データ数の差が閾値以下である場合（ステップＳ１０７Ｙｅｓ）、正例および負例が均等であると識別できる。この場合、第１生成部１５Ｂは、近傍データの総数が閾値、例えばＮ_ｍａｘ以に達しているか否かを判定する（ステップＳ１０８）。

そして、近傍データの総数が閾値Ｎ_ｍａｘに達していない場合（ステップＳ１０８Ｎｏ）、近傍データの総数が線形回帰モデルの生成に不十分であることを識別できる。この場合、第１生成部１５Ｂは、ステップＳ１０４へ移行し、近傍データの生成を繰り返す。

一方、近傍データの総数が閾値Ｎ_ｍａｘに達している場合（ステップＳ１０８Ｙｅｓ）、近傍データの総数が線形回帰モデルの生成に十分であることを識別できる。この場合、図８に示すように、判定部１５Ｅは、ステップＳ１０２で取得されたオリジナルのグラフデータｘと、ステップＳ１０４の繰り返しにより得られた複数の近傍データｚとの各距離に基づいて、距離の一様性の検定、例えばカイ２乗の統計量Ｘ^２の算出を行う（ステップＳ１１０）。

ここで、ステップＳ１１０の検定でカイ２乗の統計量Ｘ^２が有意水準以下である場合、すなわち帰無仮説Ｈ₀が採択される場合（ステップＳ１１１Ｙｅｓ）、距離の一様性検定が合格であると識別できる。この場合、第２生成部１５Ｆは、複数の近傍データを機械学習モデルｆに入力して得られた結果を目的変数として、複数の近傍データを説明変数として、線形回帰モデルを生成する（ステップＳ１１２）。

その後、第２生成部１５Ｆにより生成された線形回帰モデルｇの偏回帰係数を計算することにより、機械学習モデルｆの出力への特徴量の寄与度を算出する（ステップＳ１１３）。そして、ステップＳ１１３で算出された特徴量の寄与度に対する説明ＯＫの確認操作が行われた場合（ステップＳ１１４Ｙｅｓ）、処理を終了する。なお、ステップＳ１１３で算出された特徴量の寄与度に対する説明ＮＧの確認操作が行われた場合（ステップＳ１１４Ｎｏ）、ステップＳ１０３の処理へ戻る。

なお、ステップＳ１１０の検定でカイ２乗の統計量Ｘ^２が有意水準以下でない場合、すなわち帰無仮説Ｈ₀が棄却される場合（ステップＳ１１１Ｎｏ）、距離の一様性検定が不合格であると識別できる。この場合、距離の一様性検定が不合格となった累積回数が閾値、例えば失敗の上限値Ｆａｉｌ_ｍａｘ未満である場合（ステップＳ１１５Ｙｅｓ）、距離関数Ｄ（ｘ，ｚ）やカーネル幅σの設定から再試行させる。この際、距離の一様性検定が不合格となった際に用いられていた距離関数とは異なる距離関数を自動的に設定したり、異なる距離関数のレコメンドをクライアント端末３０に出力したりすることもできる。一方、距離の一様性検定が不合格となった累積回数が閾値に達した場合（ステップＳ１１５Ｎｏ）、近傍データの生成の再試行を打ち切ってステップＳ１１２へ移行する。

上述してきたように、本実施例に係るモデル生成機能は、オリジナルのグラフデータと、複数の近傍データとの距離の分布が一様である場合、複数の近傍データから機械学習モデルに局所近似する線形回帰モデルを生成する。例えば、図６に示すように、近傍データｚがオリジナルのグラフデータｘの近傍で一様でなく、近傍の一部に偏って分布する場合、線形回帰モデルの生成を抑制できる。一方、図５に示すように、近傍データｚがオリジナルのグラフデータｘの近傍で偏りが少なく、一様に分布する場合、線形回帰モデルを生成できる。したがって、本実施例に係るモデル生成機能によれば、グラフデータに適用可能なＬＩＭＥの拡張を実現できる。

さらに、本実施例に係るモデル生成機能は、正例および負例の近傍データ数の差が閾値以下であるか否かに応じて線形回帰モデルを生成するか否かが制御される。図９及び図１０は、近傍データの分布の一例を示す図である。図９及び図１０に示すグラフの縦軸は、π_ｘ（Ｚ）を指す。また、グラフの横軸は、距離Ｄ（ｘ，ｚ）を指す。ここで、機械学習モデルｆの出力が正例である近傍データｚの距離Ｄと、機械学習モデルｆの出力が負例である近傍データｚの距離Ｄとがグラフの縦軸を対称に分けてプロットされている。例えば、図９に示すように、正例の近傍データ数と負例の近傍データ数とが均等でない場合、線形回帰モデルの生成を抑制できる。一方、図１０に示すように、正例の近傍データ数と負例の近傍データ数とが均等である場合、線形回帰モデルを生成できる。

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、設定部１５Ａ、第１生成部１５Ｂ、動作部１５Ｃ、第１算出部１５Ｄ、判定部１５Ｅ、第２生成部１５Ｆまたは第２算出部１５Ｇをサーバ装置１０の外部装置としてネットワーク経由で接続するようにしてもよい。また、設定部１５Ａ、第１生成部１５Ｂ、動作部１５Ｃ、第１算出部１５Ｄ、判定部１５Ｅ、第２生成部１５Ｆまたは第２算出部１５Ｇを別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記のサーバ装置１０の機能を実現するようにしてもよい。

また、実施例１及び実施例２で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１０を用いて、実施例１及び実施例２と同様の機能を有するモデル生成プログラムを実行するコンピュータの一例について説明する。

図１０は、コンピュータのハードウェア構成例を示す図である。図１０に示すように、コンピュータ１００は、操作部１１０ａと、スピーカ１１０ｂと、カメラ１１０ｃと、ディスプレイ１２０と、通信部１３０とを有する。さらに、このコンピュータ１００は、ＣＰＵ１５０と、ＲＯＭ１６０と、ＨＤＤ１７０と、ＲＡＭ１８０とを有する。これら１１０～１８０の各部はバス１４０を介して接続される。

ＨＤＤ１７０には、図１０に示すように、上記の実施例１で示した設定部１５Ａ、第１生成部１５Ｂ、動作部１５Ｃ、第１算出部１５Ｄ、判定部１５Ｅ、第２生成部１５Ｆ及び第２算出部１５Ｇと同様の機能を発揮するモデル生成プログラム１７０ａが記憶される。このモデル生成プログラム１７０ａは、図１に示した設定部１５Ａ、第１生成部１５Ｂ、動作部１５Ｃ、第１算出部１５Ｄ、判定部１５Ｅ、第２生成部１５Ｆ及び第２算出部１５Ｇの各構成要素と同様、統合又は分離してもかまわない。すなわち、ＨＤＤ１７０には、必ずしも上記の実施例１で示した全てのデータが格納されずともよく、処理に用いるデータがＨＤＤ１７０に格納されればよい。

このような環境の下、ＣＰＵ１５０は、ＨＤＤ１７０からモデル生成プログラム１７０ａを読み出した上でＲＡＭ１８０へ展開する。この結果、モデル生成プログラム１７０ａは、図１０に示すように、モデル生成プロセス１８０ａとして機能する。このモデル生成プロセス１８０ａは、ＲＡＭ１８０が有する記憶領域のうちモデル生成プロセス１８０ａに割り当てられた領域にＨＤＤ１７０から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、モデル生成プロセス１８０ａが実行する処理の一例として、図７～図８に示す処理などが含まれる。なお、ＣＰＵ１５０では、必ずしも上記の実施例１で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。

なお、上記のモデル生成プログラム１７０ａは、必ずしも最初からＨＤＤ１７０やＲＯＭ１６０に記憶されておらずともかまわない。例えば、コンピュータ１００に挿入されるフレキシブルディスク、いわゆるＦＤ、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させる。そして、コンピュータ１００がこれらの可搬用の物理媒体から各プログラムを取得して実行するようにしてもよい。また、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１００に接続される他のコンピュータまたはサーバ装置などに各プログラムを記憶させておき、コンピュータ１００がこれらから各プログラムを取得して実行するようにしてもよい。

１０サーバ装置
１１通信インタフェイス部
１３記憶部
１３Ｇグラフデータ群
１３Ｍモデルデータ
１５制御部
１５Ａ設定部
１５Ｂ第１生成部
１５Ｃ動作部
１５Ｄ第１算出部
１５Ｅ判定部
１５Ｆ第２生成部
１５Ｇ第２算出部
３０クライアント端末

Claims

第１のデータを変更して複数のデータを生成し、
前記第１のデータと前記複数のデータのそれぞれとの距離を示す複数の値を算出し、
前記複数の値に基づいて、前記第１のデータと前記複数のデータのそれぞれとの距離の分布の一様性を示す値が閾値以上か否かを判定し、
前記一様性を示す値が前記閾値以上であると判定された場合、前記複数のデータを機械学習モデルに入力して得られた結果を目的変数として、前記複数のデータを説明変数として、線形回帰モデルを生成する、
処理をコンピュータに実行させることを特徴とするモデル生成プログラム。
前記算出する処理は、前記距離を示す複数の値をグラフカーネル関数に基づいて算出する処理を含む請求項１に記載のモデル生成プログラム。
前記判定する処理は、前記複数のデータを前記機械学習モデルに入力して得られた結果に含まれる第１の値の数と第２の値の数の差が閾値以下か否かをさらに判定する処理を含み、
前記線形回帰モデルを生成する処理は、前記第１の値の数と前記第２の値の数の差が前記閾値以下であると判定された場合、前記線形回帰モデルの生成を実行する処理を含む請求項１に記載のモデル生成プログラム。
前記複数のデータを生成する処理は、前記一様性を示す値が前記閾値より小さい場合、新たなデータを生成して前記複数のデータに追加する処理を含み、
前記判定する処理は、前記第１のデータと前記新たなデータが追加された前記複数のデータのそれぞれとの距離の分布の一様性を示す値が閾値以上か否かをさらに判定する処理を含む請求項１に記載のモデル生成プログラム。
前記算出する処理は、前記一様性を示す値が前記閾値より小さい場合、前記距離を示す複数の値の算出に用いる距離関数を変更する処理を含む請求項１に記載のモデル生成プログラム。
前記複数のデータに含まれる特徴量の前記機械学習モデルの出力への寄与度として、前記線形回帰モデルの偏回帰係数を算出する処理を前記コンピュータにさらに実行させる請求項１に記載のモデル生成プログラム。
第１のデータを変更して複数のデータを生成し、
前記第１のデータと前記複数のデータのそれぞれとの距離を示す複数の値を算出し、
前記複数の値に基づいて、前記第１のデータと前記複数のデータのそれぞれとの距離の分布の一様性を示す値が閾値以上か否かを判定し、
前記一様性を示す値が前記閾値以上であると判定された場合、前記複数のデータを機械学習モデルに入力して得られた結果を目的変数として、前記複数のデータを説明変数として、線形回帰モデルを生成する、
処理をコンピュータが実行することを特徴とするモデル生成方法。
第１のデータを変更して複数のデータを生成し、
前記第１のデータと前記複数のデータのそれぞれとの距離を示す複数の値を算出し、
前記複数の値に基づいて、前記第１のデータと前記複数のデータのそれぞれとの距離の分布の一様性を示す値が閾値以上か否かを判定し、
前記一様性を示す値が前記閾値以上であると判定された場合、前記複数のデータを機械学習モデルに入力して得られた結果を目的変数として、前記複数のデータを説明変数として、線形回帰モデルを生成する、
処理を実行する制御部を含むモデル生成装置。